• 财讯网
  • 主页 > 热点资讯 > 正文

    信息服务行业周报:计算机行业跟踪周报305期:AI技术不断突破 LLM实用性持续发展

    2023-05-14 10:26:12  |  来源:海通证券股份有限公司  |  编辑:  |  


    (资料图片仅供参考)

    Stability AI 推出Stable Animation SDK,视觉生成AI 向动画领域迈进。根据新智元官微,5 月11 日,Stability AI 推出文本生成视频工具——Stable AnimationSDK。此前,Stability AI 就已具备基于Stable Diffusion 的动画工具,例如,用户可以通过不断改变prompt 的某些属性生成动图。本次升级的不同之处在于,Stable Animation 生成视频的能力更全面、更成熟。借助Stability AI 的动画端点,Stable Animation 可以与每个版本的Stable Diffusion 结合使用来生成动画。同时,Stable Animation 还提供多种样板,包括动漫、漫画、低多边形和像素艺术。动画的原始分辨率是512 x 512 像素,可以增加到1024 x 1024 像素,也可使用升频器。Stable Animation 的默认值是72 帧(12 帧每秒),但根据说明,它可以增加到无穷大。Stable Animation SDK 支持三种方式创建动画效果:(1)prompt(纯文本)。与Stable Diffusion、Midjourney 或DALL-E 2 一样,用户通过输入prompt,调整参数,即可生成动画。(2)prompt+图像。输入初始图像作为动画的基础,再结合prompt 和初始图像,生成最终动画并输出。(3)prompt+视频。

    输入初始视频作为动画的基础。再结合prompt 和参数调整,生成最终动画并输出。目前,Stability AI 并没有通过他们的浏览器平台(如DreamStudio 或ClipDrop)提供此服务,仅能通过SDK 和付费API 使用。我们认为,随着Stable Animation等模型的进化,AI 生成动画有望成为现实,AI 应用领域有望进一步拓展。

    OpenAI 即将全面开放插件功能,LLM 商业落地进入新时期。根据Zaker 援引钛媒体消息,OpenAI 将在下周向所有ChatGPT Plus 用户推出网络浏览和插件功能。这意味着,下周开始所有ChatGPT Plus 用户即将迎来一个不仅提供新闻、订餐服务,还能实现外界网页应用的聊天平台,原来智能手机需要切换几个APP的任务,现在能够用一句命令实现。3 月,OpenAI 宣布推出插件功能,赋予ChatGPT 使用工具、联网、运行计算的能力。插件功能加持之下,ChatGPT 已经能生成网页、联网看实时新闻、使用Python 处理上传和下载的实验性ChatGPT模型;把动图转成视频并加入慢速缩放这类基础视频剪辑工作等。根据OpenAI官网,ChatGPT Plus 用户下周可以通过设置中新的测试面板开启功能。一旦新功能开启,能过尝试用联网浏览——浏览互联网来回答有关最近主题和事件的问题,以及70 多个插件应用,实现更多的操作交互。按照OpenAI 的计划,联网和插件等新功能,会分为3 个阶段更新:其中,Alpha 阶段只有一小部分用户能抢先试用,在这个阶段,OpenAI 的主要目标是收集不同群体用户的反馈,不断对新功能进行调整;Beta 阶段则向ChatGPT Plus 用户开放新功能测试;Beta测试完成后,OpenAI 会评估相关产品,如果一切顺利,所有ChatGPT 用户就都能体验联网和第三方插件了。我们认为,插件的投入使用,有望提供App 应用商店式的服务,这也大大拓宽了大模型的应用领域,LLM 商业落地进入新时期。

    谷歌推出PaLM 2,LLM 实用性显著扩展,并向“移动化”进展。根据谷歌黑板报官微,5 月11 日,谷歌推出升级版通用大语言模型——PaLM 2。PaLM 2 在各种规模的情况下都能提供出色的基础功能,包括壁虎(Gecko)、水獭(Otter)、野牛(Bison)和独角兽(Unicorn)。Gecko 非常轻巧,可以在移动设备上工作,其速度快到足以在设备上运行出色的交互式应用程序,即使在离线的状态下。由于对科学和数学课题进行了广泛的训练,PaLM 2 模型的逻辑和推理能力更强。

    它还接受了逾百种的多语言文本训练,因此它能够理解并生成精确的结果。结合强大的编码能力,PaLM 2 还可以帮助世界各地的开发人员进行合作。此外,谷歌还发布了针对安全用例进行了微调的Sec-PaLM,通过AI 来更好地检测恶意脚本, 并能够帮助安全专家理解和解决威胁; 根据医学知识进行了微调的Med-PaLM 2,接近于回答同一组问题的临床医生专家的表现,是第一个在医学执照考试上展现出“专家”水平的语言模型,展现出目前的最高技术水平。目前,PaLM 2 已经应用在超过25 种功能和产品中,包括Worksapece、Bard、谷歌搜索等。我们认为,PaLM 2 的推出,代表了AI 大模型实用性的广度和深度得到了显著扩展,有望如英伟达科学家Jim Fan 所说,“下一波LLM 将是移动原生的”。

    建议关注:金山办公,科大讯飞,航天信息,石基信息,云从科技,恒生电子

    风险提示:AI 技术发展不及预期。

    关键词:

    上一篇:焦点速看:钢铁周报:供给持续收缩 静待需求回暖    下一篇:最后一页