软件及服务-GPT-4到来:性能优化 多模态大幕拉开
2023-03-16 08:36:35 | 来源:中国国际金融股份有限公司 | 编辑: |
2023-03-16 08:36:35 | 来源:中国国际金融股份有限公司 | 编辑: |
【资料图】
事件
OpenAI在北京时间2023 年3 月15 日发布了多模态预训练大模型GPT-4,性能更加出色并支持多模态输入,OpenAI也随之发布技术报告并开源AI模型性能评估框架OpenAI Evals,继续推动模型进步。目前,GPT-4 已可在ChatGPT Plus和API调用中使用。
评论
GPT-4 开启多模态时代,接受包含文本和图片的输入,理解能力强大。
GPT-4 可以根据文本和图片的混合输入生成文本输出(包括自然语言和代码)。在含有文本和照片的文档、图表或屏幕截图等领域中,GPT-4 的表现都非常出色,能够理解“梗图”、做计算题以及总结论文。它也可以通过测试时技术(Test-Time Techniques)如few-shot和chain-of-thoughtprompting进一步扩展能力,图片功能目前仍处研究阶段,暂不对外开放。
高难度阈值与GPT-3.5 的对比及基于传统的机器学习基准,GPT-4 均效果更佳。相比前代GPT-3.5,GPT-4 在处理复杂任务时表现更为出色,在各大面向人类的考试中,GPT-4 展示出了更高的准确性、可靠性、创造力和理解能力,比如在Uniform Bar Exam中,ChatGPT的成绩排名在后10%,而GPT-4 的百分位在前10%。在传统机器学习的基准测试上,GPT-4 比包括SOTA在内的其他大型语言模型表现更优异,MMLU的基准上高出11.2%。在测试的26 种语言的24 种中,GPT-4 优于其他大语言模型的英语性能。GPT-4 也已被应用在了在OpenAI内部,例如内容生成、销售和编程,并在模型训练的第二阶段负责输出评估、对齐工作。此外,OpenAI开源了用于评价大语言模型的开源框架OpenAI Evals。这个框架可以帮助研究人员和开发者评估他们的模型,并提供更好的指导。
GPT-4 进一步重视安全性,生成回复的正确性得到了重点优化。OpenAI强调对模型进行评估和监控的重要性,以避免潜在的安全隐患。在OpenAI内部的对抗性真实性评估中,GPT-4 的得分比GPT-3.5 模型高出40%、对不允许内容的请求响应倾向降低了82%、对敏感请求(如医疗建议和自我伤害)的响应相符合政策的程度提高了29%。不足之处在于,GPT-4 仍缺乏对其数据截止日期(2021 年9 月)之后事件的了解,也难以从经验中学习,经过后训练的GPT-4 的校准率低于基础预训练模型。
综合来看,GPT-4 是大模型进军多模态的重要突破,有望打开应用天花板。我们认为,本次GPT-4 发布是“文-图-视频”多模态趋势的向前一步,短期有望催化AI发展生态,长期关注应用端更多可能性。
风险
技术进展不及预期,行业竞争加剧,商业化落地节奏不及预期。
关键词: