软件及服务-GPT-4到来：性能优化多模态大幕拉开

2023-03-16 08:36:35 | 来源:中国国际金融股份有限公司 | 编辑: |

【资料图】

事件

OpenAI在北京时间2023 年3 月15 日发布了多模态预训练大模型GPT-4，性能更加出色并支持多模态输入，OpenAI也随之发布技术报告并开源AI模型性能评估框架OpenAI Evals，继续推动模型进步。目前，GPT-4 已可在ChatGPT Plus和API调用中使用。

GPT-4 开启多模态时代，接受包含文本和图片的输入，理解能力强大。

GPT-4 可以根据文本和图片的混合输入生成文本输出（包括自然语言和代码）。在含有文本和照片的文档、图表或屏幕截图等领域中，GPT-4 的表现都非常出色，能够理解“梗图”、做计算题以及总结论文。它也可以通过测试时技术（Test-Time Techniques）如few-shot和chain-of-thoughtprompting进一步扩展能力，图片功能目前仍处研究阶段，暂不对外开放。

高难度阈值与GPT-3.5 的对比及基于传统的机器学习基准，GPT-4 均效果更佳。相比前代GPT-3.5，GPT-4 在处理复杂任务时表现更为出色，在各大面向人类的考试中，GPT-4 展示出了更高的准确性、可靠性、创造力和理解能力，比如在Uniform Bar Exam中，ChatGPT的成绩排名在后10%，而GPT-4 的百分位在前10%。在传统机器学习的基准测试上，GPT-4 比包括SOTA在内的其他大型语言模型表现更优异，MMLU的基准上高出11.2%。在测试的26 种语言的24 种中，GPT-4 优于其他大语言模型的英语性能。GPT-4 也已被应用在了在OpenAI内部，例如内容生成、销售和编程，并在模型训练的第二阶段负责输出评估、对齐工作。此外，OpenAI开源了用于评价大语言模型的开源框架OpenAI Evals。这个框架可以帮助研究人员和开发者评估他们的模型，并提供更好的指导。

GPT-4 进一步重视安全性，生成回复的正确性得到了重点优化。OpenAI强调对模型进行评估和监控的重要性，以避免潜在的安全隐患。在OpenAI内部的对抗性真实性评估中，GPT-4 的得分比GPT-3.5 模型高出40%、对不允许内容的请求响应倾向降低了82%、对敏感请求（如医疗建议和自我伤害）的响应相符合政策的程度提高了29%。不足之处在于，GPT-4 仍缺乏对其数据截止日期（2021 年9 月）之后事件的了解，也难以从经验中学习，经过后训练的GPT-4 的校准率低于基础预训练模型。

综合来看，GPT-4 是大模型进军多模态的重要突破，有望打开应用天花板。我们认为，本次GPT-4 发布是“文-图-视频”多模态趋势的向前一步，短期有望催化AI发展生态，长期关注应用端更多可能性。

风险

技术进展不及预期，行业竞争加剧，商业化落地节奏不及预期。

关键词：

上一篇：每日讯息!不动产与空间服务：1-2月销售回暖投资修复节奏仍待观察　　下一篇：环球百事通！平煤、神马转债投资价值分析