• 财讯网
  • 主页 > 热点资讯 > 正文

    【天天快播报】计算机行业GPT产业复盘(2022):推出CHATGPT

    2023-02-20 08:22:15  |  来源:华泰证券股份有限公司  |  编辑:  |  


    (资料图)

    溯源GPT 发展:2022 年ChatGPT 面世,LLM 里程碑式胜利梳理GPT 系列模型的演进过程,可以看到2022 年是GPT 系列模型围绕GPT-3、GPT-3.5 加速版本迭代的重要节点,2022 年11 月,ChatGPT 成功面世,成为历史上用户增长最快的消费者应用。与Google、FaceBook等公司不同,OpenAI 从初代模型GPT-1 开始,始终贯彻只有解码器(Decoder-only)的技术路径,2018-2022 年GPT 系列模型几乎按照每年一代的速度,不断迭代升级。我们认为,2022 年ChatGPT 的成功,是OpenAI公司GPT 系列模型的阶段性胜利,也是大语言模型LLM 的里程碑式胜利,后续围绕LLM 的技术升级、应用拓展有望加速开启,AI 产业发展或将提速。

    ChatGPT:引入人类反馈,模型训练SFT、RM、PPO 三步走ChatGPT、InstructGPT 分别是基于GPT-3.5、GPT-3 微调得到的新版本模型,其核心目标是实现模型输出与人类预期的需求对齐(alignment),人类反馈强化学习RLHF 成为模型需求对齐的重要技术支持。ChatGPT、InstructGPT 的模型训练主要包括三步:1)有监督微调SFT:通过指示学习对模型进行有监督微调;2)奖励模型RM 训练:借助人工标注员对模型输出进行排序,反馈训练得到奖励模型,此步是人类反馈的重要体现;3)近段策略优化PPO 强化学习:通过监督学习策略生成 PPO 模型,优化、迭代原有模型参数。总结来看,RLHF 让模型输出更加符合用户预期。

    ChatGPT VS InstructGPT:核心是基础大模型的不同对比ChatGPT 与InstructGPT 的训练方法,可以发现,两者的训练方法基本一致,核心区别在于InstructGPT、ChatGPT 分别基于GPT-3、GPT-3.5进行模型微调。与GPT-3 相比,GPT-3.5 增加了代码训练与指示微调:1)代码训练(Code-training):让GPT-3.5 模型具备更好的代码生成与代码理解能力,同时间接拥有了复杂推理能力;2)指示微调(Instruction-tuning):

    让GPT-3.5 模型具备更好的泛化能力,同时模型的生成结果更加符合人类的预期。作为基于GPT-3.5 的模型微调产物,ChatGPT 具备更好的问答能力,更加遵循人类的价值观。

    OpenAI VS Google:OpenAI 贯彻Decoder-only 路径,技术集大成者通过梳理Google 与OpenAI 在LLM 领域的布局,可以看到,OpenAI 具备两大突出特点:1)贯彻Decoder-only 技术路线:从GPT-1 到ChatGPT,OpenAI 的LLM 均采用Decoder-only 架构,单一架构的持续深耕与模型参数的不断扩大,让OpenAI 的GPT 系列模型具备强大的学习能力与文本生成能力;2)技术集大成者:ChatGPT 的发展不仅得益于GPT 模型参数、训练数据的持续优化,也得益于各类LLM 新技术的融会贯通,OpenAI 博采众长,加速Instruction-tuning、RLHF、思维链等新技术在GPT 系列模型中的深度应用,ChatGPT 是现有技术的集大成者。

    风险提示:宏观经济波动;下游需求不及预期;本报告内容均基于客观信息整理,不构成投资建议。

    关键词: 集大成者 强化学习

    上一篇:    下一篇: