【天天快播报】计算机行业GPT产业复盘(2022)：推出CHATGPT

2023-02-20 08:22:15 | 来源:华泰证券股份有限公司 | 编辑: |

(资料图)

溯源GPT 发展：2022 年ChatGPT 面世，LLM 里程碑式胜利梳理GPT 系列模型的演进过程，可以看到2022 年是GPT 系列模型围绕GPT-3、GPT-3.5 加速版本迭代的重要节点，2022 年11 月，ChatGPT 成功面世，成为历史上用户增长最快的消费者应用。与Google、FaceBook等公司不同，OpenAI 从初代模型GPT-1 开始，始终贯彻只有解码器（Decoder-only）的技术路径，2018-2022 年GPT 系列模型几乎按照每年一代的速度，不断迭代升级。我们认为，2022 年ChatGPT 的成功，是OpenAI公司GPT 系列模型的阶段性胜利，也是大语言模型LLM 的里程碑式胜利，后续围绕LLM 的技术升级、应用拓展有望加速开启，AI 产业发展或将提速。

ChatGPT：引入人类反馈，模型训练SFT、RM、PPO 三步走ChatGPT、InstructGPT 分别是基于GPT-3.5、GPT-3 微调得到的新版本模型，其核心目标是实现模型输出与人类预期的需求对齐（alignment），人类反馈强化学习RLHF 成为模型需求对齐的重要技术支持。ChatGPT、InstructGPT 的模型训练主要包括三步：1）有监督微调SFT：通过指示学习对模型进行有监督微调；2）奖励模型RM 训练：借助人工标注员对模型输出进行排序，反馈训练得到奖励模型，此步是人类反馈的重要体现；3）近段策略优化PPO 强化学习：通过监督学习策略生成 PPO 模型，优化、迭代原有模型参数。总结来看，RLHF 让模型输出更加符合用户预期。

ChatGPT VS InstructGPT：核心是基础大模型的不同对比ChatGPT 与InstructGPT 的训练方法，可以发现，两者的训练方法基本一致，核心区别在于InstructGPT、ChatGPT 分别基于GPT-3、GPT-3.5进行模型微调。与GPT-3 相比，GPT-3.5 增加了代码训练与指示微调：1）代码训练（Code-training）：让GPT-3.5 模型具备更好的代码生成与代码理解能力，同时间接拥有了复杂推理能力；2）指示微调（Instruction-tuning）：

让GPT-3.5 模型具备更好的泛化能力，同时模型的生成结果更加符合人类的预期。作为基于GPT-3.5 的模型微调产物，ChatGPT 具备更好的问答能力，更加遵循人类的价值观。

OpenAI VS Google：OpenAI 贯彻Decoder-only 路径，技术集大成者通过梳理Google 与OpenAI 在LLM 领域的布局，可以看到，OpenAI 具备两大突出特点：1）贯彻Decoder-only 技术路线：从GPT-1 到ChatGPT，OpenAI 的LLM 均采用Decoder-only 架构，单一架构的持续深耕与模型参数的不断扩大，让OpenAI 的GPT 系列模型具备强大的学习能力与文本生成能力；2）技术集大成者：ChatGPT 的发展不仅得益于GPT 模型参数、训练数据的持续优化，也得益于各类LLM 新技术的融会贯通，OpenAI 博采众长，加速Instruction-tuning、RLHF、思维链等新技术在GPT 系列模型中的深度应用，ChatGPT 是现有技术的集大成者。

风险提示：宏观经济波动；下游需求不及预期；本报告内容均基于客观信息整理，不构成投资建议。

关键词：集大成者强化学习