• 财讯网
  • 主页 > 热点资讯 > 正文

    世界微资讯!计算机行业专题研究-GPT系列:具身化多模态PALM-E

    2023-03-14 09:32:31  |  来源:华泰证券股份有限公司  |  编辑:  |  


    (资料图片仅供参考)

    PaLM-E:具身化的多模态大语言模型

    PaLM-E 是由谷歌于3 月6 日提出的最新大语言模型,其特点在于引入具身化和多模态概念。具身化指的是在机器学习中涉及物理实体,对应PaLM-E指导现实的机器人完成相应任务;多模态指的是PaLM-E 在模型输入中嵌入了文本、图像、具身数据等信息。PaLM-E 的核心思想在于,通过将多模态信息编码为与语言相似的形式,嵌入已有的PaLM 模型,实现多模态的联合训练。其中,规模最大的PaLM-E 参数达5620 亿,是目前最大的视觉语言模型。从训练结果看,PaLM-E 具有很强的泛化和迁移能力,不仅能完成机器人具身推理任务,还能完成常规的视觉语言任务和通用语言任务。

    PaLM-E 解决了机器学习的grounding 问题

    机器学习的grounding 问题,指的是如何将抽象的符号或概念与真实世界的物体或事件联系起来的问题。例如,让机器学习模型将“苹果”这个词与“具有形状、颜色、味道等属性的水果”相关联。已有的很多模型是基于文本数据训练,没能与真实世界的视觉和物理传感器模态建立良好联系,且多模态输入尚未普及,限制了模型在现实世界中的推理能力。PaLM-E 通过将图像、文字、具身数据联合训练,并引入多模态输入,增强了模型对现实中对象的理解,实现了机器人处理具身推理任务,较好解决了grounding 问题。

    编码器是实现多模态输入的关键

    对应不同类别的多模态,需要分别设计不同类型的编码器进行编码。根据多模态的种类,PaLM-E 涉及的编码器主要包括:1)状态估计向量,实现物体位置、尺寸和颜色等状态信息编码;2)ViT:实现2D 图像编码;3)对象为中心的表示:实现对视觉输入中各对象的编码;4)OSRT:实现对3D场景的编码;5)实体引用:实现对难以用自然语言表述的对象的指代。完成编码后,即可注入已有模型进行训练和下游任务执行。

    PaLM-E 以“在环路”的方式指导现实机器人完成具身任务PaLM-E 训练数据集包含数十个子训练集,涉及视觉、语言和具身数据。由于以往的LLM 在具身研究和相应数据集积累上较少,因此训练集中的具身数据占比仅8.9%。在实际执行任务时,PaLM-E 以“在环路”的方式,一步一步指导机器人操作,并根据机器人的反馈调节输出指令。在任务与运动规划、桌面环境操作和移动操作等具身任务中,PaLM-E 能在部分仿真任务上取得优于SOTA 的结果,并成功指导现实中机器人完成长期任务。

    PaLM-E 同样在视觉/语言任务上取得较好效果

    虽然完成机器人具身任务是PaLM-E 模型研究的重点,但是经过文本、图像和具身混合数据集联合训练后,PaLM-E 同时获得了良好的通用视觉语言任务处理能力,甚至在某些测试集中取得了优于微调模型的结果。但是,在自然语言生成等通用语言任务上,多模态训练使得小参数规模的PaLM-E 存在灾难性遗忘问题,PaLM-E-12B 相比其原版PaLM-8B 的自然语言生成性能下降87.3%。不过,可以通过增加模型参数量实现性能改善。当模型参数增大到PaLM-E-562B 时,性能仅下降3.9%。

    风险提示:宏观经济波动,技术进步不及预期。本报告内容均基于客观信息整理,不构成投资建议。

    关键词:

    上一篇:    下一篇: