(起头:MIT News)
在经典动画《杰森一家》中,机器东说念主女佣 Rosie 不错浮松地从打扫房间切换到作念饭、倒垃圾。关系词在现实中,测验一个通用机器东说念主却是极大的挑战。
频繁,工程师会为某一特定的机器东说念主和任务麇集有益的数据,在一个受控环境中对其进行测验。关系词,这种数据麇集不仅资本腾贵且耗时,况兼机器东说念主在目生环境或新任务下时常难以稳妥。
为了测验更高效的通用机器东说念主,MIT 的究诘东说念主员开采了一种生动的时期,将来自多种起头的大都异质数据整合到一个系统中,以此来考验机器东说念主多种任务。
这种标准通过对来自不同领域的数据(如仿真数据和践诺机器东说念主数据)以及多种模态(如视觉传感器和机械臂位置编码器)进行对都,将它们转化为一种“通用说话”,使得生成式 AI 模子不错惩办。
通过整合大都数据,这一标准不错用于测验机器东说念主实践多种任务,而无谓每次都重新开动测验。
这种标准不仅比传统时期更快速、资本更低,而且在模拟和现实实验中,比较从零开动的测验提高了越过 20% 的性能。
“在机器东说念主学领域,大家常说测验数据不及。但在我看来,另一个大问题是数据来自于太多不同的领域、模态和机器东说念主硬件。咱们的究诘展示了奈何将这些数据整合起来测验机器东说念主。”电气工程与研究机科学(EECS)专科的究诘生、论文第一作家 Lirui Wang 说说念。
Wang 的协作家包括同为 EECS 究诘生的 Jialiang Zhao、Meta 究诘科学家Xinlei Chen,以及资深作家、EECS 副考验和研究机科学与东说念主工智能实验室(CSAIL)成员 Kaiming He。该究诘将在神经信息惩办系统会议上展示。
模仿 LLM
机器东说念主“政策”会接受来自传感器的不雅测数据,举例录像头图像或机械臂的速率和位置测量数据,进而携带机器东说念主奈何移动、去往那里。
频繁,政策通过效法学习进行测验,即由东说念主类演示操作或长途闭幕机器东说念主生成数据,再将这些数据输入 AI 模子中进行学习。关系词,由于这种标准使用的任务数据量较少,机器东说念主在环境或任务发生变化频频常发达欠安。
为此,Wang 和他的团队模仿了 GPT-4 等大型说话模子的理念。
这些模子在测验初期使用大都各样化的说话数据进行预测验,随后再通过小数的任务数据进行微调,如斯大都的预测验数据使得模子能稳妥多种任务。
“说话领域中的数据都是句子,而机器东说念主数据的各样性极大。若是念念以访佛的方式进行预测验,咱们就需要不同的架构。”他说说念。
机器东说念主的数据花样各样,从录像头图像到说话辅导,再到深度图像。同期,每台机器东说念主在机械上也各不交流,臂数、夹握器和传感器的摆设相反,数据麇集的环境也天壤悬隔。
MIT 的究诘东说念主员因此开采了一种新架构,称为异质预测验变换器(HPT),将这些不同模态和领域的数据长入起来。
他们在架构的中枢部分引入了一种名为变换器的机器学习模子,用于惩办视觉和骨子感受(proprioception)输入。变换器恰是大型说话模子的基础。
究诘东说念主员将视觉和骨子感受数据对都为一种长入的输入花样,称为“token”,变换器不错惩办,每种输入都以交流数目的 token 暗示。
接着,变换器将统共输入映射到一个分享空间中,跟着数据惩办和学习量的增多,迟缓发展为一个大型预测验模子。变换器的畛域越大,其发达也越好。
用户只需向 HPT 提供小数对于机器东说念主瞎想、诞生和策划任务的数据,HPT 便能将预测验时候赢得的常识转化,学习新的任务。
完了生动操作
开采 HPT 靠近的最大挑战之一是建筑用于预测验的浩大数据集,涵盖了 52 个数据集,包含越过 20 万条机器东说念主轨迹,分为四个类别,包括东说念主类示范视频和仿真数据。
究诘东说念主员还需要开采一种高效的标准,将来自传感器阵列的原始骨子感受信号转化为变换器可惩办的数据。
“骨子感受对于完了好多理智的看成至关垂危。由于在咱们的架构中 token 数目老是交流,咱们赋予骨子感受和视觉交流的垂危性,”Wang 暴露说念。
在测试中,HPT 在模拟和现实任务中的机器东说念主发达比较每次从零开动的测验普及了越过 20%。即使任务与预测验数据诀别较大,HPT 的性能仍然得到了普及。
“这篇论文为跨多种机器东说念主结构测验单一政策提供了新的标准。这使得粗略在各样的数据集上进行测验,并大幅扩大了机器东说念主学习标准的数据集畛域。同期,这种标准还能快速稳妥新的机器东说念主结构,这对于新式机器东说念主瞎想的不停出现尤为垂危。”未参与该究诘的卡内基梅隆大学机器东说念主究诘所副考验 David Held 说说念。
将来,究诘东说念主员但愿探索数据各样性对 HPT 性能的普及作用,同期瞎想增强 HPT,使其粗略像 GPT-4 和其他大型说话模子雷同惩办无标注数据。
“咱们的梦念念是领有一个通用的机器东说念主‘大脑’,用户无需任何测验就能径直下载使用。天然咱们当今还处在起步阶段,但会连续勤快,但愿像大型说话模子的破坏雷同,在机器东说念主政策上取得破坏性进展。”他暗示。
该究诘部分由亚马逊大波士顿时期瞎想和丰田究诘院资助。
原文一语气:
https://news.mit.edu/2024/training-general-purpose-robots-faster-better-1028