新模型解决了机器人训练需要大量数据的难题。

7 月 29 日,《纽约时报》的记者在谷歌实验室,率先看到了谷歌最新推出的 RT-2 模型驱动的机器人。

一个单臂机器人站在一张桌子前。桌子上坐着三个塑料雕像:狮子、鲸鱼和恐龙。工程师给机器人发出指令:「捡起灭绝的动物。」机器人呼呼地响了一会儿,然后手臂伸出,爪子张开落下。它抓住了恐龙。

这是一道智能的闪光。

《纽约时报》描述道,「直到上周,这一演示还是不可能的。机器人无法可靠地操纵它们以前从未见过的物体,它们当然也无法实现从「灭绝的动物」到「塑料恐龙」的逻辑飞跃。」

虽然仍然存在于展示之中,且谷歌并不打算立即进行更大规模的发布或者对其进行商业化,但这一展示已经足以展现大模型为机器人能够带来的机遇的一角。

在大模型时代到来之前,人们训练机器人,通常针对每个任务进行优化,比如抓取某种玩具,需要足量的数据,机器人才能准确地从各个角度、各个光线下识别这种玩具,抓取成功。而让机器人意识到自己有抓取玩具的任务,也需要对机器人进行编程才能解决。

而大模型的智能和泛化能力,让人们看到了解决这些问题,走向通用机器人的一道曙光。

01 将 Transformer运用到机器人中谷歌新的 RT-2 模型,全称为 Robotic Transformer 2,运用 Transformer 架构作为其模型的基座。

2018 年被提出的 Transformer 架构,是目前火遍全球的大语言模型(LLM)的最底层的基座,但事实上,作为一种架构,Transformer 不止可以应用于大语言模型当中,也可以用于训练其他类型的数据。早在今年 3 月份,谷歌就发布了 PaLM-E,是当时世界上最大视觉语言模型(VLM)。

大语言模型中,语言被编码为向量,人们为模型提供大量的语料,使其能够预测出人类通常下一句会说什么,借此生成语言回答。

而在视觉语言模型中,模型可以将图像信息编码为与语言类似的向量,让模型既能「理解」文字,又能用相同方式「理解」图像。而研究员们为视觉语言模型提供大量的语料和图像,使其能够执行视觉问答、为图像添加字幕和物品识别等任务。

无论是图像还是语言,都是相对容易大量获取的数据。因此,模型很容易取得令人惊艳的成果。

而想使用 Transformer 架构来生成机器人行为,却有一个很大的难点。「涉及到机器人动作的数据非常昂贵。」清华大学交叉信息研究院助理教授许华哲教授告诉极客公园,「视觉和语言数据都来自于人类,是被动数据,而机器人的动作数据,全部是来自于机器人的主动数据。

比如我想研究机器人倒咖啡的动作,不管是写代码让机器人执行,还是利用其他的方式让机器人执行,都是需要机器人实际执行一遍这个操作才能得到这个数据。因此,机器人的数据与语言和图片的规模和量级是完全不一样的。」

在谷歌研究的第一代机器人 Transformer 模型 RT-1 中,谷歌第一次开启了这样的挑战,尝试建立一个视觉语言动作模型。

为了建立这样的模型,谷歌使用了 13 个机器人,在一个搭建的厨房环境中耗时 17 个月收集到了机器人在 700 多个任务上的主动数据组建的数据集。

数据集同时记录了三个维度:

视觉——机器人在执行任务操作时的摄像头数据;语言——用自然语言描述的任务文字;和机器人动作——机器手进行任务时在 xyz 轴和偏转数据等。虽然当时得到了较好的实验效果,但可想而知,想要进一步增加数据集内数据的数量,将是一件非常难的事情。

图片来源:Saycan 介绍视频

虽然在这样双层模型架构中,机器人能够成功做出的动作已经是预先设计好的,大语言模型只是能够帮助机器人选择合适的任务规划。在这样模型中,机器人已经展现出了极强的智能感。

不过,虽然从外在看起来效果是类似的,RT-2 采取的是另一种道路。通过训练时模型就同时学习视觉、语言、机器人行为这三种数据,RT-2 的模型并不是先进行任务分解,再进行任务操作,而是自然语言输入后,通过模型的运算,直接产生动作的输出。

「双层结构类似于我想去做一件事情,脑袋里先想好第一步干这个,第二步干那个,然后再挨个执行这些策略。」许华哲教授表示,「而端到端的结构类似于我也没有特别仔细想第一步、第二步是什么,就把这个事情给干了。」后者的一个例子可以类比于我们每天在手机上打字聊天,我们打字聊天时一般不会认真思考肌肉具体要如何去动作,而是想到了要打的字,就直接打出来了。

「两种不同的路线或者不同的方法,都还没有证明自己是唯一正确的方式。」许华哲表示。但由于 RT-2 的优秀表现,一个模型能够接管输入输出的技术方向,似乎值得探索。

「由于这一变化(RT-2 的优秀表现),我们不得不重新考虑我们的整个研究规划了,」谷歌 DeepMind 机器人技术主管文森特·范霍克(Vincent Vanhoucke)表示。「之前所做的很多事情都完全变成无用功了。」

03 RT-2 是机器人的 GPT3 时刻吗?谷歌的 RT-2 机器人并不完美。在《纽约时报》记者目睹的实际演示中,它错误地识别了一罐柠檬味苏打水的味道(说成「橘子味」)。还有一次被问到桌子上有什么水果时,机器人回答成「白色」(实际是香蕉)。谷歌发言人解释说,该机器人使用了缓存的答案来回答之前测试者的问题,因为它的 Wi-Fi 曾短暂中断过。

除此之外,利用大模型训练机器人,不可避免地要面对成本问题。目前谷歌的机器人在进行推理和判断的时候,需要将数据传到云端,由多块 TPU 一起进行计算,再将结果发回机器人,由机器人执行操作。这样的计算可想而知十分昂贵。

谷歌 DeepMind 机器人技术主管文森特·范霍克(Vincent Vanhoucke)认为,新的研究开启了机器人能够在有人的环境中使用的大门——研究者认为,内置了语言模型的机器人可以进入仓库、用于医疗行业,甚至成为家庭助理,帮助折叠衣物、从洗碗机中取出物品、在房子周围收拾东西。

「如果你开一个工厂,需要使用机器人,成功率一定是要求很高的。你不会希望说买了机器人后,还需要很多人去维护这个机器人,完善机器人做的不够好的事情。那这样成本太高了。」许华哲教授表示,「家居场景下的机器人可能是另一个情形,因为也许家居场景下的一些任务的成功率要求没有那么高。比如叠衣服,叠的没有那么好,可能在你眼中这个任务失败了,但对你的影响也不会非常大。」

人工智能三巨头之一的杨立昆(Yaan Lecun)有一个强调过许多次的著名论断:人工智能还不够聪明。任何一个孩子都能很快学会收拾桌子,把碗放进洗碗机,而机器人却做不到。

目前的机器人研究或许确实如此,但正如不完美的 GPT-3 让业界看到了大模型发展的方向一样,或许今天不完美的 RT-2 也将开启机器人进入家庭成为我们的助手的未来时代。

作者 admin