“终结者”走入现实?微软的野心:用ChatGPT控制机器人!

2023-02-26 16:16:08 来源:网络

【新智元导读】ChatGPT不止会动嘴,还能帮你操控无人机!

虽然ChatGPT已经被调教为符合人类的偏好,但在各种反向操作下,还是能够逼问出一些「不道德的内容」,比如ChatGPT可以给你列一份详细的毁灭世界计划列表,具体到每一步。

图片

不过,现在的ChatGPT只会动动嘴皮子,并没有任何接触现实物理世界的能力,顶多也就是当个科幻小说看看。

但要是ChatGPT真的可以操控机器人呢?

最近,微软发表了一篇论文,公布了他们正在把ChatGPT应用于机器人上的研究成果。

不过微软的目标并非是「毁灭世界」,而是加快机器人的开发速度。

图片

实际上在现代的生活和生产流程中,处处都离不开机器人,从工厂里制造产品的机械臂,到家庭里用的吸尘器,都可以算作是机器人(robot)。

每次想开发一个新产品,或者让现有的机器执行一个新功能,都需要一个高级工程师编写代码,同时尽可能编写测试覆盖所有场景。

微软在论文中提出了一套新的设计原则,通过ChatGPT这样的大型语言模型来给机器人提供指令。

ChatGPT:机器人控制器

ChatGPT之所以爆火,其根本原因就在于:AI终于在一定程度上能「听懂人话」了,而非只是按照语法胡乱生成内容;而且它的功能也很强大,问答、写论文、写诗、写代码,只要prompt写得够好,ChatGPT的表现也会更惊人。

要是把这种能力迁移到机器人身上,假设几十年以后,各家各户都有机器人,只要说一声「给我热一下午餐」,它就能自己找到微波炉,再把菜端回来,人机交互直接迈入新时代。

虽然「自然语言」很简洁,但现有的机器人开发还是依赖于「编程语言」。

ChatGPT 是一个基于大量文本和人类反馈训练得到的语言模型,能够针对各种各样的提示和问题产生连贯且语法正确的回应。

这项研究的目的是观察 ChatGPT 是否能够在文本之外的领域进行思考,并推理出物理世界来帮助机器人完成任务。

研究人员预期ChatGPT能够帮助用户更容易地与机器人交互,而不需要学习复杂的编程语言或机器人系统的细节,其中的关键难题就是教 ChatGPT 如何使用物理定律、操作环境的背景以及了解机器人的物理行为如何改变世界状态,并以此来解决指定的任务。

图片

实验证明,ChatGPT 可以独立完成很多工作,但是它仍然需要一些辅助,论文中描述了一系列的设计原则,可以用来指导语言模型解决机器人任务,包括但不限于特殊的提示结构、高级 API 和基于文本的人类反馈等,一场机器人系统的开发革命即将到来。

全新的代码设计流程

给大型语言模型写prompt是一门高度经验主义的科学,通过反复试验,研究人员建立了一套方法论和设计原则,专门用于为机器人任务撰写提示:

图片

1. 定义了一组高级机器人 API 或函数库。

这个库可根据特定的机器人类型进行设计,并且应该从机器人的控制栈或感知库映射到现有的低层次具体实现。

对高级 API 使用的描述性名称非常重要,可以帮助 ChatGPT推断函数的功能。

2. 为 ChatGPT 编写一个文本提示,用来描述任务目标,同时显式说明高级库中的哪些函数是可用的。

提示中还可以包含有关任务约束的信息, 或者 ChatGPT 应该如何组织它的答案,包括使用特定的编程语言,使用辅助解析组件等 ;

3. 用户在循环中评估 ChatGPT 的代码输出,可以直接执行代码以检查正确性,也可以使用模拟器。

如果有需要的话,用户可以使用自然语言向 ChatGPT 提供有关答案质量和安全性的反馈。

当用户对解决方案感到满意时,就可以将最终的代码部署到机器人上。

ChatGPT+机器人能做什么?

下面是几个例子,更完整的ChatGPT能力列表参见代码仓库。

图片

代码链接:https://github.com/microsoft/PromptCraft-Robotics

Zero-shot任务规划

当ChatGPT遇上无人机,研究人员首先让 ChatGPT 能够控制一台真正的无人机的全部功能,然后按照下面视频中进行的对话,实验结果证明,一个完全不懂技术的用户,只需要通过对话就能实现控制无人机,「自然语言」是一个非常直观、高效的用户接口。

03:04

当用户的指令含糊不清时,ChatGPT 会要求用户进一步说明问题,并为无人机编写复杂的代码结构,例如飞行之字(zig-zag)图案,以便可视化地检查货架;甚至还能给用户来一张自拍。

研究人员还在 MicrosoftAirSim 模拟器中对工业检查场景中使用ChatGPT进行模拟,结果显示该模型能够有效地解析用户的高级意图和几何线索,以准确地控制无人机。

03:43

复杂的任务需要用户参与反馈

当把ChatGPT用于机械臂的操作场景时,研究人员使用「会话反馈」(conversational feedback)来教模型如何将最初提供的 API 组合成更复杂的高级函数,即ChatGPT自己内部编码的函数。

使用以课程为基础(curriculum-based)的策略,ChatGPT能够将这些学到的技能有逻辑地链接在一起,以执行诸如堆叠块之类的操作。

此外,还有一个例子能展现出ChatGPT的强大能力,研究人员要求模型用木块构建微软标志,即需要将文本域和物理域连接起来。

图片

ChatGPT不仅能够从内部知识库中回忆出微软的logo,还能够用SVG的代码「绘制」出这个标志 ,然后利用上面学到的技能来确定现有的机器人动作可以组成它的物理形式。

02:16

还有一个例子,研究人员让 ChatGPT 编写一个算法,让无人机在不撞上障碍物的情况下,在空中达到目标。

只需要告诉模型,它操控的这架无人机有一个前向距离传感器,ChatGPT 立即能够为算法编码了大部分关键构件,这个任务需要与人类进行一些对话,ChatGPT 仅通过自然语言反馈就能进行局部代码修改。

01:12

在行动之前感知世界

在算法决定做某事(action)之前能够感知世界(perception)是打造一个机器人系统的基础。

为了测试 ChatGPT 对指定概念的理解,研究人员设计了一个框架,要求ChatGPT不断探索环境,让模型访问诸如目标检测和目标距离 API 之类的函数,直到找到用户指定的对象,整个过程称为感知-行动循环(Perception-action loops)。

在实验环节,研究人员进行了额外的实验来评估 ChatGPT 是否能够根据传感器的实时反馈来决定机器人应该去哪里,而不是让 ChatGPT 生成一个代码循环来做出这些决定。

实验结果验证了用户可以在聊天的每一步输入一个相机图像的文本描述,并且模型能够找出如何控制机器人,并驱使机器人到达一个特定的对象。

01:42

开源PromptCraft:收集有价值的prompt

「良好的prompting工程」对于ChatGPT等大型语言模型成功执行机器人任务来说至关重要。

但prompting完全是一门经验主义的科学、缺乏全面的总结,并且相关资源也很少,没有数据集来帮助该领域的研究人员和爱好者判断什么是一个好的prompt

为了弥补这一劣势,研究人员开源了一个平台 PromptCraft,任何用户都可以在其上分享不同机器人类别的提示策略示例。

这次研究项目的所有提示和对话都已经放在了仓库中,感兴趣的读者可以继续参与贡献!

图片

除了快速设计之外,研究人员还计划未来开发多个机器人模拟器和接口,以允许用户测试ChatGPT生成的算法性能,目前已经发布了一个集成ChatGPT的AirSim环境。

把机器人带出实验室,走向世界

微软发布这些技术的目的是将机器人技术推广到更广泛的受众,研究人员认为,基于语言的机器人控制系统是把机器人从科学实验室带到日常用户手中的基础。

也就是说,ChatGPT 的输出不应该在没有仔细分析的情况下直接部署在机器人上。

通过在模拟环境中获得实验结果,能够在未来现实部署之前对算法进行评估,并采取必要的安全预防措施。

,“终结者”走入现实?微软优秀散文 的野心:用ChatGPT控制机器人!

相关:

仅花费60美元就能破坏0.01%数据集 AI模型性能显著降低编辑:袁铭怿网络规模的数据集很容易受到低成本的投毒攻击,这种攻击只需要一小部分被破坏的样本就可以使整个模型中毒。用于训练深度学习模型的数据集已经从数千个精心策划的示例增长到具有数十亿个从互联网自动爬取样本的网络规模数据集。在这种规模下,通过人力管理来确保每个示例的质量是不可行的。到目前为止,这种数量高于质量的权衡是可以接受的,一方面是因为现代神经网络对大量标签噪声具有很强的适应力,另一方面是因为..

近1600次地震,竟由它引起!“灾难性”影响当地时间24日,荷兰议会发布一份关于荷兰北部格罗宁根气田开采的调查报告,称气田开采为荷兰政府和油气巨头带来了数千亿欧元的利润,但同时引发了上千次地震,对当地产生了“灾难性”的影响。自动播放荷兰议会的报告指出,过去60年来,格罗宁根气田产生的利润达4290亿欧元,其中3630亿欧元流入荷兰财政部,660亿欧元流入共同经营气田的能源巨头壳牌和埃克森美孚。与此同时,尽管格罗宁根并不位于地震带上,但在这60年间,当地却..

挺进深远海!中国首艘双模式高速风电运维船顺利出海IT之家 2 月 26 日消息,据三峡集团官方消息,国内首艘 30 米级 CAT-SWATH 双模式高速风电运维船 2 月 23 日于江苏省如东县首次出海。三峡集团表示,该运维船针对传统双体船在复杂海况下适航性差、出航率低的缺点进行了改良,在航速和靠泊能力方面实现了新突破,标志着我国海上风电运维产业向个性化、高质量发展迈出重要一步。▲ 图源:三峡集团数据显示,该运维船总长 32.4 米,型宽 11.6 米,排水量约 200 ..

新能源巨头比亚迪两年“圈芯”近20家集微网消息,比亚迪2022年官宣停止燃油汽车的整车生产,这家新能源巨头自此成为全球首家“断油”车企。这一年,比亚迪产销数据一路向好,全年汽车的销量达186.3万辆,产量为187.7万辆,为全球新能源汽车销量第一。同时,比亚迪走出“高营收低利润”的怪圈,2022年净利润规模首次突破百亿元大关,预计达到160亿元-170亿元,同比增长425.42%-458.26%。投资版图电动化与智能化时代,与燃油车相比,新能源汽车与半导体的联系更为紧密..

为应对市场需求下滑 传AMD削减台积电5nm处理器产能2月25日消息,据外媒Wccftech 报导,市场传闻AMD已经将2023年第二季台积电5nmEPYC Genoa CPU晶圆订单量减至仅3 万片,原因不是5nm EPYC Genoa CPU 销售不佳,而是整个服务器市场需求减少。资料显示,AMD EPYC Genoa CPU采用基于台积电5nm制程 Zen 4 核心架构, 拥有高达 96 个核心和 192 个执行单元,并封装于 12 个 CCD。因 Genoa CPU 的优秀设计,使得 AMD 预估 2023 年可拿下 20% 服务器市场..

PS5 Pro要来!索尼发布会将揭晓“PS5的第二阶段”近日,知名爆料人Jeff Grubb透露,索尼将在E3期间举办一场PlayStation发布会,并将有重大内容宣布。据这位爆料人透露的信息,这场发布会上,索尼将会介绍“PS5的第二阶段”,这不仅将包含大量尚未露面的第一方游戏大作,还狠可能包含备受玩家关注的PS5半代升级版。从目前已知的信息来看,如果索尼确实打算公布与PS5 Pro相关的消息,那么这款新机型大概率会在核心性能、体积与散热系统上做出优化,但在SSD等方面,大概率不会有..

美国390亿美元的芯片援助 不是为了扶持陷入困境的芯片厂商在乔·拜登总统的政府准备接受 390 亿美元资金以启动美国微芯片生产的请求之际,他的商务主管强调该计划的重点是加强国家安全,而不是提振陷入困境的芯片制造商。商务部长吉娜·雷蒙多 (Gina Raimondo) 表示,美国下周二将公布根据去年通过的《芯片与科学法案》资助的制造部分的申请,并将在其选择标准中“非常明确”。“我预计会有很多失望的公司觉得他们应该有一定数额的钱。现实是我们在这里的投资回报是我们国家安全目..

郭明錤:苹果将于2025年推出低端VR头显集微网消息,天风国际证券分析师郭明錤在最新调研报告指出,苹果计划在2025年推出“低端”和“高端”的第二代AR头显。据CNBC报道,第一种型号预计售价约为3000美元,这意味着郭明錤关于未来“低端”型号的报告可能预示着更实惠的版本即将推出,将有助于苹果吸引更庞大的用户群。日前日媒报道称,一位了解开发情况的高管表示,“苹果的第一代AR设备将非常昂贵,而且真的只能吸引那些热情的科技发烧友或高端客户。但苹果希望在并行..

全球最大笔记本曝光:重量45公斤 配备43英寸屏幕笔记本电脑的便携性是其主要的卖点之一,但有些人却想要打造一台超大尺寸的笔记本电脑。近日,YouTube 频道 Evan and Katelyn 就发布了一期视频,展示了他们制作的全球最大的笔记本电脑,这台笔记本电脑配备了 43 英寸的屏幕,重达 45 公斤。视频中,Evan 和 Katelyn 介绍了他们制作这台巨型笔记本电脑的过程和细节。他们首先选择了一台英特尔 NUC11 主机作为这台笔记本电脑的核心部件,并在网上购买了一块 43 ..

iPhone存在重大漏洞!歹徒靠“偷看”搬空银行存款众所周知,iPhone允许使用手机密码重置苹果帐户密码,然而这被用来方便健忘人士的贴心设计却被别有用心之人利用。据媒体最新报道,近期,越来越多iPhone用户向警方报案时称,手机被盗或被抢后,很快就进不去自己的苹果帐户,银行里的钱立即被盗。报道称,歹徒只需采用偷看等手段窃取手机密码,然后偷走手机,就可以在几秒内篡改用户Apple ID相关联的密码,然后盗走金融账户里的钱财。前纽约警局警探Alex Argiro对媒体表示,过..