
henry 发自 凹非寺
量子位 | 公众号 QbitAI
还难忘Hugging Face前年推出的桌面机器东说念主Reachy Mini吗?
在刚发布的时候,量子位曾第一时刻报说念过这光棍高28cm、体重1.5kg的“萌物”《抱抱脸穷苦具身智能机器东说念主:5小时成交破百万,299好意思元起售》。
而在已往的泰半年的时刻里,这款桌面开源机器东说念主一经交出了一份颇为亮眼的收货单:
5天销售额粉碎100万好意思元、累计出货3000台以上,甚而还登上了黄仁勋的CES展台。

也正因如斯,许多东说念主第一次意志到——
阿谁被称为“AI圈GitHub”的平台,正在把开源玄学着实带进具身智能寰宇。
不外,很少有东说念主详实到,在这款299好意思元起售的小机器东说念主背后,还有一家中国公司参与了关键一环。
它即是矽递科技(SeeedStudio),Reachy Mini恰是由它打造。
当作一家开源硬件平台,矽递并不是像宇树那样作念整机家具的机器东说念主公司,也不是主打某一款东说念主形机器东说念主的厂商。
它在具身智能产业链里的变装,更像是一个硬件系统平台型公司。
一方面深度参与英伟达Jetson野心平台生态,是英伟达的精英级合作伙伴;
另一方面,它也提供机器东说念主大脑主控决策、电秘要害、传感器以及一系列开源机器东说念主套件,办事于开发者与初创团队。
换句话说,当Hugging Face从模子平台走向机器东说念主硬件、当开源社区驱动尝试“软硬勾通”,像矽递这样的公司,正在成为贯穿模子、硬件与开发者生态的紧要节点。

而在与矽递科技AI机器东说念主家具线的对话中,量子位也从一个稀有的机器东说念主硬件制造商视角,听到了他们对具身智能产业的不雅察与判断:
AI跟随与具身智能载体并不冲突,机器东说念主的物理形态将会在一众依赖屏幕的家具中脱颖而出。Reachy Mini桌面机器东说念主的制造都备不同于东说念主形机器东说念主,难点包括声学遐想。低资本机器东说念主改日的分水岭不在于低廉,而在于可达性。对于具身智能开发而言,少即是多,过于复杂的目田度并不是必须。开源之于具身智能的道理在于诽谤门槛。单纯的极限畅通并不行被视为一个好的机器东说念主demo,一个好的demo应该是厚实、及时可互动的,而且能够让路发者基于此作念进一步的延迟。遥操作是算法查考的一部分,对于硬件自己来说,不行只怜惜性能和资本,还必须斟酌与数据需乞降查考框架的适配性。数据驱动的具身智能范式正在从头界说硬件……以下是与来自矽递的吴丹(机器东说念主家具线负责东说念主)和朱耀晖(机器东说念主家具线运用工程师)的采访实录(在不改变应允的基础上,有批改):
Reachy Mini、开源硬件、制造商眼中的具身智能Reachy Mini是什么?Q:如何给一个即是不了解机器东说念主去先容Reachy Mini,它是一个怎么的一台机器东说念主?刻下最中枢和最典型的才调是什么?
吴丹:Reachy Mini是一个高度盛开的桌面的机器东说念主。
它具备好意思满的多模态交互才调:搭载录像头和麦克风,可以“看见”和“听见”,同期赈济语音输出与用户对话。
此外,它领有九轴畅通才调,头部能够作念转移作反馈,通过姿态变化抒发情景与厚谊,使互动愈加天然生动。
如果向一个不作念机器东说念主的东说念主先容Reachy Mini,我会说它是一个可以放在桌面上、与寰球互动的机器东说念主,带有一定文娱和跟随属性。
同期,因为它是开源盛开的平台,赈济二次开发,是以运用场景会握住蔓延。
另外,对于不作念机器东说念主,但了解大模子的(开发者)来说,Reachy Mini的中枢才调依然是多模态交互。
它能够听、看、说,完毕视觉、语音与动作的勾通。同期,它可以贯穿Hugging Face上的各类大模子,赈济机动调用,也适合作念智能体(Agent)开发,比如通过OpenClaw等形态接入。
是以,即使不是作念传统机器东说念主的开发者,对于算法工程师或偏软件布景的开发者来说,它不异是一个比较合适的平台。
Q:具体而言,Reachy Mini是何如进行交互的呢?
朱耀晖:Reachy Mini刻下有两个版块。
一个是不带主控的版块,用户可以把它接入我方的札记本电脑,或者贯穿到外部主控开采,比如Jetson、树莓派,或者RK、地平线等芯片平台,然后基于这些开采进行开发,或者体验它原有的功能。
另外一个是无线版块,里面自带主控,选择的是树莓派决策,开机之后就可以奏凯使用,不需要稀疏贯穿开采。
对于定位:AI跟随家具与具身智能载体并不冲突
Q:当作一个一款桌面机器东说念主,Reachy Mini更应该被厚实为一个AI+跟随家具,照旧一个具身智能的载体,你们更倾向于哪一种定位?
吴丹:我以为它刻下更偏向于一个具身智能的载体。因为它自己是一个盛开平台,中枢是用来构建多模态机器东说念主系统的,是以从定位上来说,它更适合作念开发。
不外,它现存的功能里照实也包含一部分跟随属性。是以我以为这两点并不冲突。只是因为它的开发属性更强,对于开发者来说,它更像是一个具身智能的平台。
但从用户层面来看,也有许多家庭用户购买。比如有家长反馈,8岁的小一又友都可以我方把它搭建起来,况且玩得很好。对他们来说,它更像是一个跟随型家具。
是以我认为这两种定位是同期存在的。
如果用户只是但愿有一个跟随型机器东说念主,那它现存的功能一经迷漫;如果是开发者思基于它去作念智能体(Agent)或其他蔓延开发,它也提供了充足的资源赈济。
Q:作念跟随型机器东说念主常常会强调厚谊价值,外不雅也常常比较可人。那Reachy Mini在遐想和制造时,是否有杰出斟酌外形和“萌感”?
吴丹:有的。比如它的“大小眼”遐想,即是一个比较萌的元素。另外,它头上的两个触角——也即是天线——是可以动的,这亦然一个增强可人感的小细节。
还有它底下阿谁圆圆的“大肚子”,全体遐想其实即是从比较萌的场所开拔的。
另外,因为它是开源的,用户是可以我方转变外不雅的。比如换颜料,或者作念一些造型上的修订。之前PollenRobotics在万圣节时,就把它改形成南瓜的表情;
圣诞节的时候,也可以作念成圣诞树的造型。
是以一方面,它自己的遐想就比较可人;另一方面,它也很容易被二次修订。只须通过3D打印,就可以对外不雅进行个性化诊治。
Q:如果我买一台Reachy Mini,思通过3D打印给它作念一些外不雅配件,官方会提供相关教程或社区赈济吗?
朱耀晖:会的。我们后续会执续补充相关内容。它自己就会提供3D打印的遐想文献,用户可以基于这些文献进行打印和修订。我们也会在社区里逐渐加多更多教程和遐想示例,便捷寰球上手。
Q:当今也有许多桌面AI家具,比如带屏音箱、智能助手开采,它们不异能提供跟随体验,但并不会把我方界说为“机器东说念主”。为什么你们照旧聘任机器东说念主这种形态?在形态遐想上,最紧要的弃取是什么?
吴丹:这个问题其实PollenRobotics(Reachy Mini的遐想团队,被Hugging Face收购)团队之前也谈到过。
他们认为,我们一经被各式屏幕高度包围——iPad、手机、电脑,险些无处不在。
这些开采里其实都一经有智能助手,但全体照旧停留在“屏幕交互”层面,穷乏着实的参与感。
比较之下,机器东说念主形态能带来更强的互动体验。比如Reachy Mini里有一个emoji功能,当你触发不齐心境时,它和会过动弹脑袋、舞动触角、配合声息作念出反馈。
△图源:推特网友Trtd6Trtd这种勾通动作和声息的抒发,会让东说念主嗅觉它在“申报你”,而不单是是屏幕上的一个界面变化。
是以我以为,这是东说念主与技巧之间互动形态的一种变化。PollenRobotics但愿打造的是一种更有参与感、更具互动性、也更东说念主性化的形态。
他们认为,一个迷你机器东说念主的形态,不仅要有诱骗力,还要能够传递信任感和好奇心,同期带一丝亲和、可人的特质。某种进程上,它是在技巧感和亲和力之间作念了一个均衡。
Q:它当今眼睛、头部都可以行径,比较一般的桌面AI结尾,可能会更耗电。那这款家具是需要一直插电使用,照旧赈济充电、无线使用?
吴丹:我们刚刚提到,它有两个版块。
其中一个版块是不带主控的,需要接外部开采,比如Jetson或者用户我方的电脑。这个版块是需要插电使用的。
另一个是无线版块,里面自带主控和电板,可以开脱电源线,寂寥运行,不需要一直插电。
Q:有效户在外交平台分享,说买回Reachy Mini之后需要我方DIY组装、下载模子、部署环境。对许多非技巧布景的东说念主来说,这听起来门槛不低。你们是如安在“可玩性”和“易用性”之间作念均衡的?
吴丹:这个问题其实也和Reachy Mini遐想的初志相关。它最驱动但愿面向的是那些思探索开源机器东说念主、尤其是但愿尝试把Agent智能体模子集成到机器东说念主里的用户。是以它既要有可开发性,也要兼顾文娱和平方使用。
在易用性方面,其实我们作念了许多优化。
用户收到家具后,会发现装置证据书相当详备,通盘组装时刻简略在2到3个小时傍边,而且大部分结构一经预装完成,着实需要我方动手的部分并不复杂。
我之前提到过,8岁的小一又友都可以完成组装,是以全体难度并不高。某种进程上,它反而成为一个很好的亲子互动或者一又友沿途动手的过程。
另外,在软件层面,它也提供了许多“开箱即用”的运用。
装置完成之后,会有一个可视化UI界面,用户可以奏凯点击体验。Hugging Face和PollenRobotics也一经准备了不少示例运用和教程,匡助用户快速上手。
至于可玩性,如果是开发者用户,我们也相当宽宥他们深度参与。
比如可以接入OpenClaw,作念谚语音助手;也可以接入Home Assistant,变成婚庭智能家居的经管进口。
这样一来,Reachy Mini就不单是是一个桌面机器东说念主,而是可以融入家庭或办公场景。
像在本年CES上,黄仁勋演讲中Hugging Face展示的一些Demo,比如,斟酌Reachy Mini野心,Reachy Mini 可以字据看到的野心表,再通过语音或者土产货界面发给用户,这类才调都可以通过多模态大模子接入进来。
是以我们但愿它既能让世俗用户讲理体验,也能给开发者弥长空间去施展。它的可玩性,其实来自于这些盛开接口和多模态才调的勾通。
它是可以融入到家庭或者是办公的一些场景的,勾通的技巧点会相当的多,即是刚刚提到的OpenClaw多模态的大模子、大语言模子,还有Home Assistant智能家居的系统。
Q:它既然可以融入家庭场景,那分量何如样?无线版块可以顺手拎着走吗?
朱耀晖:它其实不重,不像市面上一些东说念主形机器东说念主那样需要固定摆放,是可以转移的。
简略特殊于一台札记本电脑的分量。它的外壳大部分是塑料件,里面只须一丝金属结构和舵机组件,是以全体不会太重。基本上单手就可以提起来,无线版块也可以顺手转移。
桌面机器东说念主制造中的难点Q:像Reachy Mini这种桌面级小机器东说念主,在制造过程中靠近的挑战是什么?改日优化场所在那儿?
朱耀辉:Reachy Mini这种袖珍桌面机器东说念主,挑战和大型东说念主形机器东说念主不都备一样,其中一个相当复杂的挑战其实来自声学遐想。
因为它在实践动作时,多个电契机同期运转,舵机齿轮啮合会产生显然机械噪声。而它又是一台需要和东说念主对话的机器东说念主,麦克风阵列必须在畅通情景下仍然保执明晰拾音。
是以我们和Hugging Face以及PollenRobotics沿途,通过反复声学实验,从结构遐想到算法层面作念了聚合优化,普及全体降噪才和谐音频进展。
最终在我们自研的ReSpeaker麦克风阵列上完毕了更厚实明晰的语音体验。这个麦克风阵列自己就带有降噪算法,再勾通结构减振和算法滤波,才处理了“边动边听”的问题。这其实是桌面交互机器东说念主相当中枢的难点。
另外一个现实问题是算力和齐集依赖。Reachy Mini自己需要联网来调用大模子。即便使用雷同树莓派这样的土产货野心平台,如果要调用云表模子,齐集环境依然很紧要。
是以我们也在探索边际部署的可能性,比如基于NVIDIA平台作念土产货推理优化,让部分才调能够在边际侧完成,从而诽谤延迟和对齐集的依赖。
Q:我有一个比较基础的问题。语音模子到底是何如运作的?是我说一段话,它好意思满听完再反馈吗?如果许多东说念主在同期谈话,它能分裂提示吗?叩门声这种非语言声息它会不会误识别?它是何如处理这些情况的?
朱耀晖:语音识别系统其实作念了多层过滤。在嘈杂环境中,它和会过算法索求“概率最高”的阿谁东说念主声信号,也即是主谈话东说念主的语音,然后尽量摒除布景侵扰,比如多东说念主谈话、环境噪声、叩门声等。
我们在声学实验室作念了无数噪声测试,包括环境噪声测试和机器东说念主自身畅通噪声测试。Reachy Mini在畅通时,舵机齿轮啮合声是最大的挑战,因为那是执续、结构性噪声,会侵扰语音识别。
这个问题一驱动照实影响很大,其后通过握住结构优化、算法调校和降噪政策重复,才打磨出当今这个版块的声学效果。
Q:如果谈话快慢不同,它能跟得上节律吗?输出延迟有莫得挑升优化?
朱耀晖:这个和所用的大模子相关。它可以切换不同模子。
有些模子参数大、推理时刻长,反映天然就慢一些;有些模子是轻量级的,反映速率很快,但准确率可能略微低一丝。
比如切换到国内一些小参数模子,输出会相当快,但厚实才调可能不如大模子强。这施行上是速率与准确率之间的量度。
它可以自行切换模子,包括国产模子和开源模子,都可以部署。
具身智能开发,少即是多Q:当今不少机器东说念主厂商会作念雷同“运用商店”的平台,用户可以奏凯下载动作或功能。比较那些能翻跟头、跑跳的东说念主形机器东说念主,Reachy Mini目田度相对有限。在动作才调不那么“炫酷”的情况下,你们如何施展它的上风,创造不同的玩法?
吴丹:您提到的那些能完成复杂动作的东说念主形机器东说念主,照实越来越弘大,看起来也很震荡。但从开发者学习和初学的角度来说,我反而以为“少即是多”。
许多复杂动作,其实是通过细致编排的动作序列完毕的,它们更偏向畅通完毕和硬件才调的展示。
而Reachy Mini,包括我们之前在Hugging Face上股东的一些机器东说念主名堂,更强调端到端的学习和实践才调,让机器东说念主勾通大模子去完成交互和决策。
如果在Reachy Mini上加多手、腿或者底盘结构,系统复杂度、开发资本和售价都会显耀普及。
它当今的定位,是但愿以相对可背负的价钱,让更多东说念主不管年事、干事或技巧布景都能搏斗具身智能。如果走向高复杂度的东说念主形形态,价钱可能会上万,那就偏离了它诽谤门槛的初志。
天然,它刻下的形态照实不行翻跟头、不行行走,但通过舵机驱动的头部和触角动作,一经可以完成大部分厚谊抒发和互动体验。
天然底盘和手,你思加的话也可以。然而基于它当今的一个家具的一个形态,我以为它大部分的交互体验一经可以完成。
对于学习机器东说念主道理、作念软件和智能体开发来说,这样的复杂度是迷漫的。更高的复杂度,常常意味着更高的资本和更高的门槛。
市面上那些能跑能跳的东说念主形机器东说念主,中枢在于畅通完毕才调,强调电机性能、步态算法和动作编排的畅通度。
而Reachy Mini更偏向让用户体验大模子、Agent,以及像OpenClaw这样的才调接入。
改日它更多是融入家庭或办公场景,比如接入智能家居系统,作念跟随或经管功能。是以我们更强调软件和运用层面的开发,而不是极限畅通才调。
另外,对于雷同“运用商店”的模式,Reachy Mini其实也在作念。Hugging Face一经提供了一个雷同运用商场的界面,用户可以奏凯下载并部署现成的功能。
社区的用户开发完一定的功能以后,也能上传到Hugging Face的社区。用户点击下载,就可以奏凯体验到其他东说念主开发这个功能。
低资本机器东说念主的分水岭不在价钱,在可达性Q:当今越来越多团队在作念低资本、开源机器东说念主,包括一些几百到一万元以内的袖珍四足或东说念主形机器东说念主。你们何如看“低资本”的分水岭?是价钱、才调、生态,照旧使用门槛?改日跟着东说念主形机器东说念主越来越低廉,像Reachy Mini这种桌面机器东说念主会如何定位和发展?
吴丹:低资本着实的分水岭不单是价钱,而是“可达性”(accessible)。
如果但愿具身智能着实发展,最初要让机器东说念主更容易被搏斗、被使用。天然,价钱低是一个紧要前提,但它不是独一措施。
早期阶段,最关键的是开发者能否着实用起来。平台是否易于开发、迷漫盛开、具有机动性,这些都比单一价钱更紧要。
如果只是价钱低,但系统封锁、蔓延性差、交互才调单一,那很难诱骗更多改进力量加入。相背,如果平台迷漫盛开,就可以诱骗更多东说念主参与,沿途股东行业生态的茂密。
以Reachy Mini为例,它天然是桌面形态,但具备蔓延才调,比如可以加底盘、加手臂;在软件层面,也可以执续接入新的模子和才调。这种软硬件上的蔓延性,会带来更耐久的生命力。
从行业趋势来看,我认为机器东说念主价钱一定会越来越有竞争力。跟着供应链熟谙、边界化量产,以及前期试错逐渐完成,许多技巧会趋向措施化,资本天然会着落。
但在现阶段拉开差距的,更多是开发友好进程和生态好意思满度。Reachy Mini当作一个全开源家具,在这方面是有上风的。
另外,PollenRobotics也一直强调,一个“悦目”或者“动作炫酷”的机器东说念主远远不够。
即使价钱可以,如果穷乏可用性和用户基础,会靠近许多挑战。因为具身智能最早的一批用户一定是开发者,他们会把机器东说念主着实带到工场、家庭或买卖场景中。是以家具是否对开发者友好、是否容易落地,比单纯展示才调更紧要。
同期,社区的力量相当关键。这亦然我们坚执开源的原因。用户不仅可以基于它开发我方的运用,还可以在社区中调换、分享效能。这样家具才会握住进化,成为分娩力。
Q:我这样厚实对分歧——如果一个机器东说念主很贵,买的东说念主少,开发者基数也小,那当作用户,可能就看不到太多技巧文档或新的玩法分享;反过来,如果机器东说念主低廉,买的东说念主多,社区活跃,我就能从更大的用户基数中受益。可以这样厚实吗?
吴丹:这个厚实不都备准确。
价钱高,照实会禁绝一部分东说念主购买。不是每个东说念主都能背负十万元级别的机器东说念主,这一丝是现实问题。
但价钱低,自己并不是决定性分水岭。因为如果一个家具只是低廉,却不盛开。文档不好意思满、软硬件生态封锁、二次开发不便捷,那开发者其实也很难基于它作念改进。
是以关键不单是低廉,而是开发体验要迷漫好。要盛开、可拓展,让路发者着实寂静用它、改它、分享效能。
浅近来说,光低廉还不够,还需要盛开性和蔓延性。只须这样,社区才会天然成长,生态才会形成正轮回。
开源机器东说念主最大的价值,是诽谤参与门槛Q:Reachy Mini是一个相当开源的机器东说念主,那么在你们看来,开源对机器东说念主社区,尤其是具身智能社区,最大的价值是什么?
吴丹:我以为开源机器东说念主最大的价值,是诽谤参与门槛。
具身智能仍然是一个相当新的领域。天然当今越来越多的机器东说念主驱动措施化、量产化,但它的发展依然高度依赖更多东说念主参与实验、考据思法、握住迭代和改进。这种盛开式的参与,自己即是股东领域逾越的紧要力量。
在矽递,我们通盘AI机器东说念主家具线都剿袭这个理念——让具身智能的开发门槛更低。这个“门槛低”体当今几个方面。
最初是家具层面。我们提供多种类型、经过工程师严选和考据的家具决策,让路发者可以奏凯在可靠基础上开发,从而镌汰研发周期。
其次是时刻资本。开发者不需要从零驱动踩坑,可以站在已素养证过的硬件和系统之上,把元气心灵围聚在改进自己。
再者是价钱。具身智能除了比较贵的工业机器东说念主,还要有巨匠能够接管的、价钱相对可接近的机器东说念主。
另外还有老师资源。我们提供教程和课程,让不同技巧布景的东说念主都可以参与进来。
像Reachy Mini,或者Hugging Face在LeRobot框架下的一系列机器东说念主,其实让路发者、策动者、学生能够好意思满厚实从硬件到软件再到AI模子的通盘技巧栈。它普及了透明度和可复现性,也加速了改进节律。
比如Reachy Mini,从组装那一刻起,你就能看到它的完毕单位、感知单位、推理单位。你不仅厚实“它能作念什么”,而是厚实“它是何如作念出来的”。
开发者可以在示例模子基础上接入我方的模子,或者接入其他先进模子,着实体验好意思满的技巧栈。
同期,在我们CEO潘昊以及Matthieu Lapeyre(PollenRoboticsCEO)之前的访谈中也强调过,Reachy Mini的遐想理念即是盛开和直率。
它选择白色外壳遐想,便捷快速个性化修订;软件栈与Hugging Face深度集成,开发者只需要几行Python代码就可以部署AI运用。甚而跟着器用的逾越,许多时候通过更高层级的接口,就能完成部署。
Q:对于作念大模子的东说念主来说,他们会说开源在某种进程上和企业利润是有冲突的。那回到机器东说念主领域,作念开源会不会和盈利产生矛盾?如果你把东西开源了,寰球以为是“免费的”,那企业何如赢利?
吴丹:最初,开源并不等于莫得买卖模式。
在开源机器东说念主中,零部件清单是公开透明的,寰球简略知说念资本结构。但企业之间仍然存在供应链才调的互异,包括资本完毕才调、边界化才和谐整合才调。
同期,像Reachy Mini这样的家具,施行上并不是一个“只为盈利”的家具。它的首要目标是让更多开发者参与进来,诞生社区,而不是赚一波钱就完毕。
天然,它也不行耐久亏蚀。任何家具都需要一个可执续的模式。但Reachy Mini的优先级排序,不是“利润最大化”,而是“生态构建优先”。
我们Seeed亦然一家开源硬件公司,我们很厚实Hugging Face作念开源机器东说念主的初志。我们许多家具,包括图纸和PCB,都是开源的。
我们的思法是:通过盛开、考据过的决策,匡助初创公司或个东说念主团队简约前期开发资本。等他们基于我们的决策作念出了家具,过问量产阶段,天然会纪念寻找我们合作量产。
也即是说,开源不横暴常,而是一个生态进口。社区用户在我们平台上改进,最终又反哺企业,形成耐久合作关系。这是我们一直坚执的形态。
制造商眼中的具身智能Q:你们以为机器东说念主硬件改日会像PC一样走向措施化吗?照旧会字据不同场景、不同任务,发展出许多不同形态?
吴丹:我以为这两种趋势会同期发生。
因为这个行业当今仍然处于相当早期的阶段。在这个阶段,比起急着都备措施化,更紧要的是保执盛开,诽谤门槛,让更多开发者过问这个领域。
跟着生态逐渐熟谙,技巧栈中的底层模块一定会趋向措施化和模块化。比如语音识别、感知算法、算力平台,以及更厚实可靠的基础模子,这些都会缓缓形成通用模块。
在矽递,我们亦然从全体系统架构的角度来保举家具决策,从感知、完毕到推理,组成一个好意思满技巧栈。底层模块改日一定会越来越措施化。
但在运用层面,家具形态一定会保执各类化。因为场景互异相当大。学校、家庭、病院、办公环境,每个场景的任务目标、交互形态、物理空间都不同,对机器东说念主结构和系统遐想的要求天然也不同。
我以为Reachy Mini当作一个盛开的平台,即是亦然为了承载这些运用去遐想的,而开发者可以在一个分享的一个基础上进行实验构建,况且探索不同的具身智能的一个场景,这个平台从软件到硬件都是可以分享的。
Q:那我追问一个问题,即是我们当今最主要的这个场景是什么呢?
吴丹:当今最主要的照旧语音交互。
用户可以奏凯和它对话。同期,它可以勾通视觉才调,比如让它表情它眼前看到的东西,然后围绕这个视觉信息连续对话。
我们也在尝试让它接入更复杂的才调,比如雷同OpenClaw这样的系统,让它在对话中不仅能回答问题,还能帮你生成内容,甚而触发具体动作,比如实践某个提示。
是以,刻下主如果桌面场景,尤其是在办公环境中,即是放在桌面上进行交互。
Q:对于硬件制造商而言,什么样的具身智能demo是好的?如何界说一个好的任务?
吴丹:在我看来,一个好的Demo,最初必须是厚实、及时、可互动的。
即是它的互动是不是畅通的?他是不是厚实去运行的?厚实就代表着说他是不是就作念了一个这个动作,以后就不行复现了?
第二,它不单是展示技巧或硬件实力,而是要让路发者能够基于这个Demo连续延迟。
我并不认为只展示极限畅通或复杂动作即是“好的机器东说念主”。其交互才调、感知才调、厚实才调,以及视觉、语音和要害协调反映才调是更紧要的。
我们也和PollenRobotics策动过这个问题。他们的不雅点是:着实紧要的不是“机器东说念主翻了一个跟头”,而是东说念主们是否厚实它是何如翻起来的。
如果你只是看到一个炫技动作,但都备不知说念系统如何运作,也不知说念如何完毕或住手它,那这种体验反而会带来距离感,甚而不安全感。莫得东说念主寂静面对一个不可控、不可厚实的机器。
安全性和可控性黑白常紧要的。比如我们在机械臂遐想中,会加入悬停或遑急住手按钮,让东说念主永恒领有完毕权。这种遐想自己即是一种信任构建。对于东说念主形机器东说念主来说,这种安全考量就愈加关键。
这亦然为什么Reachy Mini的组装过程很紧要。你不是只看到它作念可人的动作,而是亲手参与搭建,厚实它的结构和道理。当你知说念背后发生了什么,再去看它完成一个任务,那种感受是不一样的。
我认为,一个好的演示只是起始。通过亲身动手搭建机器东说念主,用户不仅能够亲眼见证它如何出色地完成任务,更能深切厚实其背后的运行道理。这个从动手实践到取得反馈的过程,还会天然地诞生起东说念主与机器之间的信任感,加多互动的深度。这种体验,远比单纯不雅看演示更有道理。
数据范式如何界说硬件Q:当今许多东说念主说具身智能硬件一经OK了,软件还不行?你们何如看这种不雅点?
吴丹:在硬件的角度,我们一直在跟着算法更新。
在机器东说念主上,硬件和算法相当紧要,但算法前期需要数据积聚,是以当今无数的遥操作,其实施行上是在为算法铺路。许多边界化的数据工场正在诞生,挑升作念数据齐集。遥操其实是算法查考阶段的一部分,而数采相当紧要。
同期,因为数据相当紧要,也出现了挑升为数据齐集遐想的硬件,而跟着数据越来越多,模子也会越来越矜重。
这即是我们制造商对模子的看法,对于硬件自己来说,我们不行只怜惜性能和资本,还必须斟酌与数据需乞降查考框架的适配性。
比如我们刚刚推出的一款全开源六轴机械臂(Seeed reBot-DevArm),它是电机版块的,一经适配了Hugging Face的LeRobot框架。这样它就可以更天然地融入措施化的数据齐集和查考历程。
这其实亦然硬件措施化的一部分。跟着模子和数据体式逐渐趋于措施,硬件接口也会向这种措施靠近。
另外,当今不仅是真的数据紧要,仿真数据也越来越关键。举例英伟达GR00T这样的基础模子,就解析了多种数据开始:真的齐集数据、仿真数据以及视频数据。多源数据解析能让模子更矜重。
是以在矽递这边,我们也会赈济雷同Isaac Sim这样的仿真生态。
让路发者既可以在真的环境顶用我们的开采作念数据齐集,也可以在仿真环境中作念边界化查考和测试。
然后是以就全体来说,我以为硬件制造商要更防御盛开性和接口遐想,然后以及生态的兼容性,应该确保对数据和模子的一个这样的需求。
全体来说,数据和模子它确定是分不开的,两者彼此决定。
Q:我照旧有一个困惑。之前许多论文都提到,不同硬件齐集出来的数据是不一样的,还波及跨本色的问题。你刚刚说硬件会越来越措施化,数据也会更容易分享。但另一方面,硬件形态又会很各类。那各类性和措施化何如同期配置?我有点没厚实这个过程。
朱耀晖:各类性其实就像齐集数据集,它是思从a点搬运到b点东说念主为遥操的时候,这个东说念主的行径民风和下一个东说念主的行径民风可能是不一样的,这即是它的各类性。
就像网上的一些数据,是不同形态的机械臂或者机器东说念主,它们作念一些动作的时候,它其实是不一样的旅途或者作风,这即是各类性。
那么措施化其实即是说他们把这数据汇齐集到土产货电脑上,实实在在能看到的数据体式,寰球都会融合这样一个措施。
即是说我可以用我的算法奏凯查考你的数据集,而不需要再去进行一个一层调遣,这即是措施化。
然后就像当今Hugging Face推出阿谁LeRobot阿谁框架,他们即是把整个的一些硬件接口、数据接口进行了措施化。
松灵、OpenArm等开源硬件,只须接口适合标准,就可以奏凯接入生态。
在数据集层面,Hugging Face也推出了融合标准版块的LeRobot4.0的数据集体式。开发者可以把我方的数据调遣成这个措施体式,然后就能奏凯在不同硬件上部署或查考,这就买通了整个的硬件软件层面的离别,这即是他们的措施化作念的一个相当大的孝敬。
是以各类性是数据轨迹和姿态层面的互异,而措施化是数据体式融合,寰球可以奏凯使用,不需要调遣。
Q:具身智能中单干和全栈哪个更有改日?基于数据范式出现的挑升制作数据的公司意味着什么
吴丹:我个东说念主认为,这两种形态都会存在。
全栈公司常常是围绕我方的家具去作念的。比如作念医疗机器东说念主,它是奏凯面向行业的处理决策,那一定要对医疗领域有一个我方的处理决策。
但同期,我也认为一定会有单干的活水线。比如挑升作念某些场景数据的团队,会作念医疗、家庭等特定场景的数据齐集。
刚刚你提到的数采类数据,和着实用于查考的机器东说念主数据其实照旧有区别的。
比如光轮智能,他们即是挑升作念仿真数据的。
仿真数据的上风在于,在保证精度的同期更容易取得。因为不是整个团队都有条目用硬件去作念大边界真的齐集,真的数据齐集相当耗时,东说念主力资本也很高。
我刚刚也提到,像一些大模子,比如英伟达的GR00T这一类,它们常常会解析不同开始的数据:真的场景数据、仿真数据,还有视频数据。不同数据类型勾通在沿途,效果会更好。
是以我以为改日一定会出现这种单干活水线,雷同模块化,比如作念数据的公司挑升就作念数据,这个方法自己就在加速通盘具身智能的开发。
但对于全栈公司来说,就要看它是不是只聚焦某一个落地场景。如果是单一场景,比如只作念病院或者零卖,它就需要对阿谁场景有相当深切的厚实,这种情况下,全栈是有上风的。
而在模块化、活水线层面,通过单干和措施化数据,是可以完毕全体加速的。
Q:是以可以厚实为,在模子查考端会需要不同的数据“配方”,包括仿真数据、真的数据、视频数据等;对应到产业层面,就会出现挑升的数据工场负责齐集或生成这些数据,从而形成更明确的单干,加速行业发展。而对于一些需要强场景落地的公司,它们会更倾向于围绕特定场景构建我方的数据体系。是这样吗?
吴丹:(是的)
Q:已往一年具身智能融资和名堂无数出现,险些每天都有新公司冒出来。许多东说念主说2025年是量产元年,那我们当今到底处在一个什么时刻节点?本年会出现怎么的发展?
吴丹:我以为它仍然是一个早期阶段,然而本年我笃信一定会看到越来越多的参考遐想出现。
你刚刚提到2025年是量产元年,我以为这意味着行业一经过问从宗旨走向场所逐渐明晰的过渡阶段,它一经不再只是停留在宗旨阶段。
是以我认为,越来越多的参考遐想会依托于社区和行业的发展出现。
社区里、行业里会有更多公司驱动考究作念家具。但这个行业一定还会有变化,是以我以为不管是我们制造商,照旧当作硬件平台,都要保执一个耐久视角,去接管早期开发者这个阶段的情景。
我们刚刚也聊到模块化。模块化会越来越趋向措施化。我觉顺应今恰是诞生家具化才和谐模块化才调的关键时间。
包括我们我方家具的一些开源遐想,比如机械臂、理智手、主控遐想、感知模块选型等。同期我们也要加强资本优化、量产才调以及生态互助。
生态互助即是刚刚提到的,我们如何更高效地和模子勾通,如何和机器东说念主生态,比如像ROS这样的生态去勾通。我以为从社区、硬件到软件的同期加速,最终是为了股东买卖化,加速买卖化。
Q:那回到你们公司自己,你们在具身智能生态里处在一个什么位置?
吴丹:我以为我们在具身智能的开发者生态里面,是一个比较有特色的平台。
最初从家具线来说,刚刚也提到,我们是从通盘机器东说念主系统的角度去给寰球提供家具。
在主控,也即是机器东说念主最紧要的“大脑”层面,我们是英伟达的精英级合作伙伴。
同期,在英伟达的开发者生态里我们也相当活跃。我们有许多课程、教程,也提供开发者一键部署的才调。是以全体来说,我们是一个比较新兴、先进,而且相当活跃、对开发者友好的平台。
在机器东说念主方朝上,我们也提供了许多新的内容。比如像LeRobot这样的框架,许多早期思搏斗具身智能的开发者都会知说念。它在GitHub上一经有两万多星,是一个影响力很大的开源框架。
我们在这个生态里推出了许多配套的套件、教程和家具,让路发者可以更快上手。
是以对于早期思过问具身智能领域的开发者来说,矽递是一个能够提供比较好意思满家具体系和好意思满教程赈济的平台。
我们不会浅近用“商场占有率”或者“单一家具作念得最佳”来界说我方。矽递自己是一家开源硬件公司。在AI机器东说念主这条家具线上,我们的中枢目标是诽谤具身智能的开发门槛。
在这一丝上,我认为我们作念得是比较好的。我们在开发者生态里迷漫活跃,也在执续给寰球带来新的、好奇好奇的、可实践的开发内容。
Q:那终末一个问题,什么是开源硬件?
吴丹:浅近来说,开源硬件即是用户可以基于盛开的硬件和软件层来学习和二次开发。
在矽递,我们的职责是让科技顺手可得。我们专注于为全球创客、开发者及科学家等改进者提供边际AI、机器东说念主及智能传感器系统等新兴技巧, 赋能每一位改进者完毕数字化转型。
— 完 —
量子位 QbitAI · 头条号签约
怜惜我们九游体育app娱乐,第一时刻获知前沿科技动态