王兴兴最新发声!这将是具身智能的“ChatGPT时刻”
“未来1至2年,谁能实现这个目标,谁将拥有全球最领先的具身智能AI模型。”11月5日,宇树科技股份有限公司创始人、董事长王兴兴在第八届虹桥国际经济论坛“人形机器人创新发展合作”分论坛上对具身智能的“ChatGPT时刻”何时到来作出前瞻判断。
在他看来,谁能在未来一两年内实现“在80%的陌生场景中完成80%任务”的突破,谁就是全球最领先的具身智能。
“比如到明年这个时候,随便一台人形机器人到会场,你跟它交代任务,比如说‘帮我拿一杯水’或者说给某位记者朋友拿一份东西过去,它可以直接过去把这个任务完成。这个场景完全没有预训练过,你给的东西它也没有看到过。”王兴兴举例说。
他认为,在完全陌生场景下,机器人能达到80%左右成功率,就已经掌握突破性技术了。
“目前人形机器人(包括具身智能)最关键的还是机器人大模型(具身智能模型)的进展速度,我觉得稍微有点慢了。”王兴兴表示,相对去年来说,今年深度强化学习的全身运控的进步非常明显,但在具身大模型,“端到端能干活“的技术进步稍微慢了一点,但总体而言其对人形机器人的前景较乐观。
王兴兴称,“具身机器人目前的发展阶段类似于ChatGPT发布前的1-3年左右,大家已经发现了方向,但还没有做成可以突破临界点的事情。
为了早日实现“ChatGPT时刻”,更应该研究模型,还是收集更多的数据?王兴兴表示,目前在模型结构上大家做了很多尝试,但泛化能力不够,还需要创新。大家也需要收集更大规模的数据、质量更好的数据。但目前,对数据的采集、对数据质量的评判还非常困难。
另外,他提出,模型和数据需要相辅相成,而不是一股脑采集大量数据,或者一股脑把模型做大。
目前,具身智能主流模型有VLA(视频语言动作)+RL(强化学习)模型和基于视频生成的世界模型。王兴兴表示,前者可以用仿真环境做训练,或者用真实场景做训练,但泛化能力相对来说不是特别够。因此,他更喜欢基于视频生成的世界模型。
然而,王兴兴也认为,该模型面临比较大的挑战。因为基于视频生成的世界模型对算力的需求非常大,需要的算力卡比较多,所以中小型人形机器人公司往往“跑不动”,反而是一些大型AI公司、互联网公司视频模型的资源更加丰富,做出该模型的概率更大。