王兴兴最新发声！这将是具身智能的“ChatGPT时刻”

160 2025-11-22 18:29

　　“未来1至2年，谁能实现这个目标，谁将拥有全球最领先的具身智能AI模型。”11月5日，宇树科技股份有限公司创始人、董事长王兴兴在第八届虹桥国际经济论坛“人形机器人创新发展合作”分论坛上对具身智能的“ChatGPT时刻”何时到来作出前瞻判断。

　　在他看来，谁能在未来一两年内实现“在80%的陌生场景中完成80%任务”的突破，谁就是全球最领先的具身智能。

　　“比如到明年这个时候，随便一台人形机器人到会场，你跟它交代任务，比如说‘帮我拿一杯水’或者说给某位记者朋友拿一份东西过去，它可以直接过去把这个任务完成。这个场景完全没有预训练过，你给的东西它也没有看到过。”王兴兴举例说。

　　他认为，在完全陌生场景下，机器人能达到80%左右成功率，就已经掌握突破性技术了。

　　“目前人形机器人(包括具身智能)最关键的还是机器人大模型(具身智能模型)的进展速度，我觉得稍微有点慢了。”王兴兴表示，相对去年来说，今年深度强化学习的全身运控的进步非常明显，但在具身大模型，“端到端能干活“的技术进步稍微慢了一点，但总体而言其对人形机器人的前景较乐观。

　　王兴兴称，“具身机器人目前的发展阶段类似于ChatGPT发布前的1-3年左右，大家已经发现了方向，但还没有做成可以突破临界点的事情。

　　为了早日实现“ChatGPT时刻”，更应该研究模型，还是收集更多的数据？王兴兴表示，目前在模型结构上大家做了很多尝试，但泛化能力不够，还需要创新。大家也需要收集更大规模的数据、质量更好的数据。但目前，对数据的采集、对数据质量的评判还非常困难。

　　另外，他提出，模型和数据需要相辅相成，而不是一股脑采集大量数据，或者一股脑把模型做大。

　　目前，具身智能主流模型有VLA(视频语言动作)+RL(强化学习)模型和基于视频生成的世界模型。王兴兴表示，前者可以用仿真环境做训练，或者用真实场景做训练，但泛化能力相对来说不是特别够。因此，他更喜欢基于视频生成的世界模型。

　　然而，王兴兴也认为，该模型面临比较大的挑战。因为基于视频生成的世界模型对算力的需求非常大，需要的算力卡比较多，所以中小型人形机器人公司往往“跑不动”，反而是一些大型AI公司、互联网公司视频模型的资源更加丰富，做出该模型的概率更大。

推荐资讯