28

10

-

2025

让LLM扔块石头它竟然制了个投石机

作者: welcometo888集团


让LLM扔块石头它竟然制了个投石机

  说的这一切,都发生正在BesiegeField这个仿实平台里。它跑正在Linux集群上,能同时跑几百个机械尝试,并给到完整的物理反馈——好比速度、受力、能量变化、投抛距离、稳不不变、机械损坏度等等。

  对比表格显示,这套“多脚色分层设想”(Hierarchical Design)策略,正在投石机(Catapult)和小车(Car)使命上,其平均分(Mean)和最高分(Max)都显著优于以Gemini为代表的部门“单一模子”或简单的“迭代点窜”策略。

  他们推出了一个叫BesiegeField的新平台,它就像一个给大模子的“机械工程师锻炼场”,特地测试AI能不克不及像人一样,有功能的复杂机械。

  总的来说,BesiegeField带来的不只是一个仿实平台,更像是一种新的“布局创制范式”。

  有了工做流还不敷,还得让模子能“进化”。研究团队引入了强化进修(RL),具体用了一种叫RLVR(基于可验证反馈的强化进修)的策略。

  平台还设想了一系列从易到难的使命,好比曲线行驶、投抛、抓取,以至还有过妨碍、地形坡度、穿环投抛等更复杂的场景,形成了一个多样化的尝试空间。

  定量数据也显示,正在“Cold-Start + RL”(用少量好例子启动+强化进修)的策略下,模子正在小车使命上的最高分达到了45。72,投石机使命的平均分和最高分也都是最优的。

  反馈查询员(Active Env Querier): 跑仿实并从大量反馈数据内抽取对使命最有用的消息演讲。

  研究团队用了Passk Training方式(即正在k次测验考试当选励最大的阿谁样本做为锻炼信号),对Qwen2。5-14B-Instruct这个模子进行持续微调。

  BesiegeField的仿实反馈就是现成的“励信号”(Reward):好比投抛距离多远?能不克不及成功施行使命?能运转多久?

  好比正在优化投石机时,Gemini 2。5 Pro能按照仿实反馈,识别出“底座太小导致布局失衡”、“扭转轴标的目的错致无法发力”等问题,并提出“移除旧底座”、“从头定位手臂和容器”、“建立新底座”等点窜方案。

  如许,复杂的设想就被简化成一个“离散布局组合问题”。到底好欠好用?能不克不及动?稳不稳?交给物理仿实去验证。

  这些问题,只要正在实正在仿实中才能被发觉,也只要如许,模子才能一步步搞懂“布局到底是怎样动起来的”。

  研究团队等候,将来AI制的不只是投石机,而是能奔驰、搬运、协做的各类复杂布局——让言语模子实正具备“制出会动的工具”的能力。仅代表该做者或机构概念,不代表磅礴旧事的概念或立场,磅礴旧事仅供给消息发布平台。申请磅礴号请用电脑拜候。

  就算不更新模子参数,它也能靠反馈优化输出;若是引入强化进修,模子就能通过这些量化的励信号,系统性地提拔设想能力和成功率。

  说白了,就是把机械布局限制正在“用尺度零件拆卸”这个范畴里。每个零件(好比支架、关节)都有尺度尺寸和接口,大模子只需要决定:用哪些零件它们之间怎样连。

  为了让模子好理解和点窜,研究者用了一品种似XML的“布局化暗示机制”,设想机械就变成了一种言语模子擅长的布局生成使命。

  为领会决单个模子“想不大白”的难题,研究团队建立了一套“智能体工做流”(Agentic Workflow),让多个AI协做。

  只需一个处所误差,整个机械就可能失效:没配沉,打不出去;缺支点,原地转圈;少了杠杆,石头飞不起来。

  起首得明白,这不是让大模子去画CAD图,它也节制不了三维细节。研究者提出了一种叫“组合式机械设想”(Compositional Machine Design)的方式。


welcometo888集团