DrEureka 算法助力:機器狗克服模擬局限,瑜珈球上也能保持平衡
賓夕法尼亞大學、 NVIDIA 與德克薩斯大學奧斯汀分校團隊提出基於 Eureka 完成的利用 LLM 實現獎勵設計和域隨機化參數配置的新型開源算法「DrEureka」,DrEureka 專門用於編寫代碼以在模擬中訓練機器狗的技能,還開發出解決模擬與現實差距調站的方案。製作團隊表示DrEureka 可以無縫運作,自動化從初始技能習得直至實際部屬的整個過程,確保虛擬環境到實際部屬的順暢過度。這次研發的特別之處是DrEureka 算法訓練出來的結果直接套用在現實世界使用就有不錯的結果,幾乎不須再手動調整。
研究人員測試 DrEureka 算法,發現使用 DrEureka 算法的機器狗能夠在各種現實世界、不受控制的地形條件變化和干擾下保持平衡並行走在瑜珈球上。
不管是在人行道、草地上,甚至過馬路時機器狗都能夠保持平衡並前進:
就算是在漏氣的瑜珈球上機器狗也能保持平衡:
踹瑜珈球也不會影響到機器狗:
本次研究作者也是 NVIDIA 的高級科學家 Jim Fan 也在他的推特上表示「對機器狗來說瑜珈球任務特別困難,因為無法準確模擬瑜珈球的表面。不過 DrEureka 可以很輕鬆地搜尋大量的模擬真實配置,讓機器狗能夠在各種地形上控制球體,甚至還能側身行走。」
We trained a robot dog to balance and walk on top of a yoga ball purely in simulation, and then transfer zero-shot to the real world. No fine-tuning. Just works.
I’m excited to announce DrEureka, an LLM agent that writes code to train robot skills in simulation, and writes more… pic.twitter.com/kuG14LmSOh
— Jim Fan (@DrJimFan) May 3, 2024
對賓夕法尼亞大學、 NVIDIA 與德克薩斯大學奧斯汀分校團隊提出的新型開源算法「DrEureka」感興趣的朋友可以觀看下方影片或者點擊!這裡!前往團隊提供的 GitHub :