Nvidia發佈用於增強學習(Reinforcement Learning)研究的物理模擬環境Isaac Gym預覽版,藉助GPU的平行運算能力,可以將過去需要數千個CPU核心參與訓練的任務,移植到GPU上,使用單個GPU就能完成訓練。
運用增強學習技術的人工智能,無論是在經典策略遊戲,像是圍棋或是西洋棋,或是星際爭霸與DOTA等即時戰略遊戲,都能與人類玩家匹敵,且在機器人領域的應用,增強學習也被研究來解開魔術方塊,和通過模仿動物學習動作。該技術被證實具有解決複雜問題的潛力,成了目前熱門的研究領域。
但Nvidia提到,目前大多數增強學習機器人技術人員,都是使用CPU核心集群來訓練增強學習算法。以OpenAI團隊解決魔術方塊項目為例,使用單一機器人手掌反轉物體,涉及複雜的物理和動力學,以及多維度連續控制空間,因此該項目一共使用了6,144個CPU核心,以及8個GPU,訓練超過30個小時,才能讓算法達到最佳的結果。而Nvidia利用Isaac Gym,供研究人員重新創建OpenAI的實驗,僅使用單個A100 GPU花費10小時,就能獲得相當於OpenAI以超級計算機運算的結果。
Isaac Gym利用Nvidia的PhysX GPU加速模擬引擎,收集機器人增強學習所需要的經驗資料,除了更快的物理模擬之外,Isaac Gym還讓增強學習的觀察和獎勵運算,得以在GPU上執行,而這能明顯消除運算性能瓶頸,特別是GPU和CPU之間高成本的資料傳輸。Isaac Gym通過實例這兩大功能,得以提供完整端到端GPU增強學習工作管線。
Isaac Gym提供了一個用機器人和對象來填充場景的基本API,能夠讀取URDF和MJCF文件格式,按研究人員需要複製模擬環境,並在每個環境不互相幹擾的情況下,獨立進行模擬。Isaac Gym還有一個基於PyTorch張量的API,以訪問物理模擬工作的結果,讓用戶可以使用PyTorch JIT Runtime系統,構建增強學習觀察和獎勵運算,該系統能夠動態地將執行這些運算的Python程序代碼,編譯成為CUDA程序代碼,放到GPU中執行。所有的觀察和獎勵運算,都能夠完全在GPU中執行,也就不需要從CPU讀取資料,因此可以省去CPU和GPU間資料傳輸的時間。
這樣的配置,讓用戶可以在單個GPU上,創建數萬個環境,同時進行模擬,也就是說,只要在臺式機本機,就能夠執行過去需要整個人信息料中心計算資源的實驗。未來Isaac Gym會集成到Nvidia Omniverse,以及Nvidia Isaac Sim機器人模擬平臺中,目前在預覽階段提供獨立版本,以展示端到端GPU增強學習的可能性。
轉載請超鏈接註明:頭條資訊 » Nvidia推出端到端機器人增強學習模擬環境
免責聲明 :非本網註明原創的信息,皆為程序自動獲取互聯網,目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責;如此頁面有侵犯到您的權益,請給站長發送郵件,並提供相關證明(版權證明、身份證正反面、侵權鏈接),站長將在收到郵件24小時內刪除。