Nvidia推出端到端機器人增強學習模擬環境

Nvidia發佈用於增強學習（Reinforcement Learning）研究的物理模擬環境Isaac Gym預覽版，藉助GPU的平行運算能力，可以將過去需要數千個CPU核心參與訓練的任務，移植到GPU上，使用單個GPU就能完成訓練。

運用增強學習技術的人工智能，無論是在經典策略遊戲，像是圍棋或是西洋棋，或是星際爭霸與DOTA等即時戰略遊戲，都能與人類玩家匹敵，且在機器人領域的應用，增強學習也被研究來解開魔術方塊，和通過模仿動物學習動作。該技術被證實具有解決複雜問題的潛力，成了目前熱門的研究領域。

但Nvidia提到，目前大多數增強學習機器人技術人員，都是使用CPU核心集群來訓練增強學習算法。以OpenAI團隊解決魔術方塊項目為例，使用單一機器人手掌反轉物體，涉及複雜的物理和動力學，以及多維度連續控制空間，因此該項目一共使用了6,144個CPU核心，以及8個GPU，訓練超過30個小時，才能讓算法達到最佳的結果。而Nvidia利用Isaac Gym，供研究人員重新創建OpenAI的實驗，僅使用單個A100 GPU花費10小時，就能獲得相當於OpenAI以超級計算機運算的結果。

Isaac Gym利用Nvidia的PhysX GPU加速模擬引擎，收集機器人增強學習所需要的經驗資料，除了更快的物理模擬之外，Isaac Gym還讓增強學習的觀察和獎勵運算，得以在GPU上執行，而這能明顯消除運算性能瓶頸，特別是GPU和CPU之間高成本的資料傳輸。Isaac Gym通過實例這兩大功能，得以提供完整端到端GPU增強學習工作管線。

Isaac Gym提供了一個用機器人和對象來填充場景的基本API，能夠讀取URDF和MJCF文件格式，按研究人員需要複製模擬環境，並在每個環境不互相幹擾的情況下，獨立進行模擬。Isaac Gym還有一個基於PyTorch張量的API，以訪問物理模擬工作的結果，讓用戶可以使用PyTorch JIT Runtime系統，構建增強學習觀察和獎勵運算，該系統能夠動態地將執行這些運算的Python程序代碼，編譯成為CUDA程序代碼，放到GPU中執行。所有的觀察和獎勵運算，都能夠完全在GPU中執行，也就不需要從CPU讀取資料，因此可以省去CPU和GPU間資料傳輸的時間。

這樣的配置，讓用戶可以在單個GPU上，創建數萬個環境，同時進行模擬，也就是說，只要在臺式機本機，就能夠執行過去需要整個人信息料中心計算資源的實驗。未來Isaac Gym會集成到Nvidia Omniverse，以及Nvidia Isaac Sim機器人模擬平臺中，目前在預覽階段提供獨立版本，以展示端到端GPU增強學習的可能性。

轉載請超鏈接註明：頭條資訊 » Nvidia推出端到端機器人增強學習模擬環境

免責聲明
    ：非本網註明原創的信息，皆為程序自動獲取互聯網，目的在於傳遞更多信息，並不代表本網贊同其觀點和對其真實性負責；如此頁面有侵犯到您的權益，請給站長發送郵件，並提供相關證明(版權證明、身份證正反面、侵權鏈接)，站長將在收到郵件24小時內刪除。