寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

來源 | 機器之心

1 月 21 日，寒武紀思元 290 智能芯片及加速卡、玄思 1000 智能加速器在官網低調亮相，寒武紀表示該系列產品已實現規模化出貨。去年，寒武紀招股書曾簡單披露了一款訓練芯片的 “彩蛋”，此後，寒武紀思元 290 芯片就一直被業界廣泛關注並引發行業諸多猜想。如今，隨著新一代訓練產品線集中亮相，寒武紀略顯“神秘” 的訓練芯片及相應的業務佈局逐漸清晰。

思元 290 智能芯片是寒武紀的首顆訓練芯片，採用臺積電 7nm 先進製程工藝，集成 460 億個晶體管，支持 MLUv02 擴展架構，全面支持 AI 訓練、推理或混合型人工智能計算加速任務。

寒武紀首顆訓練芯片思元 290

寒武紀 MLU290-M5 智能加速卡搭載思元 290 智能芯片，採用開放加速模塊 OAM 設計，具備 64 個 MLU Core，1.23TB/s 內存帶寬以及全新 MLU-Link多芯互聯技術，在 350W 的最大散熱功耗下提供 AI 算力高達 1024 TOPS（INT4）。

寒武紀玄思 1000 智能加速器，在 2U 機箱內集成 4 顆思元 290 智能芯片，高速本地閃存、Mellanox InfiniBand 網絡，對外提供高速 MLU-Link接口，打破智能芯片、服務器、POD 與集群的傳統數據中心橫向擴展架構，實現 AI 算力在計算中心級縱向擴展，是 AI 算力的高集成度平臺。

寒武紀訓練產品線採用自適應精度訓練方案，面向互聯網、金融、交通、能源、電力和製造等領域的複雜 AI 應用場景提供充裕算力，推動人工智能賦能產業升級。

思元 290 採用 MLUv02 擴展架構

MLUv02 架構為寒武紀 MLU200 全產品線共享，滿足雲、邊、端三個場景的算力需求。雲端訓練對 AI 算力的要求更為苛刻，因此寒武紀對思元 290 的 MLUv02 架構進行了多項擴展，包括業內領先的 MLU-Link多芯互聯技術、高帶寬 HBM2 內存、高速片上總線 NOC 以及新一代 PCIe 4.0 接口。相比寒武紀思元 270 芯片，思元 290 芯片實現峰值算力提升 4 倍、內存帶寬提高 12 倍、芯片間通訊帶寬提高 19 倍。新架構結合 7nm 製程，思元 290 可提供更優性能功耗比，以及多 MLU 系統的擴展能力。

寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

MLU290 的 MLUv02 架構進行了多項擴展。

寒武紀 MLU-Link 多芯互聯技術

近年來，AI 算法模型的複雜程度高速增長，對算力和訓練速度提出了更高的要求。為了構建更強大的計算平臺，多芯片間的互聯技術已成為市場剛需。

寒武紀推出 MLU-Link多芯互聯技術，並首次搭載於寒武紀思元 290 芯片，每顆思元 290 的多芯互聯總帶寬高達 600GB/s。MLU-Link具備豐富的互聯特性，突破 PCIe 帶寬和互聯的瓶頸，相比思元 270 芯片通過 PCIe 並行的通訊方式，帶寬提高 19 倍。MLU-Link多芯互聯技術支持多顆思元芯片無縫互聯，支持跨系統互聯，將縱向擴展能力整合到整個人工智能計算中心（AIDC），可以端到端加速大型 AI 模型訓練。

寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

思元 290 採用 MLU-Link多芯互聯技術進行互聯，帶寬、靈活性全面優於 PCIe 3.0。

寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

思元 290 相較思元 270 並行通訊總帶寬提升 19 倍。

寒武紀 vMLU 解決方案

不同場景下的 AI 訓練對計算和存儲的要求千差萬別，如何提供更靈活也更穩定的服務，但同時讓算力得到充分地利用，是 AIDC 面臨的持續挑戰。

寒武紀虛擬化技術 vMLU，支持在思元 290 上實現 4 個相互隔離的 AI 計算實例，每個實例獨佔計算、內存和編解碼資源。實例之間的硬件資源互不幹擾，即使在虛擬化環境下仍可保持 90% 以上的極高效率，幫助客戶充分利用硬件資源。

寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

思元 290 上實現 4 個相互隔離的 AI 計算實例。

vMLU 還可以幫助思元 290 芯片提供最佳的靈活性。通過熱遷移技術，雲管理員可將正在運行的 AI 負載及其應用程序移動到另外一臺主機上，從而平衡整個 AIDC 的負載，並實現更好的容災功能。

寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

vMLU 熱遷移

寒武紀首款訓練智能加速卡 MLU290-M5

寒武紀 MLU290-M5 智能加速卡搭載了思元 290 智能芯片，採用開放加速模塊 OAM 設計，具備 64 個 MLU Core，1.23TB/s 內存帶寬以及全新 MLU-Link多芯互聯技術，在 350w 的最大散熱功耗下提供 AI 算力高達 1024 TOPS(INT4)。

寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

寒武紀智能加速卡 MLU290-M5

寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

寒武紀智能加速卡 MLU290-M5 產品規格

寒武紀首款智能加速器玄思 1000

寒武紀首款智能加速器玄思 1000 包含 4 片思元 290 智能加速卡，最大 AI 算力超過 4100 萬億次每秒(4.1 PetaOPS INT4)，一臺玄思 1000 計算單元就足以替代一個小型傳統超級計算中心。

玄思 1000 內置高帶寬低延時的 MLU-Link多芯互聯技術，實現內部 4 顆思元 290 進行高速互聯，同時打破服務器、緊耦合微集群（POD）與集群的傳統數據中心橫向擴展架構，將 AIDC 構建為節點、POD 乃至超大規模混合擴展架構(Hybrid Scale-out)，實現 AI 算力計算中心級縱向擴展，滿足高性能、高擴展性、靈活性、高魯棒性的要求。

寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

玄思 1000 是 AI 算力的高集成度平臺，支持計算中心級縱向擴展。

重塑 AIDC 基礎架構

算力、算法、數據是人工智能發展的三大要素，隨著這幾年 AI 的逐步發展，算力的核心地位更為凸顯。人工智能技術落地於實際應用中需要芯片和硬件層面強大的算力支撐。算力已成為驅動 AI 產業化和產業 AI 化發展的關鍵要素。

下一代 AIDC 要求更多智能芯片無縫協同、並行運行的同時，還能保持高計算效率，從而提供超級巨大的算力，以應對超大規模訓練的需要。寒武紀玄思 1000 智能加速器重新思考了未來 AIDC 的基礎架構，在內部和外部採用統一的 MLU-Link多芯互聯技術進行通訊，使得思元 290 智能芯片的互聯範圍可以從單機擴展到 POD 乃至整個計算中心，重塑了基礎架構。

寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

玄思 1000 支持 8 個 400G MLU-Link和 2 個 200G 網絡接口，總帶寬高達 3600Gbps，是傳統異構服務器的 2 倍。

玄思 1000 配置 8 個對外互聯的 MLU-Link接口，支持跨系統互聯構建 MLU POD。標準配置支持 MLU POD 16、24、32。在 POD 內部，所有 290 芯片均可通過 MLU-Link多芯互聯技術進行通訊，在帶寬和延時方面實現了突破；POD 外部通過玄思 1000 內置的網卡與其他系統進行通訊，實現了 AI 訓練集群性能、擴展性和魯棒性的協同提升。

寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

POD 內所有思元芯片通過 MLU-Link全互聯。

除了標準配置的 POD 之外，在計算中心條件允許的前提下，通過 MLU-Link多芯互聯技術，可實現 1024 顆或更多思元 290 互聯，不需要額外的網卡即可實現無縫加速。

寒武紀 Neuware訓練軟件棧

寒武紀 Neuware軟件棧為思元 290 芯片提供完善的軟件及應用生態，支持業界主流的 TensorFlow 和 PyTorch 等深度學習框架，用戶不需要改變使用習慣，即可在思元 290 芯片上實現圖形圖像、語音、NLP、搜索推薦等多種應用的訓練和推理。其中，基於 Horovod 分佈式訓練框架與 MLU-Link多芯互聯技術相互配合，讓思元 290 在單機多卡、多機多卡的場景下達到業界領先的訓練加速比。寒武紀 Neuware提供完善的開發工具包和社區支持，幫助用戶在思元 290 芯片進行方便、靈活的定製開發及部署工作。配合強大的 BANG 智能編程語言及配套調試工具，用戶可以為自定義的算法提供最佳性能調優。

寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

寒武紀 Neuware軟件棧為思元 290 芯片提供完善的軟件及應用生態。

2021 年 1 月，IDC 發佈了《2020-2021 中國人工智能計算力發展評估報告》，該報告預計，中國人工智能市場規模在 2020 年達到 62.7 億美元，2019-2024 年的複合增長率為 30.4%。IDC 的調研還發現，超過九成的企業正在使用或者計劃在三年內使用人工智能，其中 74.5% 的企業期望在未來可以採取具備公用設施意義的人工智能基礎設施。

隨著 AI 算法突飛猛進的發展，越來越多的模型訓練需要巨量的算力支撐才能快速有效地實施，算力是未來人工智能應用取得突破的決定性因素。

值得強調的是，在巨量的人工智能市場中，雲服務市場表現更為突出。早前，2020 年 7 月，IDC 發佈的另一份報告顯示，2018 至 2024 年，中國 AI 雲服務市場年複合增長率將達到 93.6%。而目前人工智能芯片仍處於成長期，未來三年，人工智能芯片市場將呈現多元化發展趨勢。

寒武紀 290 產品線，有望在持續高速增長的人工智能市場尤其是雲服務市場，搶佔更多的市場份額，推動自身和 AI 行業的發展。據悉，寒武紀思元 290 芯片及加速卡已與部分硬件合作夥伴完成適配，並已實現規模化出貨。

寒武紀最初佈局終端 IP 場景，連續迭代推出讓其聲名鵲起的寒武紀 1A、寒武紀 1H、寒武紀 1M 系列處理器，而後迅速佈局雲端智能芯片及加速卡系列產品思元 100 和思元 270，又於 2019 年推出基於思元 220 芯片的邊緣智能加速卡。由此建立起覆蓋雲邊端、訓練、推理的完整產品矩陣，同時利用平臺級基礎系統軟件 Cambricon Neuware，連接全線產品，由點及面，實現了“訓推一體、端雲融合”。寒武紀也成為目前國際上少數幾家全面系統掌握了通用型智能芯片及其基礎系統軟件研發和產品化核心技術的企業之一。

以寒武紀一年迭代推出一到兩款新品的研發速度，我們有理由開始期待，寒武紀的下一個新品 “彩蛋” 了。

由於微信公眾號試行亂序推送，您可能不再能準時收到墨子沙龍的推送。為了不與小墨失散，請將“墨子沙龍”設為星標賬號，以及常點文末右下角的“在看”。

授權或合作請聯繫微信號MICIUS-SALON或[email protected]，轉載微信原創文章可直接後臺回覆“轉載”查看轉載說明

墨子沙龍是以中國先賢“墨子”命名的大型公益性科普論壇，由中國科學技術大學上海研究院主辦，中國科大新創校友基金會、中國科學技術大學教育基金會、浦東新區科學技術協會、中國科學技術協會及浦東新區科技和經濟委員會等協辦。

墨子是我國古代著名的思想家、科學家，其思想和成就是我國早期科學萌芽的體現，“墨子沙龍”的建立，旨在傳承、發揚科學傳統，建設崇尚科學的社會氛圍，提升公民科學素養，倡導、弘揚科學精神。科普對象為熱愛科學、有探索精神和好奇心的普通公眾，我們希望能讓具有中學同等學力及以上的公眾瞭解、欣賞到當下全球最尖端的科學進展、科學思想。

關於“墨子沙龍”

轉載請超鏈接註明：頭條資訊 » 寒武紀首顆AI訓練芯片亮相：7納米制程，算力提升四倍，已規模化出貨

免責聲明
    ：非本網註明原創的信息，皆為程序自動獲取互聯網，目的在於傳遞更多信息，並不代表本網贊同其觀點和對其真實性負責；如此頁面有侵犯到您的權益，請給站長發送郵件，並提供相關證明(版權證明、身份證正反面、侵權鏈接)，站長將在收到郵件24小時內刪除。