電子發燒友網報道(文/周凱揚)在HPC應用上,對突破性能的追求是從未停歇的,尤其是在人工智能、機器學習和大數據分析等新興應用提出更高的性能要求後。但製程突破的速度已經逐漸放緩,每個工藝節點帶來的頻率紅利也在慢慢變小。而為了減少生產和開發成本,提高良率,不少CPU製造商都開始看向小芯片。
2020年的最後一天,AMD公佈了自己在小芯片GPU上的專利,引起了不少熱議。大家都在猜測,小芯片是否能成為後摩爾時代芯片設計創新的利器呢?
AMD:從小芯片CPU走向小芯片GPU
AMD從很早開始就在小芯片上發力了,不管是EPYC服務器CPU還是線程撕裂者桌面CPU,都大量運用了小芯片設計。在AMD看來,傳統的單片處理器將一個或多個CPU核心放置在單個裸片上,以此加速時鐘頻率和緩存讀取,雖然這種策略對於需要重度CPU使用的工作來說非常合理,但仍有其限制。而小芯片設計可以帶來更快的架構創新,尤其是在數據中心等應用上。
在去年的ISSCC 2020上,AMD重點提到了小芯片在第二代EPYC服務器CPU上帶來的優勢。運用Zen 2架構的EPYC服務器CPU上,AMD在CPU核心上運用了臺積電代工的7nm小芯片,IOD仍然採用Global Foundries的14nm製程。AMD提到這種設計實現了更高的核心數和更高的性能,而且顯著降低了成本。
而AMD近期公佈的小芯片GPU專利同樣掀起了不小的浪花,該專利展示了一種使用高帶寬交聯的小芯片GPU設計方案。
小芯片GPU / AMD
在該專利中,AMD提到,由於多數應用是以單個GPU為前提寫就的,所以為了保留現有的應用編程模型,將小芯片設計實現在GPU上向來都是一大挑戰。而該專利利用一根總線將第一個GPU小芯片與CPU相連,餘下的GPU用被動交聯連接。
如今許多架構至少擁有一級緩存連貫分佈在整個GPU裸片上,比如L3或其他最後一級緩存(LLC)。而這種設計中,這些物理資源被放置在不同的裸片上,並提供通信連接以保證其緩存連貫性。在工作過程中,內存地址請求從CPU發往一個GPU小芯片,後者與高帶寬被動交聯溝通以定位所需數據,因此從CPU的角度來看,仍然是在一個單獨的GPU上尋址。
Intel:以小芯片打造客戶2.0的芯片
芯片方案演化 / Intel
Intel在去年的架構日上給出了他們在IP/SOC上的策略改變,在過去整合的單片SOC中,開發週期長達3到4年,而且在投入使用後,製造商和用戶會在芯片上發現上百個Bug。而演化至多裸片的基本小芯片結構後,將GPU、CPU和IO放置在不同的裸片上,開發週期縮減至2-3年,Bug數目縮減至十數個,不僅如此,小芯片設計還可以重複使用。最後則是Intel對未來小芯片結構的展望,將不同的IP放在最優製程的小芯片上,比如內存、I/O或圖形等,從IP或小芯片層面上來做驗證,因此Bug數目不足十個,開發週期僅需1年。
客戶2.0方案 / Intel
這樣的設計也讓Intel對芯片定位有了更多的自由,比如遊戲玩家需要更多的圖形性能,而開發者則更渴求高算力的和強大的AI性能等。這也就是Intel設想的客戶2.0願景,通過智能感知帶給消費者無縫的高性能體驗。
儘管GPU一直是Intel的弱項之一,但這並不代表Intel沒有在顯示領域上發力。自從Intel從AMD的圖形部門挖走首席架構師Raja Koduri以來,Intel就開始在獨立顯卡上發力。Intel於2019年末公佈了超算級別的GPU,代號名為Ponte Vecchio,該GPU基於7nm工藝和小芯片技術,將於2021年年內安裝在Aurora超級計算機上作為圖形加速器使用。
小芯片的後盾:新的互聯與封裝技術
如果沒有創新的互聯與封裝技術,小芯片設計同樣是無法立足的。在小芯片的封裝上,Intel已經規劃好了詳細的封裝路線圖。
處理器封裝路線圖 / Intel
在Kaby Lake G處理器和Agilex FPGA上,Intel已經實現了EMIB這種2.5D的封裝方式。而Intel在Lakefield系列處理器上使用的Foveros 3D封裝技術則是對EMIB的進一步補充,該技術可將凸起高度進一步降低至50-25um,並實現接近1000 IO/mm2的密度。
Infinity架構 / AMD
但要想分解後的小芯片也能保持聯通,這就是互聯技術派上用場的地方,比如AMD在Zen架構CPU中引入的Infinity Fabric。AMD將Infinity Fabric視為連接各大產品線的基石,通過第三代Infinity框架,AMD得以為CPU與GPU之間提供大帶寬和低延遲的連接、統一的內存訪問,提升AMD產品的結合性能並簡化編程。
小結
去年的全球硬科技創新大會上,芯動科技、紫光存儲等成立了中國Chiplet產業聯盟,推動國內的小芯片發展。芯動科技在2020年推出了國產自主Chiplet標準INNOLINK,讓龐大的數據在小芯片之間低延遲傳輸。
INNOLINK解決方案 / 芯動科技
至於AMD的小芯片GPU,其實如此架構可能更有可能用於未來的CDNA數據中心GPU,而不是下一代RDNA消費級GPU。因為對於消費級GPU來說,很大一部分場景是對延遲極度敏感的遊戲應用,這正是小芯片GPU必須要先突破的限制,如果小芯片GPU有著SLI和CrossFire一樣大的延遲的話,無疑也會淡出人們的視野。
更多熱點文章閱讀
轉載請超鏈接註明:頭條資訊 » 在小芯片CPU嚐到甜頭,AMD向Chiplet GPU進發!
免責聲明 :非本網註明原創的信息,皆為程序自動獲取互聯網,目的在於傳遞更多信息,並不代表本網贊同其觀點和對其真實性負責;如此頁面有侵犯到您的權益,請給站長發送郵件,並提供相關證明(版權證明、身份證正反面、侵權鏈接),站長將在收到郵件24小時內刪除。