推理芯片：英偉達第一，AMD第二 - asiasworldcity.hk

香港飛龍.online 官方授權發布的第4代「香港飛龍」標誌

本文内容：

如果您希望可以時常見面，歡迎標星收藏哦~來源：內容編譯自IEEE，謝謝。在MLCommons發佈的最新一輪機器學習基準測試結果中，基於Nvidia全新BlackwellGPU架構構建的計算機表現優於其他所有計算機。但AMD的最新InstinctGPUMI325卻與其競爭對手NvidiaH200相媲美。兩者的可比結果主要來自對較小規模大型語言模型之一Llama270B（700億個參數）的測試。然而，爲了跟上快速變化的人工智能格局，MLPerf增加了三個新基準測試，以更好地反映機器學習的發展方向。MLPerf針對機器學習系統進行基準測試，旨在提供計算機系統之間的同類比較。提交者使用自己的軟件和硬件，但底層神經網絡必須相同。目前共有11個服務器基準測試，今年又增加了3個。MLPerfInference聯合主席MiroHodak表示，“很難跟上該領域的快速發展”。ChatGPT直到2022年底纔出現，OpenAI於去年9月推出了其首個可以推理任務的大型語言模型(LLM)，LLM呈指數級增長——GPT3擁有1750億個參數，而GPT4被認爲擁有近2萬億個參數。由於這些飛速的創新，“我們加快了將新基準引入該領域的步伐，”Hodak說。新的基準測試包括兩個LLM。流行且相對緊湊的Llama270B已經是成熟的MLPerf基準測試，但該聯盟希望能夠模仿人們今天對聊天機器人的期望的響應能力。因此，新的基準測試“Llama2-70BInteractive”收緊了要求。在任何情況下，計算機每秒必須至少產生25個令牌，並且開始回答的時間不能超過450毫秒。在MLCommons發佈的最新一輪機器學習基準測試結果中，基於Nvidia全新BlackwellGPU架構構建的計算機表現優於其他所有計算機。但AMD的最新InstinctGPUMI325卻與其競爭對手NvidiaH200相媲美。兩者的可比結果主要來自對較小規模大型語言模型之一Llama270B（700億個參數）的測試。然而，爲了跟上快速變化的人工智能格局，MLPerf增加了三個新基準測試，以更好地反映機器學習的發展方向。MLPerf針對機器學習系統進行基準測試，旨在提供計算機系統之間的同類比較。提交者使用自己的軟件和硬件，但底層神經網絡必須相同。目前共有11個服務器基準測試，今年又增加了3個。MLPerfInference聯合主席MiroHodak表示，“很難跟上該領域的快速發展”。ChatGPT直到2022年底纔出現，OpenAI於去年9月推出了其首個可以推理任務的大型語言模型(LLM)，LLM呈指數級增長——GPT3擁有1750億個參數，而GPT4被認爲擁有近2萬億個參數。由於這些飛速的創新，“我們加快了將新基準引入該領域的步伐，”Hodak說。新的基準測試包括兩個LLM。流行且相對緊湊的Llama270B已經是成熟的MLPerf基準測試，但該聯盟希望能夠模仿人們今天對聊天機器人的期望的響應能力。因此，新的基準測試“Llama2-70BInteractive”收緊了要求。在任何情況下，計算機每秒必須至少產生25個令牌，並且開始回答的時間不能超過450毫秒。MLPerf看到了“代理人工智能”的興起——能夠推理複雜任務的網絡——試圖測試一款具備部分所需特徵的LLM。他們選擇了Llama3.1405B來完成這項工作。這款LLM擁有所謂的寬上下文窗口。這是衡量它可以同時接收多少信息（文檔、代碼示例等）的標準。對於Llama3.1405B，這個數字是128,000個token，是Llama270B的30多倍。最後一箇新基準稱爲RGAT，即所謂的圖注意力網絡。它的作用是對網絡中的信息進行分類。例如，用於測試RGAT的數據集由科學論文組成，這些論文都與作者、機構和研究領域之間存在關係，共計2TB的數據。RGAT必須將論文分類爲近3,000個主題。Nvidia通過自己的提交以及戴爾、谷歌和超微等15家合作伙伴的提交，繼續在MLPerf基準測試中佔據主導地位。其第一代和第二代Hopper架構GPU（H100和內存增強型H200）都表現強勁。Nvidia加速計算產品總監DaveSalvator表示：“去年，我們的性能又提高了60%”，Hopper於2022年投入生產。“在性能方面，它仍有一些提升空間。”但真正佔主導地位的是Nvidia的Blackwell架構GPUB200。“唯一比Hopper更快的就是Blackwell，”Salvator說。B200的高帶寬內存比H200多36%，但更重要的是，它可以使用精度低至4位的數字（而不是Hopper首創的8位）來執行關鍵的機器學習數學運算。精度較低的計算單元更小，因此更適合GPU，從而加快AI計算速度。在Llama3.1405B基準測試中，Supermicro的8核B200系統每秒傳輸的令牌數幾乎是思科8核H200系統的四倍。在Llama270B交互版中，同樣的Supermicro系統的速度是最快的H200計算機的三倍。Nvidia使用BlackwellGPU和GraceCPU的組合（稱爲GB200）來展示其NVL72數據鏈路如何能夠將多臺服務器集成到一箇機架中，從而使它們的性能如同一臺巨型GPU一樣。該公司向記者分享了一箇未經證實的結果，一整架基於GB200的計算機在Llama270B上每秒可交付869,200個tokens。本輪MLPerf中報告的最快系統是NvidiaB200服務器，每秒可交付98,443個tokens。在MLCommons發佈的最新一輪機器學習基準測試結果中，基於Nvidia全新BlackwellGPU架構構建的計算機表現優於其他所有計算機。但AMD的最新InstinctGPUMI325卻與其競爭對手NvidiaH200相媲美。兩者的可比結果主要來自對較小規模大型語言模型之一Llama270B（700億個參數）的測試。然而，爲了跟上快速變化的人工智能格局，MLPerf增加了三個新基準測試，以更好地反映機器學習的發展方向。MLPerf針對機器學習系統進行基準測試，旨在提供計算機系統之間的同類比較。提交者使用自己的軟件和硬件，但底層神經網絡必須相同。目前共有11個服務器基準測試，今年又增加了3個。MLPerfInference聯合主席MiroHodak表示，“很難跟上該領域的快速發展”。ChatGPT直到2022年底纔出現，OpenAI於去年9月推出了其首個可以推理任務的大型語言模型(LLM)，LLM呈指數級增長——GPT3擁有1750億個參數，而GPT4被認爲擁有近2萬億個參數。由於這些飛速的創新，“我們加快了將新基準引入該領域的步伐，”Hodak說。新的基準測試包括兩個LLM。流行且相對緊湊的Llama270B已經是成熟的MLPerf基準測試，但該聯盟希望能夠模仿人們今天對聊天機器人的期望的響應能力。因此，新的基準測試“Llama2-70BInteractive”收緊了要求。在任何情況下，計算機每秒必須至少產生25個令牌，並且開始回答的時間不能超過450毫秒。MLPerf看到了“代理人工智能”的興起——能夠推理複雜任務的網絡——試圖測試一款具備部分所需特徵的LLM。他們選擇了Llama3.1405B來完成這項工作。這款LLM擁有所謂的寬上下文窗口。這是衡量它可以同時接收多少信息（文檔、代碼示例等）的標準。對於Llama3.1405B，這個數字是128,000個token，是Llama270B的30多倍。最後一箇新基準稱爲RGAT，即所謂的圖注意力網絡。它的作用是對網絡中的信息進行分類。例如，用於測試RGAT的數據集由科學論文組成，這些論文都與作者、機構和研究領域之間存在關係，共計2TB的數據。RGAT必須將論文分類爲近3,000個主題。布萊克威爾，本能結果Nvidia通過自己的提交以及戴爾、谷歌和超微等15家合作伙伴的提交，繼續在MLPerf基準測試中佔據主導地位。其第一代和第二代Hopper架構GPU（H100和內存增強型H200）都表現強勁。Nvidia加速計算產品總監DaveSalvator表示：“去年，我們的性能又提高了60%”，Hopper於2022年投入生產。“在性能方面，它仍有一些提升空間。”但真正佔主導地位的是Nvidia的Blackwell架構GPUB200。“唯一比Hopper更快的就是Blackwell，”Salvator說。B200的高帶寬內存比H200多36%，但更重要的是，它可以使用精度低至4位的數字（而不是Hopper首創的8位）來執行關鍵的機器學習數學運算。精度較低的計算單元更小，因此更適合GPU，從而加快AI計算速度。在Llama3.1405B基準測試中，Supermicro的8核B200系統每秒傳輸的令牌數幾乎是思科8核H200系統的四倍。在Llama270B交互版中，同樣的Supermicro系統的速度是最快的H200計算機的三倍。Nvidia使用BlackwellGPU和GraceCPU的組合（稱爲GB200）來展示其NVL72數據鏈路如何能夠將多臺服務器集成到一箇機架中，從而使它們的性能如同一臺巨型GPU一樣。該公司向記者分享了一箇未經證實的結果，一整架基於GB200的計算機在Llama270B上每秒可交付869,200個令牌。本輪MLPerf中報告的最快系統是NvidiaB200服務器，每秒可交付98,443個令牌。AMD將其最新的InstinctGPUMI325X定位爲性能可與Nvidia的H200相媲美的產品。MI325X擁有與其前身MI300相同的架構，但增加了更多的高帶寬內存和內存帶寬—256GB和6TB/秒（分別提高了33%和13%）。添加更多內存是爲了處理越來越大的LLM。“更大的模型能夠利用這些GPU，因爲模型可以裝入單個GPU或單個服務器中，”AMD數據中心GPU營銷總監MaheshBalasubramanian說。“因此，你不必承擔從一箇GPU到另一箇GPU或從一箇服務器到另一箇服務器的通信開銷。當你消除這些通信時，延遲會大大改善。”AMD能夠通過軟件優化利用額外的內存，將DeepSeek-R1的推理速度提高八倍。在Llama270B測試中，八GPUMI325X計算機的速度與同樣配置的H200系統相比，只相差3%到7%。在圖像生成方面，MI325X系統的速度與NvidiaH200計算機相比，只相差10%以內。AMD本輪另一箇值得注意的成績來自其合作伙伴Mangoboost，通過在四臺計算機上進行計算，它在Llama270B測試中表現出了近四倍的性能。英特爾歷來在推理競賽中推出僅使用CPU的系統，以表明對於某些工作負載，您實際上並不需要GPU。這次看到了來自英特爾Xeon6芯片的首批數據，該芯片以前稱爲GraniteRapids，採用英特爾的3納米工藝製造。在每秒40,285個樣本的情況下，雙Xeon6計算機的最佳圖像識別結果約爲配備兩個NvidiaH100的思科計算機性能的三分之一。與2024年10月的Xeon5結果相比，新CPU在該基準測試中提升了約80%，在物體檢測和醫學成像方面的表現更是大幅提升。自2021年首次提交Xeon結果（Xeon3）以來，該公司在Resnet上的性能提升了11倍。目前，英特爾似乎已經退出了AI加速器芯片之爭。其NvidiaH100的替代品Gaudi3既未出現在新的MLPerf結果中，也未出現在去年10月發佈的4.1版中。Gaudi3的發佈時間晚於計劃，因爲其軟件尚未準備好。在英特爾願景2025（該公司僅限受邀參加的客戶會議）的開幕詞中，新任首席執行官陳立武(Lip-BuTan)似乎爲英特爾在AI方面的努力表示歉意。他告訴與會者：“我對我們目前的狀況不滿意。你們也不滿意。我清楚地聽到了你們的聲音。我們正在努力建立一箇有競爭力的系統。這不會在一夜之間發生，但我們會爲你們實現目標。”谷歌的TPUv6e芯片也表現出色，儘管結果僅限於圖像生成任務。在2024年10月的結果中，4-TPU系統以每秒5.48次查詢的速度比使用其前身TPUv5e的類似計算機提高了2.5倍。即便如此，每秒5.48次查詢的速度與使用NvidiaH100的類似尺寸的聯想計算機大致相當。https://spectrum.ieee.org/ai-inference半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅爲了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4083期內容，歡迎關注。『半導體第一垂直媒體』實時專業原創深度公衆號ID：icbank喜歡我們的內容就點“在看”分享給小夥伴哦

(本文内容不代表本站观点。)
---------------------------------