但耐人尋味的是,Groq 官方聲明刻意將這筆交易定義為「非獨家技術授權協議」,而非傳統的企業併購。但耐人尋味的是,Groq 官方聲明刻意將這筆交易定義為「非獨家技術授權協議」,而非傳統的企業併購。

一切為了 LPU?解密 NVIDIA 為何狠砸 200 億美元收購 Groq

2025/12/31 14:45

2025 年年末,NVIDIA 又宣布一次重大併購案:將以 200 億美元現金收購 AI 晶片新創 Groq 的資產,創下 NVIDIA 本身史上最大規模收購紀錄,NVIDIA 將取得 Groq 所有資產,但不包括其雲端服務業務 GroqCloud。

這筆交易最先由創投公司 Disruptive 的執行長 Alex Davis 證實。Disruptive 是 Groq 最新一輪融資的領投方,自公司創立以來累計投資超過 5 億美元。

但耐人尋味的是,Groq 官方聲明刻意將這筆交易定義為「非獨家技術授權協議」,而非傳統的企業併購。根據聲明內容,Groq 創辦人暨執行長 Jonathan Ross、總裁 Sunny Madra 等高階主管將加入 NVIDIA,協助推動相關技術發展。NVIDIA 執行長黃仁勳在內部信中表示,將把 Groq 的低延遲處理器整合進 NVIDIA AI 工廠架構,擴大平台對 AI 推論和即時運算的服務範圍。然而,黃仁勳也刻意強調:「我們只是納入人才和取得智慧財產權授權,並非收購整間公司。」

這種措辭非常微妙。2024 年微軟就曾以類似手法挖走 Inflection AI 的核心團隊,當時引發「掏空新創」的爭議。市場分析師普遍認為,科技巨頭採用這種「人才加技術」的收購模式,主要是為了規避反壟斷審查。因為沒有形式上的「併購」,就不需要經歷漫長的政府審查程序。

事實上 NVIDIA 今年九月就曾以超過九億美元的代價,從 AI 硬體新創 Enfabrica 挖角執行長與核心團隊,同時取得技術授權。如今這筆兩百億美元的 Groq 交易,可說是將同樣的劇本放大演出。

Groq 在交易前三個月才剛完成一輪 7.5 億美元的募資,估值達 69 億美元。Alex Davis 透露Groq 原本沒有出售打算,是 NVIDIA 主動接洽。

從估值角度來看,200 億美元的價碼相當於 Groq 三個月前估值的近三倍溢價。這種闊氣遠遠超過 NVIDIA 過去的紀錄,過去 NVIDIA 先前最大手筆是 2019 年以近 70 億美元買下以色列晶片設計公司 Mellanox。截至 2025 年十月底,NVIDIA 帳上擁有 606 億美元的現金和短期投資,充裕的資金讓該公司有足夠底氣進行大規模投資。

交易完成後,Groq 將繼續以獨立公司形式運作,由原財務長 Simon Edwards 接任執行長。GroqCloud 雲端服務也將持續營運不受影響。但明眼人都能察覺,當創辦人、總裁與核心工程團隊都已轉投 NVIDIA 麾下,Groq 過去曾挑戰 GPU 霸權的新創公司,實質上已經「結束」了它的挑戰使命。

TPU 之父的第二人生

要理解 NVIDIA 為何願意付出如此天價,就必須先認識 Groq 的靈魂人物:創辦人 Jonathan Ross。他本人曾師從深度學習三巨頭之一的 Yann LeCun。隨後尚未畢業就進入 Google,在 Google 著名的「百分之二十時間」專案中,設計並實作了 TPU 的核心元件。

TPU 是 Google 的客製化 AI 晶片,被不少人士視為 NVIDIA GPU 的替代方案。這項成就讓 Jonathan Ross 在業界贏得了 TPU 之父 的美譽。之後,Jonathan Ross加入 Google X 的「快速評估團隊」(Rapid Eval Team),這是專門為母公司 Alphabet 孵化各種前瞻性的業務單位。在這裡,Jonathan Ross 得以接觸最前沿的技術構想,但也讓他看清了一個現實:儘管 TPU 在 Google 內部運作良好,但要真正發揮 AI 推論的潛力,需要一種全新的晶片架構。

這讓 Jonathan Ross 在 2016 年決心離開 Google,與另一位 Google X 工程師 Douglas Wightman 共同創辦 Groq。談到這個決定,Jonathan Ross 曾表示:「離開 Google 創業的風險,遠比留在公司內看著專案慢慢死去的風險要小得多。」

但就跟許多創業故事一樣,Jonathan Ross 也曾坦言:「Groq 差點死了很多次⋯⋯我們創辦 Groq 的時間可能有點太早了。」在 ChatGPT 於 2022 年底橫空出世之前,市場並不特別看好專門用於 AI 推論的晶片。

但轉機出現在 2024 年二月。當時,HyperWrite 展示了 Groq 運行法國新創 Mistral 的 Mixtral 模型,達到每秒近五百個 token 的驚人速度。影片中一個「閃電般快速的 AI 答案引擎」能在不到一秒內生成數百字的完整答案,當時,ChatGPT 的公開版本只能達到每秒約四十個 token。

這段影片如病毒般在社群媒體上瘋傳,Groq 一夕之間成為 AI 圈的話題焦點,在影片發布後的 24 小時內,超過三千名開發者湧入申請 API 存取權限。六個月後,使用 Groq 服務的開發者已成長到三十萬人;截至交易宣布時,這個數字更突破兩百萬。

顛覆 GPU 霸權的祕密武器:LPU

LPU 全名為 Language Processing Unit(語言處理單元),是 Groq 最核心的技術創新。這種晶片架構原名 TSP(Tensor Streaming Processor,張量串流處理器),後來隨著大型語言模型的興起而更名。

傳統處理器無論是 CPU 還是 GPU,都包含許多「非確定性」的硬體元件。快取(Cache)的命中或未命中時間不可預測;分支預測器(Branch Predictor)的預測錯誤會造成流水線清空;當多個核心同時競爭資源時,仲裁器(Arbiter)的仲裁結果也無法事先得知。這些設計讓硬體能夠靈活應對各種工作負載,卻也帶來一個副作用:執行時間不夠確定。

對於 AI 模型訓練來說,這種不確定性影響不大,反正要處理的資料量龐大,整體吞吐量才是關鍵。但對於 AI 推論,尤其是大型語言模型的即時互動,情況就完全不同了。當使用者向 ChatGPT 提問時,每一個 token 都必須依序生成,前一個 token 的結果會影響下一個 token 的產出。在這種「逐字生成」的場景下,傳統 GPU 的不確定性就成了致命的瓶頸。

Groq 的做法是從根本上重新思考晶片設計,徹底消除了所有非確定性的硬體元件,沒有快取、沒有分支預測器、沒有仲裁器、沒有重排序緩衝區。所有的執行控制權都交給了編譯器,讓編譯器在程式執行之前就精確排程每一個指令和資料流動。

這可以讓每次執行相同的程式,時間都完全一樣,沒有任何「抖動」(jitter)。對於需要即時回應的 AI 應用來說,這種可預測性至關重要。

LPU 另一個激進的設計選擇是記憶體架構。傳統 GPU 使用 HBM(High Bandwidth Memory,高頻寬記憶體)作為主要記憶體,但 HBM 是「外部記憶體」,即使堆疊在晶片旁邊,每次存取仍需數百奈秒的延遲。為了隱藏這個延遲,GPU 需要複雜的多層快取機制。

Groq 選擇了一條完全不同的道路:使用 SRAM 作為主記憶體,而非快取。SRAM 的特性是速度極快,存取延遲僅需奈秒級,但代價是面積大、成本高——每個位元需要六個電晶體,而 DRAM 只需一個。傳統上,SRAM 只用於處理器內的小型快取。這種設計讓運算單元可以全速存取模型權重,徹底消除了傳統 GPU 的「記憶體牆」瓶頸。

根據獨立評測機構 Artificial Analysis 的基準測試,Groq LPU 在 Llama 3 70B 模型上可達到每秒 280 至 300 個 token 的吞吐量,而 NVIDIA H100 GPU 在標準部署下僅能達到每秒 60 至 100 個 token。在首個 token 延遲(Time to First Token)這個關鍵指標上,Groq 也大幅領先,僅需 0.2 秒,而 GPU 系統通常需要數秒。

能源效率方面 Groq 報告其系統每產生一個 token 僅消耗一至三焦耳,而 NVIDIA H100 系統通常需要十至三十焦耳。這個差距主要來自於 SRAM 架構——存取本地 SRAM 的能耗遠低於存取外部 HBM,加上 LPU 完成任務的速度更快,在高功率狀態下停留的時間也更短。

NVIDIA 可能的下一手

NVIDIA 願意付出 200 億美元,某種程度上反映了 AI 產業的重心正在從訓練轉向推論,也就是如何將這些已經訓練好的模型部署到實際應用中,為數以億計的使用者提供即時服務。

GPU 的設計初衷是圖形處理,後來被發現也很適合 AI 訓練——這兩種工作負載都需要大規模平行處理大量資料。但 AI 推論,尤其是大型語言模型的即時互動,有著截然不同的需求:低延遲、低抖動、高能效、支援小批次處理。這些恰恰是 GPU 的弱項,卻是 LPU 的強項。

NVIDIA 當然不會坐視這個威脅。透過收購 Groq,NVIDIA 一舉達成多重目標:取得專為推論設計的先進架構;消除一個潛在的強勁競爭對手;獲得稀缺的頂尖人才,畢竟,Jonathan Ross 及其團隊擁有從零開始設計並量產客製化 AI 晶片的完整經驗。

黃仁勳在內部信中提到,將把 Groq 的低延遲處理器整合進「NVIDIA AI 工廠架構」。這個說法暗示了幾種可能的整合方向。第一個就是 NVIDIA 可能推出專門的推論加速器產品線,與現有的 GPU 形成互補。GPU 繼續主攻訓練市場和通用運算,而融合 LPU 技術的新產品則專攻對延遲敏感的推論工作負載。這種「訓練用 GPU、推論用 LPU」的雙軌策略,可以讓 NVIDIA 在整個 AI 運算生命週期中都保持領先地位。

第二則是 NVIDIA 可能將 LPU 的設計理念融入下一代 GPU 架構。LPU 的確定性執行、靜態排程、SRAM 優先等概念,都可以選擇性地整合到 GPU 中,改善其推論效能,同時保持訓練能力。

對於其他 AI 晶片新創來說,Groq 的結局既是警示也是激勵。警示在於,即使技術領先、融資順利、客戶成長,最終仍可能被巨頭收編;激勵在於,如果技術夠強,即使是 NVIDIA 也願意付出天價來取得。

對於 AMD、英特爾等傳統晶片大廠來說,NVIDIA 此舉進一步拉大了競爭差距。它們不僅要追趕 NVIDIA 在 GPU 訓練市場的領先地位,現在還要面對一個擁有專門推論技術的更強大對手。

而對於 Google、Meta、亞馬遜等雲端巨頭來說,這筆交易未來很可能會繼續加深它們對 NVIDIA 的依賴,雖然這些公司都有自己的客製化晶片計畫(如 Google TPU、亞馬遜 Trainium/Inferentia),但短期內仍難以完全擺脫對 NVIDIA 的需求。

核稿編輯:Sisley

加入 INSIDE 會員,獨享 INSIDE 科技趨勢電子報,點擊立刻成為會員

延伸閱讀:

  • NVIDIA 傳要買以色列 AI 新創 AI21 Labs!老黃為何說「以色列是我的第二個家」?

  • 史上最貴!NVIDIA 砸 200 億美元搶下 AI 晶片新創 Groq 資產與團隊

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。