GPT-Image-2 以超高分空降排行榜首，透過思考模式實現從單純畫圖到具備商業策略與排版邏輯的跨越。（前 […] 〈OpenAI 祭出 GPT-Image-2：視覺生成迎來碾壓，設計師這次真的要失業了〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。GPT-Image-2 以超高分空降排行榜首，透過思考模式實現從單純畫圖到具備商業策略與排版邏輯的跨越。（前 […] 〈OpenAI 祭出 GPT-Image-2：視覺生成迎來碾壓，設計師這次真的要失業了〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

OpenAI 祭出 GPT-Image-2：視覺生成迎來碾壓，設計師這次真的要失業了

來源：Blocktempo ZH

2026/04/22 12:36

閱讀時長 10 分鐘

如需對本內容提供反饋或相關疑問，請通過郵箱 crypto.news@mexc.com 聯絡我們。

GPT-Image-2 以超高分空降排行榜首，透過思考模式實現從單純畫圖到具備商業策略與排版邏輯的跨越。（前情提要：OpenAI 推出網路安全專用模型 GPT-5.4-Cyber：已修補 3,000 個高危漏洞，較勁 Claude Mythos）（背景補充：GPT-5延期！OpenAI先推o3、o4-Mini，Sam Altman自曝：整合比想像中更難）如果要給OpenAI 的2025 年做個階段性的回顧，很多人大概會用平淡甚至略顯被動來形容。在過去的一年多里，他們確實按部就班地跑通了邏輯推理的路徑，密集發布了從o3pro 到o4mini 的推理模型，也推出了GPT-4.5和GPT-5 這樣的全新的基座模型。但在一般使用者最容易感知、也最容易形成自發性傳播的視覺生成領域，他們的影響力正逐漸縮小。自從Sora 問世初期的震撼過後，OpenAI 似乎在這個賽道進入了漫長的靜默期。同時，牌桌上的其他玩家並沒有閒著。開源生態裡，像Flux 這樣的模型徹底將高品質本地出圖的門檻踩碎；在商業端，不僅有老對手把持著極致的美學壁壘，甚至還湧現出了像Nano-banana 這樣自帶連網搜尋功能的新銳選手。相較之下，OpenAI 過去的主力生圖模型GPT-Image-1.5 早就已經顯得力不從心：不僅畫質差、排版死板、面對複雜文字經常崩潰。漸漸地，產業裡形成了一種共識： OpenAI 在視覺生成這條線上遇到了技術瓶頸，在各路競品的圍剿下已經顯得力不從心了。直到前幾週，轉折點以一種非常隱密的方式出現了。在知名的大模型盲測平台LM Arena 上，低調加入了一個代號為Duct Tape（膠帶）的神秘影像模型。參與盲測的使用者很快就發現事情不太對勁：這個模型不僅對極端畫幅的把控極為精準，還能毫無瑕疵地輸出包含大量多語種文字的排版海報，甚至在出圖前似乎有一種隱形的邏輯規劃過程。一時間，各個技術社群都在猜測這是哪家偷偷上線的大招，但OpenAI 方面始終保持沉默。今天凌晨，真相終於揭曉。沒有冗長的發表會，也沒有鋪天蓋地的行銷預熱， OpenAI 直接將這個代號膠帶的模型正式命名為ChatGPT GPT-Image-2，並全面推向市場。隨之公布的，還有一張讓人感到有些窒息的Text-to-Image 競技場排行榜。 GPT-Image-2 以1512 的超高分直接直接奪下冠軍，領先第二名（也就是那個有連網搜尋功能的Nano-banana-2）整整242 分。在大模型跑分的脈絡裡，大家通常會對零點幾或個位數的超越大書特書，頭部模型之間的分數咬得極度死。一個242 分的領先落差，在競技場的歷史上是絕無僅有的。這根本不是什麼微小的版本迭代，這是一種強大的技術斷層。我花了大半天時間，把它的各種極限能力以及最新的API 介面檔案仔細過了一遍。最大的感受只有一個： OpenAI 還是那個OpenAI。視覺生成失守：OpenAI 陷入技術瓶頸當它決定收復失地的時候，它用的方式是直接重塑遊戲規則。在這個模型面前，那些我們以為還需要兩三年才會被AI 徹底取代的視覺設計工作，今天基本上可以說是走到頭了。 PART.01圖片產生從模型到視覺智慧體要理解GPT-Image-2 為什麼能拉開這麼誇張的分數差距，得先打破以往對文生圖模型的傳統觀念。以前我們用AI 畫圖，本質上是碰運氣，丟幾個提示詞進去，等著它把畫素排列成你想要的樣子。但GPT-Image-2 更像是內建了視覺引擎的智慧體。最明顯的變化，是它在機制上直接分出了兩個完全不同的模式。一個是面向所有使用者開放的即時模式（Instant Mode）。這個模式主打極速響應和生活工作流程的無縫接入。例如你在手機上給它一個指令，它能在幾秒鐘內給你一張結構完整的圖。它的底層視覺理解能力極強，但主要解決的是高頻的、單次的視覺轉換需求。而開放給付費使用者的思考模式（Thinking Mode）。在它真正開始渲染哪怕一個畫素之前，它會先進入一段長達十幾秒的邏輯推理與連網搜尋。正是這個模式，解決了一個極為核心但也極為困難的命題：模型第一次真正知道自己該畫什麼了。舉個最直觀的例子。你在對話方塊裡輸入：幫我做一張海報，上網搜一下大家對Duct Tape 這個神秘模型的評價，並附上ChatGPT 的二維碼。如果用以前的模型，它根本不知道網友說了什麼，只會為你畫一張有亂碼假字的海報，二維碼也是掃不出來的假貼圖。但在思考模式下，它的工作流程是這樣的：它會先暫停畫圖，啟動網路搜尋工具，到Reddit、Threads 或LinkedIn 上把網友的真實評價爬取下來；然後，它開始規劃海報的版面、留白和字型層級；最後，它產生一個真實可用、可以直接掃碼跳轉的二維碼，並把整張圖渲染出來。這已經不是在畫圖了，這其實是在自主完成研究、策劃、文案提取、版面設計的一條龍工作。這裡需要做一個平行的對比。關注大模型圈的人都知道，有連網與搜尋能力的生圖模型並不是OpenAI 首創。排行榜第二名的Nano-banana 早就具備了這個機制。神秘模型現身：GPT-Image-2 暴力碾壓但在實際使用Nano-banana 的時候，你會發現它在很多地方看起來有點笨。 Nano-banana 的思考往往是一種機械的拼接邏輯。例如你讓它去搜尋個產業趨勢做海報，它確實去搜了，但通常只是把維基百科的句子生硬地摳下來，強行貼在畫面上。一旦遇到需要解讀抽象商業訴求的指令，它就很容易不知所措。那種感覺，就像是個聽得懂話、但沒有絲毫工作經驗的實習生，懂執行，但完全不懂策略。但GPT-Image-2 在這方面的表現，只能用誇張來形容。它的思考不是走過場，而是真正瞭解背後的文化脈絡和商業意圖。我在測試時輸入了一句極簡的中文指令：幫我畫一個馬斯克在抖音直播帶貨豆包的截圖。如果用以前的畫圖模型，高機率會為你畫一個長得像馬斯克的白人，手裡拿著個...

$200,000 U 狂歡獎池不容錯過

解鎖驚喜盲盒、12% 加息券及 $200 新用戶好禮！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。