GPT-Image-2 以超高分空降排行榜首,透過思考模式實現從單純畫圖到具備商業策略與排版邏輯的跨越。 (前 […] 〈OpenAI 祭出 GPT-Image-2:視覺生成迎來碾壓,設計師這次真的要失業了〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。GPT-Image-2 以超高分空降排行榜首,透過思考模式實現從單純畫圖到具備商業策略與排版邏輯的跨越。 (前 […] 〈OpenAI 祭出 GPT-Image-2:視覺生成迎來碾壓,設計師這次真的要失業了〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

OpenAI 祭出 GPT-Image-2:視覺生成迎來碾壓,設計師這次真的要失業了

2026/04/22 12:36
閱讀時長 10 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。
GPT-Image-2 以超高分空降排行榜首,透過思考模式實現從單純畫圖到具備商業策略與排版邏輯的跨越。 (前情提要:OpenAI 推出網路安全專用模型 GPT-5.4-Cyber:已修補 3,000 個高危漏洞,較勁 Claude Mythos) (背景補充:GPT-5延期!OpenAI先推o3、o4-Mini,Sam Altman自曝:整合比想像中更難)     如果要給OpenAI 的2025 年做個階段性的回顧,很多人大概會用平淡甚至略顯被動來形容。 在過去的一年多里,他們確實按部就班地跑通了邏輯推理的路徑,密集發布了從o3pro 到o4mini 的推理模型,也推出了GPT-4.5和GPT-5 這樣的全新的基座模型。 但在一般使用者最容易感知、也最容易形成自發性傳播的視覺生成領域,他們的影響力正逐漸縮小。 自從Sora 問世初期的震撼過後,OpenAI 似乎在這個賽道進入了漫長的靜默期。 同時,牌桌上的其他玩家並沒有閒著。 開源生態裡,像Flux 這樣的模型徹底將高品質本地出圖的門檻踩碎; 在商業端,不僅有老對手把持著極致的美學壁壘,甚至還湧現出了像Nano-banana 這樣自帶連網搜尋功能的新銳選手。 相較之下,OpenAI 過去的主力生圖模型GPT-Image-1.5 早就已經顯得力不從心: 不僅畫質差、排版死板、面對複雜文字經常崩潰。 漸漸地,產業裡形成了一種共識: OpenAI 在視覺生成這條線上遇到了技術瓶頸,在各路競品的圍剿下已經顯得力不從心了。 直到前幾週,轉折點以一種非常隱密的方式出現了。 在知名的大模型盲測平台LM Arena 上,低調加入了一個代號為Duct Tape(膠帶)的神秘影像模型。 參與盲測的使用者很快就發現事情不太對勁: 這個模型不僅對極端畫幅的把控極為精準,還能毫無瑕疵地輸出包含大量多語種文字的排版海報,甚至在出圖前似乎有一種隱形的邏輯規劃過程。 一時間,各個技術社群都在猜測這是哪家偷偷上線的大招,但OpenAI 方面始終保持沉默。 今天凌晨,真相終於揭曉。 沒有冗長的發表會,也沒有鋪天蓋地的行銷預熱, OpenAI 直接將這個代號膠帶的模型正式命名為ChatGPT GPT-Image-2,並全面推向市場。 隨之公布的,還有一張讓人感到有些窒息的Text-to-Image 競技場排行榜。 GPT-Image-2 以1512 的超高分直接直接奪下冠軍,領先第二名(也就是那個有連網搜尋功能的Nano-banana-2)整整242 分。 在大模型跑分的脈絡裡,大家通常會對零點幾或個位數的超越大書特書,頭部模型之間的分數咬得極度死。 一個242 分的領先落差,在競技場的歷史上是絕無僅有的。 這根本不是什麼微小的版本迭代,這是一種強大的技術斷層。 我花了大半天時間,把它的各種極限能力以及最新的API 介面檔案仔細過了一遍。 最大的感受只有一個: OpenAI 還是那個OpenAI。 視覺生成失守:OpenAI 陷入技術瓶頸 當它決定收復失地的時候,它用的方式是直接重塑遊戲規則。 在這個模型面前,那些我們以為還需要兩三年才會被AI 徹底取代的視覺設計工作,今天基本上可以說是走到頭了。 PART.01圖片產生從模型到視覺智慧體 要理解GPT-Image-2 為什麼能拉開這麼誇張的分數差距,得先打破以往對文生圖模型的傳統觀念。 以前我們用AI 畫圖,本質上是碰運氣,丟幾個提示詞進去,等著它把畫素排列成你想要的樣子。 但GPT-Image-2 更像是內建了視覺引擎的智慧體。 最明顯的變化,是它在機制上直接分出了兩個完全不同的模式。 一個是面向所有使用者開放的即時模式(Instant Mode)。 這個模式主打極速響應和生活工作流程的無縫接入。 例如你在手機上給它一個指令,它能在幾秒鐘內給你一張結構完整的圖。 它的底層視覺理解能力極強,但主要解決的是高頻的、單次的視覺轉換需求。 而開放給付費使用者的思考模式(Thinking Mode)。 在它真正開始渲染哪怕一個畫素之前,它會先進入一段長達十幾秒的邏輯推理與連網搜尋。 正是這個模式,解決了一個極為核心但也極為困難的命題: 模型第一次真正知道自己該畫什麼了。 舉個最直觀的例子。 你在對話方塊裡輸入: 幫我做一張海報,上網搜一下大家對Duct Tape 這個神秘模型的評價,並附上ChatGPT 的二維碼。 如果用以前的模型,它根本不知道網友說了什麼,只會為你畫一張有亂碼假字的海報,二維碼也是掃不出來的假貼圖。 但在思考模式下,它的工作流程是這樣的: 它會先暫停畫圖,啟動網路搜尋工具,到Reddit、Threads 或LinkedIn 上把網友的真實評價爬取下來; 然後,它開始規劃海報的版面、留白和字型層級; 最後,它產生一個真實可用、可以直接掃碼跳轉的二維碼,並把整張圖渲染出來。 這已經不是在畫圖了,這其實是在自主完成研究、策劃、文案提取、版面設計的一條龍工作。 這裡需要做一個平行的對比。 關注大模型圈的人都知道,有連網與搜尋能力的生圖模型並不是OpenAI 首創。 排行榜第二名的Nano-banana 早就具備了這個機制。 神秘模型現身:GPT-Image-2 暴力碾壓 但在實際使用Nano-banana 的時候,你會發現它在很多地方看起來有點笨。 Nano-banana 的思考往往是一種機械的拼接邏輯。 例如你讓它去搜尋個產業趨勢做海報,它確實去搜了,但通常只是把維基百科的句子生硬地摳下來,強行貼在畫面上。 一旦遇到需要解讀抽象商業訴求的指令,它就很容易不知所措。 那種感覺,就像是個聽得懂話、但沒有絲毫工作經驗的實習生,懂執行,但完全不懂策略。 但GPT-Image-2 在這方面的表現,只能用誇張來形容。 它的思考不是走過場,而是真正瞭解背後的文化脈絡和商業意圖。 我在測試時輸入了一句極簡的中文指令:幫我畫一個馬斯克在抖音直播帶貨豆包的截圖。 如果用以前的畫圖模型,高機率會為你畫一個長得像馬斯克的白人,手裡拿著個...
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

USD1 Genesis:0 費率 + 12% APR

USD1 Genesis:0 費率 + 12% APRUSD1 Genesis:0 費率 + 12% APR

新用戶:質押最高享 600% APR。限時福利!