文生圖功能升級 ChatGPT追擊 -- 飛象網

轉自：北京商報

AI圖像生成領域傳來了新進展。當地時間3月25日，OpenAI在直播中對GPT-4o和Sora進行更新，并宣布其最新一代多模態模型GPT-4o正式集成“迄今為止最先進的圖像生成器”，并開放免費使用。這一動作被業界視為對同日凌晨Google發布的Gemini 2.5 Pro Experimental模型的直接狙擊。兩大巨頭的同日“對壘”，標志著生成式AI競賽進入白熱化階段。

攻克“生成圖像中的文字”難題

據OpenAI介紹，GPT-4o圖像生成功能擅長準確呈現文本，并精準遵循提示詞，該功能還會將GPT-4o的知識庫和聊天上下文作為靈感來源，這有助于使用者與圖像生成工具更有效地溝通并提高生成圖像的質量。該功能供ChatGPT Plus、Pro、Team和免費用戶使用，并計劃隨后向企業、教育和API使用者推出。

在OpenAI的示例中，要求大模型生成一名女子在一個俯瞰海灣大橋的房間里用筆在白板上寫字，衣服上印有OpenAI字樣，白板映著攝影師的身影，并描述了白板上所寫的文字。GPT-4o生成的圖像都體現了以上要求。隨后，OpenAI要求攝影師走到鏡頭前與女子擊掌，GPT-4o也呈現了這一畫面，且白板上的字不會變得凌亂，女子的身形和發型也與前一張圖像呈現的背影一致。

生成圖像中的文字，此前是圖像生成領域的一個難題。ChatGPT在2022年底上線，最初只能生成和編輯文本，不能生成圖像。大約一年后，OpenAI發布第三代圖像生成模型DALL-E 3，并集成到ChatGPT，但兩者一直是互相獨立的系統。國內廠商中，去年豆包升級文生圖能力，支持一鍵生成指定文本。今年3月，智譜AI發布了首個支持生成漢字的開源文生圖模型CogView4。

就如何訓練GPT-4o圖像生成功能，OpenAI解釋，OpenAI使用了網絡上的圖像和文本訓練模型，讓模型學習圖像與文字、圖像與圖像之間的關系，使模型具有視覺流暢性，生成的圖片是有用的、具備上下文連貫性的。

就GPT-4o圖像生成功能的特點，OpenAI還表示，用戶可以通過自然對話與大模型交流，要求大模型改進圖像，在這個過程中圖像中的人物等要素會保持一致性。使用者與大模型的交流也更順暢，可以同時要求大模型處理10到20個不同的對象，以便圖像中各要素呈現出相關性。OpenAI對比其他圖像生成系統時稱，其他系統只能同時處理5到8個對象。

不過，OpenAI也指出，GPT-4o圖像生成功能也具備一些限制，例如存在幻覺、難以呈現太多依賴知識庫的圖像要素（例如元素周期表）、圖表準確性不足、呈現非拉丁語言時可能容易出現幻覺、要求修改圖像中的錯別字時難以精準編輯。

一位從業者對北京商報記者表示，GPT-4o圖像生成確實強大，但完全替代UI設計師還早，創意和細節還得靠人。“88分的設計流，剩下12分才是設計師的真正價值。”

GPT-5路線圖

此次更新GPT-4o的圖像生成功能之后，OpenAI更大的產品更新將是推出GPT-5。今年2月，OpenAI首席執行官山姆·奧爾特曼表示，OpenAI將會在ChatGPT和API服務中搭載新模型GPT-5，GPT-5將集成公司多項技術，包括推理模型o3的技術，GPT-5可能會在未來幾個月內推出。

相比于之前一直不明確GPT-5的推出節點，奧爾特曼突然官宣GPT路線圖，或許是因為OpenAI面臨用戶流失的壓力。奧爾特曼此前表示，DeepSeek讓OpenAI的領先優勢不會像前幾年那么大了，并稱個人認為在開源權重模型和研究成果的問題上，OpenAI已經站在了歷史的錯誤一邊，需要制定不同的開源策略。

此前據《華爾街日報》報道，OpenAI內部代號為“獵戶座”（Orion）的GPT-5項目的開發已持續近兩年，目前面臨嚴峻挑戰。按原計劃，該項目應在2024年年中完成，但現在進度嚴重滯后。

OpenAI已經進行了至少兩次大型訓練，每次訓練都需要數月時間處理大量數據，目的是讓“獵戶座”變得更聰明。一位前OpenAI高管表示，如果說GPT-4的表現相當于一個優秀高中生，那么GPT-5的目標是要在某些任務上達到博士水平。然而熟悉該項目的人士表示，“獵戶座”的訓練每次都會出現新問題，軟件也達不到研究人員的預期。

東吳證券(7.920,-0.03,-0.38%)發布研報稱，判斷OpenAI對大模型的產品線與預期曾進行過調整。GPT-5的發布時間或提前，或由于DeepSeek近期的重磅更新和亮眼表現對OpenAI產品版圖構成了威脅，進而希望加快產品迭代步伐。

外部競爭

困擾OpenAI的不只是數據和成本，外部競爭同樣關鍵。就在OpenAI宣布更新的大約一小時前，谷歌正式推出了旗下新一代人工智能模型Gemini 2.5。該模型基于多模態大語言框架升級，顯著增強了推理能力、多語言支持及長文本處理能力。

谷歌將Gemini 2.5定義為公司迄今為止“最智能的AI模型”，Gemini 2.5 Pro實驗版本在多項基準測試中全面超越OpenAI o3-mini、Claude3.7 Sonnet、Grok-3和DeepSeek-R1。據官方介紹，Gemini 2.5通過優化算法架構，將響應速度提升40%，能耗降低25%。在關鍵指標測試中，其復雜邏輯任務完成度較前代提升65%，尤其在醫療診斷輔助、法律文書生成等垂直領域展現出更高精度。

Gemini 2.5 Pro支持文本、圖像、音頻、視頻及代碼的多模態輸入，上下文窗口達100萬token（約75萬單詞），可解析完整《指環王》系列文本，未來將升級至200萬token。谷歌表示，“推理”能力不僅僅指分類和預測，而是指系統分析信息、得出邏輯結論、融入上下文和細微差別，以及做出明智決策的能力。

該模型一經發布，便在各大基準測試上全面“屠榜”，在所有測試中都穩居第一名的位置，包括常見的編程、數學和科學基準測試。在推理能力方面，Gemini 2.5 Pro在一系列需要高級推理的基準測試中都處于領先地位。在“人類的最后考試”中（一個由數百名學科專家設計的數據集，旨在捕捉人類知識和推理的前沿），它在未使用工具的模型中也獲得了18.8%的最高分數，這是目前最先進的成績。

谷歌Deepmind首席技術官Koray Kavukcuoglu在博客中寫道：“現在，通過Gemini 2.5，我們結合了顯著增強的基礎模型和改進后的后續訓練，實現了全新的性能水平。未來，我們將把這種思維能力直接構建到我們所有的模型中，使其能夠處理更復雜的問題，并支持更強大、更具情境感知能力的智能體。”

研究機構Gartner預測，到2026年，多模態生成模型的商業價值將占AI市場的45%。隨著谷歌與微軟等巨頭持續加碼，生成式AI正從通用工具向產業基礎設施演變，但其社會倫理、監管框架的完善也有待各方共同探索。

北京商報記者趙天舒

韩国三级一区-韩国三级香港三级日本三级la-韩国三级香港三级日本三级-韩国三级视频网站-日韩欧美一及在线播放-日韩欧美一二三区

文生圖功能升級 ChatGPT追擊