OpenAI 發(fā)布新模型:開啟 AI “圖像思考” 新時代
OpenAI 發(fā)布新模型:開啟 AI “圖像思考” 新時代
2025 年 4 月,OpenAI 再次震撼全球科技界,發(fā)布了其比較新的 AI 模型 o3 和 o4 - mini。這兩款模型以其獨特的 “圖像思考” 能力,在人工智能領域掀起了新的波瀾,為用戶帶來了前所未有的體驗。突破傳統(tǒng):“圖像思考” 能力的革新o3 和 o4 - mini 引人注目的特性便是其 “圖像思考” 能力。在此之前,雖然也有一些 AI 模型具備一定的圖像識別能力,但 OpenAI 的這兩款新模型將圖像理解提升到了一個全新的高度。它們能夠理解低質量草圖、圖表,這意味著即使是隨手繪制的不規(guī)范草圖,或者復雜且不清晰的圖表,模型都能準確解讀其中的信息。
例如,在科研領域,研究人員常常會在實驗過程中繪制一些簡單的草圖來記錄實驗思路或數(shù)據(jù)關系。以往,這些草圖很難被 AI 有效利用,但現(xiàn)在 o3 和 o4 - mini 可以對其進行分析,幫助研究人員進一步梳理思路,甚至提供基于草圖信息的深入建議。在商業(yè)領域,企業(yè)分析市場數(shù)據(jù)時所繪制的各種圖表,哪怕存在數(shù)據(jù)標注不清晰等問題,新模型也能夠進行解讀和分析,為企業(yè)決策提供有力支持。
不僅如此,這兩款模型還能對圖像進行編輯操作,如旋轉、縮放等。以建筑設計為例,設計師可能會繪制一些建筑外觀或內(nèi)部結構的草圖,o3 和 o4 - mini 可以根據(jù)設計師的需求對草圖進行旋轉,從不同角度展示建筑效果,或者縮放局部細節(jié)進行分析,極大地提高了設計效率。各司其職:o3 與 o4 - mini 的定位差異o3 作為 OpenAI 此次發(fā)布的重點模型,專注于解決復雜任務,特別是在數(shù)學、編碼等領域展現(xiàn)出了強大的實力。在數(shù)學方面,面對高難度的數(shù)學競賽題目,o3 能夠憑借其出色的推理能力,通過多步驟的計算和思考,給出準確的解答。例如在 AIME 2024 數(shù)學競賽題目測試中,o3 的準確率高達 91.6%,在 AIME 2025 題目中,準確率也有 88.9%。這一成績遠遠超過了前代模型,幾乎達到了前列數(shù)學家的水平。
在編碼領域,o3 同樣表現(xiàn)出色。它可以對復雜的代碼庫進行分析,找出其中的漏洞和潛在問題,并提供詳細的修復建議。根據(jù) OpenAI 2024 年 8 月推出的 SWE - bench Verified 代碼生成評估基準,在軟件工程的能力測評中,o3 的準確度得分達到 69.1%,處于當前比較先進的水平(不使用自定義結構)。
相比之下,o4 - mini 則更加輕量高效。它專為那些對響應速度和成本效益有較高要求的場景而設計,同時在數(shù)學、編程和視覺任務上依然保持著出色的表現(xiàn)。在 AIME 2024 和 2025 基準測試中,o4 - mini 在不使用工具的情況下準確率達到 93.4%,甚至超過了 o3 的部分成績。在處理一些日常的編程任務,如簡單的代碼編輯、調(diào)試時,o4 - mini 能夠快速給出解決方案,并且成本相對較低,非常適合小型企業(yè)或個人開發(fā)者使用。付費體驗:率先向付費用戶開放目前,o3 和 o4 - mini 已率先向付費用戶開放。對于 ChatGPT Plus、Pro 和 Team 用戶來說,他們可以在模型選擇器中找到這兩款新模型,體驗其強大的功能。ChatGPT Enterprise 和 Edu 用戶也將在一周內(nèi)獲得訪問權限。開發(fā)者更是可以通過 Chat Completions API 和 Responses API 使用該模型,將其集成到自己的應用程序中,為用戶提供更智能的服務。
這一舉措對于付費用戶來說無疑是一大福音。他們可以利用 o3 和 o4 - mini 提升工作效率,解決以往難以攻克的難題。例如,科研團隊可以借助 o3 深入分析實驗數(shù)據(jù)和復雜的科學模型;軟件開發(fā)公司可以使用 o4 - mini 快速進行代碼測試和優(yōu)化。
OpenAI 發(fā)布的 o3 和 o4 - mini 模型憑借其 “圖像思考” 能力以及在復雜任務處理和輕量高效應用方面的優(yōu)勢,為 AI 的發(fā)展開辟了新的方向。隨著更多用戶對這兩款模型的使用和探索,我們有理由相信,它們將在各個領域發(fā)揮巨大的作用,推動科技和社會的進一步發(fā)展。未來,OpenAI 是否還會帶來更多令人驚喜的創(chuàng)新,讓我們拭目以待。