3月26日凌晨,谷歌正式推出了旗下新一代大語言模型Gemini 2.5。
谷歌將Gemini 2.5定義為公司迄今為止“最智能的AI模型”,Gemini 2.5 Pro實(shí)驗(yàn)版本在多項(xiàng)基準(zhǔn)測(cè)試中全面超越OpenAI o3-mini、Claude3.7 Sonnet、Grok-3和DeepSeek-R1。谷歌DeepMind首席技術(shù)官Koray Kavukcuoglu表示,Gemini 2.5代表了谷歌讓“人工智能更智能、推理能力更強(qiáng)”的目標(biāo)的下一步。
值得注意的是,就在谷歌發(fā)布Gemini 2.5大約一小時(shí)后,OpenAI就緊急發(fā)布了迄今為止最先進(jìn)的圖像生成器GPT-4o圖像生成技術(shù)。據(jù)介紹,GPT-4o圖像生成功能可精準(zhǔn)文本渲染、嚴(yán)格遵循指令提示、深度調(diào)用4o知識(shí)庫及對(duì)話上下文——包括對(duì)上傳圖像進(jìn)行二次創(chuàng)作或?qū)⑵滢D(zhuǎn)化為視覺靈感。OpenAI創(chuàng)始人兼CEO山姆·奧特曼在直播中還現(xiàn)場(chǎng)用GPT-4o自拍生成了一張漫畫圖片。
谷歌新推理模型,編碼推理能力優(yōu)秀
據(jù)谷歌介紹,公司長(zhǎng)期以來都在探索如何通過強(qiáng)化學(xué)習(xí)、思維鏈提示等技術(shù),讓人工智能變得更聰明、推理能力更強(qiáng)。去年12月,谷歌推出了Gemini 2.0 Flash Thinking模型,這一多模態(tài)推理模型具備快速且透明的處理能力。今年1月22日,谷歌正式發(fā)布了其Gemini 2.0 Flash Thinking推理模型的增強(qiáng)版。
此次最新發(fā)布的Gemini 2.5系列模型,是谷歌挑戰(zhàn)OpenAI“o”系列推理模型的嘗試。作為該系列模型中最先進(jìn)的復(fù)雜任務(wù)模型,Gemini 2.5 Pro實(shí)驗(yàn)版在多項(xiàng)基準(zhǔn)測(cè)試中全面超越OpenAI o3-mini、Claude 3.7Sonnet、Grok-3和DeepSeek-R1,并且以顯著的優(yōu)勢(shì)在LMArena(一個(gè)用于評(píng)估大型語言模型的開源平臺(tái))上排名第一。不過,谷歌并未放出Gemini 2.5 Pro與OpenAI o1、OpenAI o1-Pro和OpenAI o3等模型在基準(zhǔn)測(cè)試中的對(duì)比。
在編碼性能上,Gemini 2.5比2.0有了很大的飛躍,擅長(zhǎng)創(chuàng)建視覺上引人注目的網(wǎng)頁應(yīng)用程序和代理代碼應(yīng)用程序,以及代碼轉(zhuǎn)換和編輯。在代理代碼評(píng)估的行業(yè)標(biāo)準(zhǔn)SWE-BenchVerified上,Gemini 2.5Pro使用自定義代理設(shè)置得分為63.8%。
據(jù)谷歌發(fā)布的演示視頻,Gemini 2.5 Pro可以利用其推理能力通過從單行提示生成可執(zhí)行代碼來創(chuàng)建視頻游戲。例如,能夠在指定編程語言的情況下,設(shè)計(jì)出一款恐龍小游戲,生成了像素化的恐龍圖像和有趣的游戲背景。
在推理能力方面,Gemini 2.5 Pro在一系列需要高級(jí)推理的基準(zhǔn)測(cè)試中都處于領(lǐng)先地位。在“人類的最后考試”中(注:“人類的最后考試”是一個(gè)由數(shù)百名學(xué)科專家設(shè)計(jì)的數(shù)據(jù)集,旨在捕捉人類知識(shí)和推理的前沿),它在未使用工具的模型中也獲得了18.8%的最高分?jǐn)?shù),這是目前最先進(jìn)的成績(jī)。
此外,Gemini 2.5 Pro具備原生多模態(tài)處理能力和超長(zhǎng)上下文窗口,支持文本、圖像、音頻、視頻及代碼的多模態(tài)輸入,上下文窗口達(dá)100萬token(約75萬單詞),可解析完整《指環(huán)王》系列文本,未來將升級(jí)至200萬token。
OpenAI緊急推出4o圖像生成功能
在谷歌深夜上線旗下最強(qiáng)推理模型Gemini 2.5的一個(gè)小時(shí)后,OpenAI也緊鑼密鼓地推出了GPT-4o全新的圖像生成功能。
在此之前,OpenAI旗下的文生圖模型主要是DALL-E系列。與DALL-E不同,此次OpenAI的全新圖像生成器基于其原生多模態(tài)GPT-4o模型,奧特曼在直播活動(dòng)中宣布,原生圖像生成功能基于GPT-4o模型,不再需要調(diào)用獨(dú)立的DALL-E文生圖模型。
據(jù)介紹,基于GPT-4o的多模態(tài)能力,ChatGPT在圖像生成時(shí)能更加精確地遵循指示、更精確地渲染圖像上的文字,輕松創(chuàng)作出虛實(shí)結(jié)合的場(chǎng)景。目前,該功能已經(jīng)作為ChatGPT中的默認(rèn)圖像生成器向Plus、Pro、Team和免費(fèi)用戶陸續(xù)推出,企業(yè)和教育用戶將很快允許訪問。
據(jù)OpenAI官方發(fā)布的案例,GPT-4o圖像生成功能可以生成手寫字,精準(zhǔn)理解提示詞中的每一個(gè)細(xì)節(jié),而且圖像清晰度可與高清照片媲美。
例如,當(dāng)輸入提示詞“這是用手機(jī)拍攝的玻璃白板的廣角圖像,拍攝地點(diǎn)是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字,她身穿一件印有大型OpenAI標(biāo)志的T恤。筆跡看起來很自然,但有點(diǎn)凌亂,我們可以看到攝影師的倒影”后,最終生成的圖片將“海灣大橋”“印有大型OpenAI標(biāo)志的T恤”“攝影師的倒影”等細(xì)節(jié)均有體現(xiàn)。
GPT-4o圖像生成功能還能成為實(shí)用的生產(chǎn)力工具。比如,要為餐廳設(shè)計(jì)一份菜單圖片,用戶在提示詞中寫明不同菜品的名字、價(jià)格、主要特點(diǎn),GPT-4o即可生成一張符合要求、可以商用的菜單圖片。
不過,OpenAI也承認(rèn)模型并不完美,依然在裁剪、幻覺、精確繪圖等方面存在多個(gè)限制,例如在上下文信息較少的提示情況下,圖像生成功能可能會(huì)編造信息,在復(fù)雜度高的情況下難以渲染菲拉丁語言,并產(chǎn)生錯(cuò)誤的字符等。OpenAI表示,將在首次發(fā)布后通過模型改進(jìn)來解決這些問題。
一方面是谷歌發(fā)布迄今最智能的推理模型,向OpenAI的“o”系列推理模型發(fā)出挑戰(zhàn);另一方面是OpenAI推出GPT-4o圖像生成功能,應(yīng)對(duì)來自谷歌“全家桶”多模態(tài)能力帶來的壓力,兩大硅谷科技巨頭競(jìng)相發(fā)布AI新產(chǎn)品的背后,是全球AI競(jìng)爭(zhēng)的持續(xù)升級(jí)。隨著AI競(jìng)爭(zhēng)日趨激烈,各廠商都在加快研發(fā)速度,無論是推理模型、多模態(tài)大模型還是AI智能體,接下來或都將不斷迎來新的技術(shù)進(jìn)展與突破。
校對(duì):姚遠(yuǎn)
(點(diǎn)擊圖片進(jìn)入報(bào)名頁面)