OpenAI宣布對GPT – 4o和Sora進(jìn)行重大更新,將迄今最先進(jìn)的圖像生成器集成至GPT – 4o,推出全新文生圖模型。即日起,所有Plus、Pro、Team及免費用戶將陸續(xù)在ChatGPT和Sora 中體驗該功能,企業(yè)版與教育版也即將接入,Sora平臺同步啟用。開發(fā)者將在未來數(shù)周內(nèi)獲得接口權(quán)限,通過API調(diào)用GPT – 4o圖像生成功能。?
此次推出的全新文生圖模型功能十分強(qiáng)大。除了基礎(chǔ)的文生圖能力外,它還支持多種實用功能。在自定義操作方面,用戶能夠更改寬高比、調(diào)整圖像物體角度,甚至可以用十六進(jìn)制代碼指定精確顏色等。連續(xù)發(fā)問功能讓用戶與模型的交互更加流暢,能夠基于前一次生成的圖像繼續(xù)提出修改或拓展需求。
風(fēng)格轉(zhuǎn)換功能可將圖像在不同風(fēng)格之間切換,比如能把合照轉(zhuǎn)化為動畫畫風(fēng)。圖像 PPT 功能則對教育、金融、醫(yī)療等領(lǐng)域幫助巨大,例如在教育場景中,教師可根據(jù)知識點快速生成具有一致性的系列圖像用于教學(xué)演示。?
在圖像生成效果上,該模型表現(xiàn)驚艷。生成圖像的逼真度極高,肉眼幾乎難以看出破綻,在精細(xì)度、細(xì)節(jié)和文本遵循方面尤為出色,在一些功能上甚至可媲美乃至超越 Midjourney 這一頭部文生圖平臺。比如在生成復(fù)雜場景或物體時,模型能精準(zhǔn)呈現(xiàn)豐富細(xì)節(jié),對于文本指令中的復(fù)雜語義也能很好地理解并轉(zhuǎn)化為對應(yīng)的圖像內(nèi)容。?
技術(shù)層面,新模型采用非自回歸生成技術(shù),這成為提升圖片質(zhì)量和生成效率的關(guān)鍵。與傳統(tǒng)的依賴逐像素生成過程不同,非自回歸生成模塊能直接生成整個圖像。
它借助特殊的編碼器 – 解碼器架構(gòu),一次性理解和處理圖像的整體結(jié)構(gòu)與細(xì)節(jié)。這種技術(shù)帶來了多方面優(yōu)勢:其一,生成速度大幅提升,對于實時應(yīng)用以及需要大規(guī)模生成圖像的場景,如設(shè)計工作中需要快速產(chǎn)出大量草圖,或教育場景中教師需要迅速生成教學(xué)相關(guān)圖像等,能顯著提高工作效率;其二,生成圖像質(zhì)量更優(yōu),在處理復(fù)雜場景圖像時,能更好地協(xié)調(diào)多個對象及其相互關(guān)系,使圖像更加自然逼真,并且能更精準(zhǔn)地遵循文本指令中的復(fù)雜語義生成圖像;其三,在多模態(tài)融合方面表現(xiàn)出色,不僅能依據(jù)文本生成圖像,還能結(jié)合音頻或已有圖像等其他模態(tài)信息,生成更為豐富多樣的圖像內(nèi)容,更好地滿足用戶多元化需求。
OpenAI在其官網(wǎng)發(fā)布了一則事故報告更新,為近期備受關(guān)注的GPT-4o API問題帶來了積極進(jìn)展。報告指出,目前GPT-4o大多數(shù)用戶所遭遇的API問題已成功得到解決,不過OpenAI團(tuán)隊仍在全神貫注地持續(xù)關(guān)注剩余少量客戶的情況,力求確保每一位用戶都能恢復(fù)順暢使用。
數(shù)日前,OpenAI首次發(fā)布報告,揭示了用戶在通過API使用GPT-4o時,可能面臨響應(yīng)性能下降的棘手問題。這一狀況引發(fā)了廣泛關(guān)注,畢竟GPT-4o作為OpenAI旗下先進(jìn)的人工智能模型,被眾多開發(fā)者、企業(yè)及研究機(jī)構(gòu)寄予厚望,應(yīng)用場景涵蓋內(nèi)容創(chuàng)作、智能客服、數(shù)據(jù)分析等多個領(lǐng)域。
API問題的出現(xiàn),無疑給這些依賴GPT-4o的用戶帶來了諸多不便,部分企業(yè)甚至面臨業(yè)務(wù)流程受阻的困境。比如一些以GPT-4o API搭建智能客服系統(tǒng)的電商企業(yè),在問題出現(xiàn)期間,客戶咨詢響應(yīng)延遲,極大影響了客戶體驗與業(yè)務(wù)效率;還有從事數(shù)據(jù)分析的團(tuán)隊,因API響應(yīng)緩慢,項目進(jìn)度被迫放緩。?
隨著OpenAI此次更新發(fā)布,大多數(shù)用戶的使用體驗迎來顯著改善。那些此前受困于API響應(yīng)問題的開發(fā)者發(fā)現(xiàn),如今模型調(diào)用更加流暢,數(shù)據(jù)處理速度大幅提升。據(jù)部分開發(fā)者反饋,原本需要數(shù)分鐘才能完成的復(fù)雜文本生成任務(wù),現(xiàn)在短短幾十秒就能高質(zhì)量輸出結(jié)果,這使得他們能夠更高效地推進(jìn)項目開發(fā)。?
然而,OpenAI并未就此松懈。對于剩余少量仍存在問題的客戶,OpenAI技術(shù)團(tuán)隊正全力以赴展開排查與修復(fù)工作。據(jù)悉,團(tuán)隊已組建專項小組,深入分析這些客戶的使用數(shù)據(jù)與反饋信息,從網(wǎng)絡(luò)連接、服務(wù)器負(fù)載到模型配置等多個維度進(jìn)行全面診斷,以精準(zhǔn)定位問題根源,制定針對性解決方案。?
在過往,OpenAI也曾多次面臨類似技術(shù)挑戰(zhàn)。2024年12月12日上午,OpenAI就證實其聊天機(jī)器人ChatGPT經(jīng)歷了全球范圍的宕機(jī),當(dāng)時ChatGPT、Sora 及 API 均受到影響。該公司迅速更新事故報告,查明原因后努力恢復(fù)服務(wù)。此次GPT-4o API問題的解決過程,OpenAI 或許也借鑒了過往處理類似事件的經(jīng)驗與技術(shù)手段,在高效修復(fù)大多數(shù)問題的同時,不忘對剩余難題窮追不舍。
OpenAI正在發(fā)布一項新功能,該功能將允許企業(yè)客戶使用公司數(shù)據(jù)來定制GPT-4o。
目前,初創(chuàng)企業(yè)在商業(yè)AI產(chǎn)品方面面臨日益激烈的競爭,而企業(yè)則面臨著越來越大的壓力,需要證明其在AI投資方面的收益。
OpenAI計劃于周二推出定制功能,在人工智能行業(yè)中通常稱為微調(diào)。微調(diào)允許現(xiàn)有的人工智能模型接受有關(guān)特定任務(wù)或主題領(lǐng)域的額外信息的訓(xùn)練。例如,一家生產(chǎn)滑板的公司可能會對人工智能模型進(jìn)行微調(diào),以便將其用作客戶服務(wù)聊天機(jī)器人,能夠回答有關(guān)輪子和滑板保養(yǎng)細(xì)節(jié)的問題。
該功能是OpenAI旗艦?zāi)P偷男鹿δ堋饲癎PT-4o及其前身GPT-4均未提供微調(diào)功能。不過,OpenAI已允許用戶對其許多其他模型進(jìn)行微調(diào),包括GPT-4o mini,它是GPT-4o更廉價、更精簡的版本。
許多科技公司都提供定制大小人工智能模型的能力。OpenAI API產(chǎn)品負(fù)責(zé)人Olivier Godement表示,OpenAI希望通過直接與公司合作,讓客戶更輕松調(diào)整其最強(qiáng)大的模型,而不是使用外部服務(wù)或功能較弱的產(chǎn)品。
Olivier Godement表示:“我們一直非常注重降低門檻、減少摩擦以及減少起步所需的工作量。”
而為了微調(diào)模型,客戶必須將數(shù)據(jù)上傳到OpenAI服務(wù)器。負(fù)責(zé)定制OpenAI的軟件工程師約John Allard表示,訓(xùn)練平均需要一兩個小時。最初,用戶只能使用基于文本的數(shù)據(jù)來微調(diào)模型,而不能使用圖像或其他內(nèi)容。
OpenAI宣布了其最新的人工智能大語言模型,據(jù)稱該模型將使ChatGPT更智能、更易于使用。
新型號稱為GPT-4o,是該公司一年多前推出的上一代GPT-4型號的更新版本。該模型將向免費客戶開放,這意味著任何人都可以通過ChatGPT訪問OpenAI最先進(jìn)的技術(shù)。
根據(jù)演示,GPT-4o將有效將ChatGPT轉(zhuǎn)變?yōu)榭蛇M(jìn)行實時語音對話的數(shù)字個人助理,還能使用文本和“視覺”進(jìn)行交互,這意味著可查看用戶上傳的屏幕截圖、照片、文檔或圖表,并進(jìn)行對話。
OpenAI首席技術(shù)官Mira Murati表示,GPT-4o還將具有記憶功能,這意味著可從之前與用戶的對話中學(xué)習(xí),并且可以進(jìn)行實時翻譯。
“這是我們第一次在易用性方面真正邁出一大步,”Murati在OpenAI舊金山總部現(xiàn)場演示中表示,“這種互動變得更加自然,也更加容易?!?/p>
GPT-4o發(fā)布之際,OpenAI力求在日益激烈的人工智能競賽中保持領(lǐng)先地位。包括谷歌和 Meta在內(nèi)的競爭對手一直致力于構(gòu)建日益強(qiáng)大的大型語言模型,為聊天機(jī)器人提供動力,并將人工智能技術(shù)引入各種其他產(chǎn)品。

OpenAI活動在Google年度I/O開發(fā)者大會前一天舉行,預(yù)計谷歌將在會上宣布其Gemini AI 模型的更新。與GPT-4o一樣,谷歌Gemini也是多模式的,這意味著也可以解釋和生成文本、圖像和音頻。同時,GPT-4o是在下個月,蘋果全球開發(fā)者大會預(yù)計發(fā)布人工智能之前發(fā)布,蘋果可能會將人工智能融入下一代iPhone或iOS。
而GPT-4o對微軟來說是一個福音,微軟已向OpenAI投資了數(shù)十億美元,將其人工智能技術(shù)嵌入到微軟產(chǎn)品之中。
OpenAI高管演示了與ChatGPT的語音對話,以獲得解決數(shù)學(xué)問題的實時說明、并獲得編碼建議;ChatGPT能以自然、聽起來像人類的聲音以及機(jī)器人的聲音說話,甚至還可以唱出部分回應(yīng),不僅如此該工具還能查看圖表圖像并進(jìn)行討論。
另外,ChatGPT還能通過自動翻譯和響應(yīng)以多種語言進(jìn)行對話。OpenAI稱,該工具現(xiàn)在支持 50多種語言。
“新的語音(和視頻)模式是我用過的最好的計算機(jī)界面,”O(jiān)penAI首席執(zhí)行官Sam Altman表示,“這感覺就像電影中的人工智能,達(dá)到人類水平的響應(yīng)時間和表達(dá)能力是一個巨大的變化?!?/p>
此外,Murati表示,OpenAI將推出具有GPT-4o功能的ChatGPT桌面應(yīng)用,為用戶提供另一個與公司技術(shù)交互的平臺。
GPT-4o將在未來幾個月內(nèi)推送,免費ChatGPT用戶能與GPT-4o模型進(jìn)行有限次數(shù)的交互,然后該工具會自動恢復(fù)依賴舊的GPT-3.5模型;付費用戶將可以使用最新型號訪問更多數(shù)量的消息。
OpenAI表示已有超過1億人在使用ChatGPT,GPT-4o——以及在桌面上通過改進(jìn)的語音對話與其進(jìn)行交互的功能——可能會讓更多的人有理由使用其技術(shù)。這些舉措出臺之際,谷歌和 Meta正將人工智能集成到Instagram和Google Assistant等更廣泛使用的消費產(chǎn)品之中。