
最新報道指出,谷歌旗下Gemini 2.5 Pro模型能準(zhǔn)確解析 PDF文檔的視覺結(jié)構(gòu),實現(xiàn)精準(zhǔn)的視覺引用功能,成為首款能完全理解PDF布局的AI模型。?
谷歌于3月25日向付費(fèi)用戶和開發(fā)者發(fā)布Gemini 2.5 Pro實驗?zāi)P?,僅隔4天時間,谷歌便通過免費(fèi)Web應(yīng)用向全球用戶開放。Gemini 2.5 Pro不僅能提取 PDF文檔中的文本內(nèi)容,還能理解其視覺布局,包括圖表、表格和整體排版。?
谷歌在開發(fā)者文檔中表示,該模型具備 “原生視覺”(Native Vision)能力,支持處理最多3000個 PDF 文件(每個文件上限為1000頁或50MB),同時擁有100萬token的超大上下文窗口,未來計劃擴(kuò)展至200萬token。?
AI初創(chuàng)公司Matrisk的聯(lián)合創(chuàng)始人Sergey Filimonov特別贊揚(yáng)了Gemini 2.5 Pro在PDF視覺引用上的表現(xiàn)。Filimonov指出,傳統(tǒng)的文本分割方法會切斷用戶與原文的視覺聯(lián)系,導(dǎo)致無法直觀驗證信息的來源。甚至在 ChatGPT 中,點擊引用也只能下載 PDF,迫使用戶自行判斷模型是否 “幻覺”,這嚴(yán)重?fù)p害了用戶信任。過去,引用文檔內(nèi)容往往只能高亮大段無關(guān)文本,精準(zhǔn)度極低。?
Gemini 2.5徹底改變這一現(xiàn)狀,它不僅能將提取的文本片段映射回原始PDF的確切位置,還能以前所未有的精度鎖定特定句子、表格單元甚至圖像。這種技術(shù)突破為用戶提供了直觀的視覺反饋,例如在詢問房屋費(fèi)率變化時,系統(tǒng)能直接高亮文檔中相關(guān)數(shù)據(jù)(如15.4%的費(fèi)率變化),并標(biāo)注來源依據(jù)。這種清晰度和交互性是現(xiàn)有工具無法企及的。Gemini 2.5不僅優(yōu)化了現(xiàn)有流程,更開啟了全新的文檔交互模式。?
相比之下,Gemini 2.5以0.804的IoU(交并比)精度大幅領(lǐng)先其他模型,如 OpenAI的GPT-4o(0.223)和 Claude 3.7 Sonnet(0.210),展現(xiàn)出驚人的空間理解能力。提供商模型IOU簡評Gemini2.5 Pro0.804非常優(yōu)秀Gemini2.5 Flash0.614有時表現(xiàn)不錯Gemini2.0 Flash0.395OpenAIgpt-4o0.223OpenAIgpt-4.10.268OpenAIgpt-4.1-mini0.253Claude3.7 Sonnet0.210Gemini 2.5 的潛力遠(yuǎn)不止于文本定位。它還能從PDF中提取結(jié)構(gòu)化數(shù)據(jù),同時明確標(biāo)注每個數(shù)據(jù)的來源位置,解決下游決策中因數(shù)據(jù)來源不明而產(chǎn)生的信任障礙。








