力壓群雄：谷歌Gemini 2.5 Pro成首款完全理解PDF布局的AI模型

William2025年4月23日 · 大模型 ·

?? 由文心大模型生成的文章摘要

最新報道指出，谷歌旗下Gemini 2.5 Pro模型能準(zhǔn)確解析 PDF文檔的視覺結(jié)構(gòu)，實現(xiàn)精準(zhǔn)的視覺引用功能，成為首款能完全理解PDF布局的AI模型。?

谷歌于3月25日向付費(fèi)用戶和開發(fā)者發(fā)布Gemini 2.5 Pro實驗?zāi)Ｐ?，僅隔4天時間，谷歌便通過免費(fèi)Web應(yīng)用向全球用戶開放。Gemini 2.5 Pro不僅能提取 PDF文檔中的文本內(nèi)容，還能理解其視覺布局，包括圖表、表格和整體排版。?

谷歌在開發(fā)者文檔中表示，該模型具備 “原生視覺”（Native Vision）能力，支持處理最多3000個 PDF 文件（每個文件上限為1000頁或50MB），同時擁有100萬token的超大上下文窗口，未來計劃擴(kuò)展至200萬token。?

AI初創(chuàng)公司Matrisk的聯(lián)合創(chuàng)始人Sergey Filimonov特別贊揚(yáng)了Gemini 2.5 Pro在PDF視覺引用上的表現(xiàn)。Filimonov指出，傳統(tǒng)的文本分割方法會切斷用戶與原文的視覺聯(lián)系，導(dǎo)致無法直觀驗證信息的來源。甚至在 ChatGPT 中，點擊引用也只能下載 PDF，迫使用戶自行判斷模型是否 “幻覺”，這嚴(yán)重?fù)p害了用戶信任。過去，引用文檔內(nèi)容往往只能高亮大段無關(guān)文本，精準(zhǔn)度極低。?

Gemini 2.5徹底改變這一現(xiàn)狀，它不僅能將提取的文本片段映射回原始PDF的確切位置，還能以前所未有的精度鎖定特定句子、表格單元甚至圖像。這種技術(shù)突破為用戶提供了直觀的視覺反饋，例如在詢問房屋費(fèi)率變化時，系統(tǒng)能直接高亮文檔中相關(guān)數(shù)據(jù)（如15.4%的費(fèi)率變化），并標(biāo)注來源依據(jù)。這種清晰度和交互性是現(xiàn)有工具無法企及的。Gemini 2.5不僅優(yōu)化了現(xiàn)有流程，更開啟了全新的文檔交互模式。?

相比之下，Gemini 2.5以0.804的IoU（交并比）精度大幅領(lǐng)先其他模型，如 OpenAI的GPT-4o（0.223）和 Claude 3.7 Sonnet（0.210），展現(xiàn)出驚人的空間理解能力。提供商模型IOU簡評Gemini2.5 Pro0.804非常優(yōu)秀Gemini2.5 Flash0.614有時表現(xiàn)不錯Gemini2.0 Flash0.395OpenAIgpt-4o0.223OpenAIgpt-4.10.268OpenAIgpt-4.1-mini0.253Claude3.7 Sonnet0.210Gemini 2.5 的潛力遠(yuǎn)不止于文本定位。它還能從PDF中提取結(jié)構(gòu)化數(shù)據(jù)，同時明確標(biāo)注每個數(shù)據(jù)的來源位置，解決下游決策中因數(shù)據(jù)來源不明而產(chǎn)生的信任障礙。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請注明出處」

標(biāo)簽:

AI模型 Gemini 2.5 Pro

天堂av色综合久久天堂,中文字幕日韩人妻在线视频,中文国产日韩欧美二视频 ,中文字幕av一区二区三区人妻少妇 ,在线观看国产一区二区三区

力壓群雄：谷歌Gemini 2.5 Pro成首款完全理解PDF布局的AI模型

相關(guān)文章

Meta推出Metamate AI工具，旨在打造“全球最佳企業(yè)助手”

蘋果測試主流AI：“獼猴桃”簡單算術(shù)難倒o1和Llama

阿里巴巴在世界人工智能大會大放異彩，多款大模型成績斐然

中國人工智能行業(yè)6年內(nèi)或?qū)崿F(xiàn)1.4萬億美元投資

蘋果正式發(fā)布FastVLM：專為移動設(shè)備優(yōu)化的視覺語言模型

Gemini 2.0已面向所有用戶開放

推薦

超10億元刷新紀(jì)錄！Micro-LED龍頭JBD完成B2輪融資，加速AR+AI生態(tài)落地

93913產(chǎn)業(yè)周報│10月20日-10月26日XR產(chǎn)業(yè)動態(tài)回顧

93913產(chǎn)業(yè)周報│10月20日-10月26日AI產(chǎn)業(yè)動態(tài)回顧

科技賦能紅色敘事上海大學(xué)牽頭打造建軍百年VR電影同期VR影像展綻放視聽魅力

AI應(yīng)用推薦

熱門

超10億元刷新紀(jì)錄！Micro-LED龍頭JBD完成B2輪融資，加速AR+AI生態(tài)落地

93913產(chǎn)業(yè)周報│10月20日-10月26日XR產(chǎn)業(yè)動態(tài)回顧

友情鏈接

推薦

超10億元刷新紀(jì)錄！Micro-LED龍頭JBD完成B2輪融資，加速AR+AI生態(tài)落地

93913產(chǎn)業(yè)周報│10月20日-10月26日XR產(chǎn)業(yè)動態(tài)回顧

93913產(chǎn)業(yè)周報│10月20日-10月26日AI產(chǎn)業(yè)動態(tài)回顧

科技賦能紅色敘事上海大學(xué)牽頭打造建軍百年VR電影同期VR影像展綻放視聽魅力