IBM發(fā)布了Granite大型語言模型(LLM)系列的下一代產(chǎn)品——Granite 3.2。該產(chǎn)品延續(xù)了IBM致力于打造小型、高效且實用的企業(yè)級人工智能,力求對現(xiàn)實世界產(chǎn)生深遠影響的理念。
所有Granite 3.2模型均在Hugging Face平臺上以寬松的Apache 2.0許可形式發(fā)布。目前,部分模型已在IBM watsonx.ai、Ollama、Replicate和LM Studio上線。預計不久后,RHEL AI 1.5也將推出該模型,為企業(yè)及開源社區(qū)注入高級功能。其顯著亮點如下:
新型視覺語言模型(VLM)助力文檔理解:這款專為文檔理解任務設計的VLM,在關鍵的企業(yè)基準測試DocVQA、ChartQA、AI2D和OCRBench 1中,展現(xiàn)出了卓越性能。其表現(xiàn)不僅可與規(guī)模大得多的模型(如Llama 3.2 11B和Pixtral 12B)相媲美,甚至在某些方面更勝一籌。
除了依靠強大的訓練數(shù)據(jù),IBM還運用自家開源的Docling工具包,處理了8500萬份PDF文件,并生成了2600萬個合成問答對,以此強化VLM處理復雜文檔密集型工作流程的能力。
思維鏈功能提升推理效能:Granite 3.2的2B和8B模型具備思維鏈功能,有效增強了推理能力。同時,該功能可根據(jù)需求靈活開啟或關閉,以優(yōu)化效率。借助這一功能,8B模型在 ArenaHard和Alpaca Eval等指令跟蹤基準測試中,相較于其前身實現(xiàn)了兩位數(shù)的提升,且未對安全性或其他性能造成負面影響。此外,通過采用新穎的推理擴展方法,Granite 3.2 8B 模型經(jīng)過校準,在AIME2024和MATH500等數(shù)學推理基準測試中,能夠與Claude 3.5 Sonnet或GPT-4o等大型模型的性能相抗衡。
安全模型優(yōu)化與新功能引入:Granite Guardian安全模型在尺寸縮小30%的情況下,仍保持了與之前Granite 3.1 Guardian模型相同的性能。Granite 3.2模型還引入了一項名為“言語化信心 的全新功能,該功能能夠提供更為細致的風險評估,有效識別安全監(jiān)控中的模糊之處。
戰(zhàn)略成效顯著:IBM為企業(yè)提供更小、更專業(yè)AI模型的戰(zhàn)略在實際測試中持續(xù)彰顯有效性。例如,Granite 3.1 8B模型近期在Salesforce LLM Benchmark for CRM的準確性測試中斬獲高分。
強大的合作伙伴生態(tài)系統(tǒng):Granite模型系列得到了強大合作伙伴生態(tài)系統(tǒng)的有力支持,其中不乏將LLM嵌入自身技術的領先軟件公司。