
Meta推出了其廣受歡迎的開源AI模型Llama的新版本,其中小型和中型模型能夠為邊緣和移動設(shè)備工作負載提供支持。
Llama 3.2在Meta年度Connect大會上展出,其能夠支持多語言文本生成和圖像識別等視覺應(yīng)用。
Meta首席執(zhí)行官馬克·扎克伯格表示:“這是我們的第一個開源多模式模型,它將支持許多需要視覺理解的應(yīng)用?!?/p>
Llama 3.2延續(xù)了7月底發(fā)布的大規(guī)模開源模型Llama 3.1。
Llama 3.1是歷史上最大的開源AI 模型,擁有高達4050億個參數(shù)——參數(shù)是AI模型中可調(diào)整的變量,可幫助其從數(shù)據(jù)中學(xué)習(xí)模式。其規(guī)模反映了AI理解和生成類似人類文本的復(fù)雜性和能力。
Meta Connect 2024上發(fā)布的Llama 3.2模型尺寸要比Llama 3.1要小得多。Meta表示,之所以選擇設(shè)計較小的模型,是因為并非所有研究人員都擁有運行像Llama 3.1這樣龐大的模型所需的大量計算資源和專業(yè)知識。
LLama 3.2具有多種規(guī)模,從10億個參數(shù)到900億個參數(shù)不等。
它們分為兩個部分-小型(1B和3B),設(shè)計輕巧,只能處理文本輸入;可以安裝在邊緣設(shè)備和移動設(shè)備上,從而支持在設(shè)備上處理輸入。
1B和3B Llama 3.2模型最多可支持128K個標記(約96240個單詞),并在邊緣運行的摘要、指令追蹤和重寫任務(wù)等用例中實現(xiàn)最先進的性能。
Meta表示,在本地運行模型的能力更安全,因為數(shù)據(jù)不會被發(fā)送到云端,而且處理速度很快,使得響應(yīng)“感覺是即時的”。
較小的型號可以在高通和聯(lián)發(fā)科硬件上運行,并且經(jīng)過特別優(yōu)化以在基于Arm的處理器上運行。
中型系統(tǒng)的大小為110億和900億個參數(shù),是多模式的,這意味著它們能夠處理文本以外的輸入,例如圖像等視覺輸入。
更大尺寸的3.2模型可以同時接受圖像和文本提示,同時還可以根據(jù)輸入的組合更好理解和推理。
例如,中型Llama 3.2模型可用于理解圖表和圖形等用例,使企業(yè)能基于模型來深入了解財務(wù)報表上的銷售數(shù)據(jù)。
在性能方面,Meta新款Llama 3.2模型可與Anthropic和OpenAI的行業(yè)領(lǐng)先系統(tǒng)相媲美。
3B模型在指令遵循和內(nèi)容摘要等任務(wù)上的表現(xiàn)優(yōu)于谷歌Gemma 2 2.6B和微軟Phi 3.5-mini。
其中最大的模型90B版本在多種基準測試中均優(yōu)于Claude 3-Haiku和GPT-4o-mini,其中包括流行的MMLU測試,這是業(yè)界領(lǐng)先的AI模型評估工具。
由于Meta LLama模型可供任何人使用,因此Meta已采取措施確保模型的安全可靠。
在之前的防護措施基礎(chǔ)上,Meta引入了新的Guard功能,以支持中型模型的圖像理解;除此之外,還引入了一系列過濾器,防止某些文本和影響輸出發(fā)生在特定提示中。
較小尺寸的Llama 3.2型號配備了優(yōu)化的Llama Guard,進一步縮小了體積。Llama Guard 3 1B 本質(zhì)上是10億參數(shù)3.2版本的“精簡版”,但功能更基礎(chǔ),體積也更小——從2858 MB縮小到只有438 MB,使其能夠裝入消費級USB記憶棒。








