Inflection AI宣布將其備受歡迎的Pi聊天機器人更新至2.5版。此次更新引入的全新模型,不僅延續(xù)了Pi聊天機器人卓越的情商表現(xiàn),在智力水平上更是實現(xiàn)了質(zhì)的飛躍,足以與行業(yè)內(nèi)的頂尖模型GPT-4和Gemini相抗衡。令人矚目的是,訓練這一強大模型所需的計算代價僅為GPT-4的40%,這一突破性進展為人工智能的發(fā)展開辟了新的路徑。?
自2023年5月推出以來,Pi聊天機器人憑借其獨特的同理心、實用性和安全性,迅速在用戶中積累了極高的人氣。去年11月推出的基礎模型Inflection-2,已然在當時的大語言模型(LLM)領域中占據(jù)了領先地位。而此次推出的Inflection-2.5模型,更是將Pi的能力提升到了一個全新的高度。它融合了強大的基礎能力,能夠在各種復雜任務中表現(xiàn)出色,與GPT-4、Gemini等世界頂尖的LLM不相上下,同時還保留了Pi標志性的個性化特點和獨特的同理心微調(diào),為用戶提供更加貼心、智能的交互體驗。?
在性能測試中,Inflection-2.5展現(xiàn)出了令人驚嘆的實力。此前的Inflection-1模型僅使用了GPT-4訓練計算量(FLOPs)的4%,就在多項以智力為核心的任務上達到了GPT-4水平的72%。而全新的Inflection-2.5,在僅使用GPT-440%訓練FLOPs的情況下,平均性能超過了GPT-4的94%。尤其在科學、技術(shù)、工程和數(shù)學等STEM領域,Inflection-2.5的進步尤為顯著。在MMLU基準測試中,該模型相比Inflection-1有了巨大的提升;在極端困難的專家級基準測試GPQADiamond中,Inflection-2.5也表現(xiàn)出色,在maj@8的評分標準下,其表現(xiàn)達到了所有參考人群的第85百分位,在maj@32的評分標準下,更是幾乎拿到了95百分位的高分。在BIG-Bench-Hard測試中,Inflection-2.5比初代Inflection-1提升了超過10%,與GPT-4的差距縮小至僅有0.9%。?
在實際應用場景中,Pi聊天機器人的能力也得到了充分驗證。隨著Inflection-2.5的上線,用戶與Pi的對話話題變得更加廣泛。他們不僅能夠與Pi討論最新的時事,獲取本地餐廳的推薦,還能借助Pi備考生物學考試、草擬商業(yè)計劃、進行編程,甚至在準備重要對話或分享興趣愛好時,Pi都能提供有價值的建議和幫助。目前,Inflection每天擁有一百萬活躍用戶,每月活躍用戶數(shù)更是高達六百萬。這些用戶與Pi的互動信息已經(jīng)超過了四十億條,平均對話時長達到33分鐘,每天有十分之一的用戶與Pi的對話時長超過一小時。每周約有60%的用戶在與Pi交流后,會在下周繼續(xù)回來與它對話,用戶粘性明顯高于其他競品。