研究人員以不到50美元的價格創(chuàng)建可與OpenAI o1相媲美的模型

?? 由 文心大模型 生成的文章摘要

斯坦福大學和華盛頓大學的人工智能研究人員以不到50美元的云計算積分訓練了人工智能“推理”模型。

該模型名為s1,在數(shù)學和編碼能力測試中,其表現(xiàn)與OpenAI o1和DeepSeek R1等尖端推理模型類似。s1模型可在GitHub上獲取,同時還可獲得用于訓練該模型的數(shù)據(jù)和代碼。

s1開發(fā)團隊表示,從現(xiàn)成的基礎(chǔ)模型開始,然后通過提煉對模型進行微調(diào),即通過對另一個人工智能模型的答案進行訓練,提取其“推理”能力的過程。

研究人員表示,s1是從谷歌推理模型Gemini 2.0 Flash Thinking Experimental中提煉出來的。提煉方法與伯克利研究人員上個月以約450美元的價格創(chuàng)建AI推理模型所采用的方法相同。

對于某些人來說,少數(shù)研究人員即使沒有數(shù)百萬美元的資金支持,仍可以在人工智能領(lǐng)域進行創(chuàng)新,這種想法令人興奮。

但s1提出了有關(guān)人工智能模型商品化的真正問題。

如果有人能夠以相對零花錢的方式精確復制價值數(shù)百萬美元的模型,那么護城河在哪里呢?

s1論文提出,通過使用一種稱為監(jiān)督微調(diào)(SFT)的過程,采用相對較小的數(shù)據(jù)集提煉推理模型,在此過程中,明確指示AI模型模仿數(shù)據(jù)集中的某些行為。

SFT往往比DeepSeek用于訓練其競爭對手OpenAI o1模型R1的大規(guī)模強化學習方法更便宜。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」