快速、低成本的推理是實(shí)現(xiàn)盈利的人工智能的關(guān)鍵

?? 由 文心大模型 生成的文章摘要

今年,各行各業(yè)的企業(yè)都在推出AI服務(wù)。對(duì)于微軟、甲骨文、Perplexity、Snap和數(shù)百家其他領(lǐng)先公司而言,使用NVIDIA AI推理平臺(tái)(由世界一流的芯片、系統(tǒng)和軟件組成的全棧)是實(shí)現(xiàn)高吞吐量和低延遲推理、實(shí)現(xiàn)出色用戶體驗(yàn)并降低成本的關(guān)鍵。

NVIDIA在推理軟件優(yōu)化和NVIDIA Hopper平臺(tái)方面的進(jìn)步正在幫助行業(yè)服務(wù)于最新的生成式 AI模型,提供出色的用戶體驗(yàn),同時(shí)優(yōu)化總體擁有成本。與前幾代產(chǎn)品相比,Hopper平臺(tái)還可幫助將推理工作負(fù)載的能效提高15倍。

眾所周知,人工智能推理非常困難,因?yàn)樗枰芏嗖襟E才能在吞吐量和用戶體驗(yàn)之間取得適當(dāng)?shù)钠胶狻?/p>

但根本目標(biāo)很簡(jiǎn)單:以更低的成本生成更多Token。Token代表大型語(yǔ)言模型系統(tǒng)中的單詞,而AI推理服務(wù)通常按生成的每百萬(wàn)個(gè)Token收費(fèi),這一目標(biāo)為AI投資和每項(xiàng)任務(wù)所用能源提供了最明顯的回報(bào)。

其中,全棧軟件優(yōu)化是提高AI推理性能、實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵。

企業(yè)經(jīng)常面臨平衡推理工作負(fù)載的性能和成本的挑戰(zhàn)。雖然某些客戶或用例可以使用現(xiàn)成的或托管的模型,但其他客戶或用例可能需要定制。NVIDIA技術(shù)簡(jiǎn)化了模型部署,同時(shí)優(yōu)化了AI推理工作負(fù)載的成本和性能。此外,客戶還可以體驗(yàn)到選擇部署的模型的靈活性和可定制性。

NVIDIA NIM微服務(wù)、NVIDIA Triton推理服務(wù)器和NVIDIA TensorRT庫(kù)是NVIDIA為滿足用戶需求而提供的推理解決方案之一。借助NVIDIA AI推理平臺(tái),各企業(yè)可以節(jié)省生產(chǎn)力、開發(fā)、基礎(chǔ)設(shè)施和設(shè)置成本;使用NVIDIA技術(shù)還可以幫助企業(yè)避免停機(jī)和欺詐交易,提高電子商務(wù)購(gòu)物轉(zhuǎn)化率并產(chǎn)生新的AI驅(qū)動(dòng)的收入來(lái)源,從而提高業(yè)務(wù)收入。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」