今年,各行各業(yè)的企業(yè)都在推出AI服務(wù)。對于微軟、甲骨文、Perplexity、Snap和數(shù)百家其他領(lǐng)先公司而言,使用NVIDIA AI推理平臺(由世界一流的芯片、系統(tǒng)和軟件組成的全棧)是實現(xiàn)高吞吐量和低延遲推理、實現(xiàn)出色用戶體驗并降低成本的關(guān)鍵。
NVIDIA在推理軟件優(yōu)化和NVIDIA Hopper平臺方面的進步正在幫助行業(yè)服務(wù)于最新的生成式 AI模型,提供出色的用戶體驗,同時優(yōu)化總體擁有成本。與前幾代產(chǎn)品相比,Hopper平臺還可幫助將推理工作負載的能效提高15倍。
眾所周知,人工智能推理非常困難,因為它需要很多步驟才能在吞吐量和用戶體驗之間取得適當(dāng)?shù)钠胶狻?/p>
但根本目標(biāo)很簡單:以更低的成本生成更多Token。Token代表大型語言模型系統(tǒng)中的單詞,而AI推理服務(wù)通常按生成的每百萬個Token收費,這一目標(biāo)為AI投資和每項任務(wù)所用能源提供了最明顯的回報。
其中,全棧軟件優(yōu)化是提高AI推理性能、實現(xiàn)這一目標(biāo)的關(guān)鍵。
企業(yè)經(jīng)常面臨平衡推理工作負載的性能和成本的挑戰(zhàn)。雖然某些客戶或用例可以使用現(xiàn)成的或托管的模型,但其他客戶或用例可能需要定制。NVIDIA技術(shù)簡化了模型部署,同時優(yōu)化了AI推理工作負載的成本和性能。此外,客戶還可以體驗到選擇部署的模型的靈活性和可定制性。
NVIDIA NIM微服務(wù)、NVIDIA Triton推理服務(wù)器和NVIDIA TensorRT庫是NVIDIA為滿足用戶需求而提供的推理解決方案之一。借助NVIDIA AI推理平臺,各企業(yè)可以節(jié)省生產(chǎn)力、開發(fā)、基礎(chǔ)設(shè)施和設(shè)置成本;使用NVIDIA技術(shù)還可以幫助企業(yè)避免停機和欺詐交易,提高電子商務(wù)購物轉(zhuǎn)化率并產(chǎn)生新的AI驅(qū)動的收入來源,從而提高業(yè)務(wù)收入。