2024-07-19 14:39 來源:電競虎
在 NVIDIA RTX AI 工作站和 NVIDIA GeForce RTX 系統(tǒng)上本地運行生成式 AI 的 NVIDIA NIM 微服務(wù)。
編者注:本文屬于《解碼 AI》系列欄目,該系列的目的是讓技術(shù)更加簡單易懂,從而解密 AI,同時向 NVIDIA RTX PC 和工作站用戶展示全新硬件、軟件、工具和加速特性。
在快速發(fā)展的人工智能領(lǐng)域中,生成式 AI 正在激發(fā)人們的想象力并變革各行各業(yè)。使這一切成為可能的是一位默默無聞的幕后英雄:微服務(wù)架構(gòu)。
現(xiàn)代 AI 應(yīng)用的基礎(chǔ)模組
微服務(wù)已成為一種強大的架構(gòu),從根本上改變了人們設(shè)計、構(gòu)建和部署軟件的方式。
微服務(wù)架構(gòu)可將應(yīng)用分解為一系列可獨立部署的松散耦合服務(wù)。每個服務(wù)都負(fù)責(zé)一項特定的功能,并通過明確定義的應(yīng)用編程接口 (API) 與其他服務(wù)通信。這種模塊化方法與傳統(tǒng)的一體化架構(gòu)形成了鮮明的對比。在傳統(tǒng)的一體化架構(gòu)中,所有功能都會捆綁至單個緊密集成的應(yīng)用中。
解除各個服務(wù)之間的耦合后,團(tuán)隊可以同時處理不同的組件,進(jìn)而加速開發(fā)流程。同時,團(tuán)隊還能針對各個服務(wù)單獨推出更新,避免對整個應(yīng)用造成影響。開發(fā)者可以專注于構(gòu)建和改進(jìn)特定服務(wù),進(jìn)而提高代碼質(zhì)量并加快解決問題的速度。這種專業(yè)化開發(fā)讓開發(fā)者能夠成為其特定領(lǐng)域的專家。
服務(wù)可以根據(jù)需求獨立擴(kuò)展,從而優(yōu)化資源利用率并提高系統(tǒng)的整體性能。此外,不同的服務(wù)可以使用不同的技術(shù),這讓開發(fā)者能夠為各個特定任務(wù)選擇最合適的工具。
完美搭配:微服務(wù)與生成式 AI
微服務(wù)架構(gòu)具有可擴(kuò)展性、增強的模塊化屬性和靈活性,因而特別適用于開發(fā)生成式 AI 應(yīng)用。
AI 模型(尤其是大語言模型)需要用到大量的計算資源。微服務(wù)能夠讓這些資源密集型組件實現(xiàn)高效擴(kuò)展,同時避免對整個系統(tǒng)產(chǎn)生影響。
生成式 AI 應(yīng)用通常涉及多個步驟,例如數(shù)據(jù)預(yù)處理、模型推理和后處理。借助微服務(wù),每個步驟都可以獨立開發(fā)、優(yōu)化和擴(kuò)展。此外,隨著 AI 模型和技術(shù)的快速發(fā)展,微服務(wù)架構(gòu)可使集成新模型及替換現(xiàn)有模型的過程變得更加輕松,同時不會中斷整個應(yīng)用的運行。
NVIDIA NIM:簡化生成式 AI 部署
隨著人們對 AI 賦能應(yīng)用的需求不斷增長,開發(fā)者在有效部署和管理 AI 模型方面面臨著挑戰(zhàn)。
NVIDIA NIM 推理微服務(wù)可將模型作為經(jīng)優(yōu)化的容器提供,以便在云端、數(shù)據(jù)中心、工作站、臺式電腦和筆記本電腦中部署這些模型。每個 NIM 容器都包含經(jīng)過預(yù)訓(xùn)練的 AI 模型和所有必要的運行時組件,可讓用戶輕松地將 AI 功能集成到應(yīng)用中。
NIM 可簡化集成過程,且兼具生產(chǎn)就緒性和靈活性,為希望引入 AI 功能的應(yīng)用開發(fā)者提供了一種具有變革性的開發(fā)方法。開發(fā)者可以專注于構(gòu)建應(yīng)用,而無需擔(dān)心數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練或自定義會過于復(fù)雜,這是因為 NIM 推理微服務(wù)針對性能進(jìn)行了優(yōu)化,自帶運行時優(yōu)化,還支持行業(yè)標(biāo)準(zhǔn) API。
觸手可及的 AI:工作站和 PC 上的 NVIDIA NIM
構(gòu)建企業(yè)級生成式 AI 應(yīng)用面臨著諸多挑戰(zhàn)。雖然云托管模型 API 可以幫助開發(fā)者著手進(jìn)行開發(fā),但與數(shù)據(jù)隱私、安全性、模型響應(yīng)延遲、準(zhǔn)確性、API 成本和擴(kuò)展相關(guān)的問題往往會阻礙應(yīng)用投入生產(chǎn)環(huán)境。
在支持 NIM 的工作站上,開發(fā)者可以安全訪問各種模型和經(jīng)過性能優(yōu)化的推理微服務(wù)。
通過消除與云托管 API 相關(guān)的延遲、成本和合規(guī)性問題并降低模型部署的復(fù)雜性,開發(fā)者可以專注于應(yīng)用開發(fā),進(jìn)而加速生產(chǎn)就緒型生成式 AI 應(yīng)用的交付,并在數(shù)據(jù)中心和云端實現(xiàn)流暢的自動擴(kuò)展及性能優(yōu)化。
最近宣布可作為 NIM 的 Meta Llama 3 8B 模型正式版可以在 RTX 系統(tǒng)上本地運行,為個人開發(fā)者提供先進(jìn)的語言模型功能,使其無需云資源的支持即可進(jìn)行本地測試和實驗。借助本地運行的 NIM,開發(fā)者可以直接在其工作站上創(chuàng)建復(fù)雜的檢索增強生成 (RAG) 項目。
本地 RAG 是指完全在本地硬件上部署的 RAG 系統(tǒng),這種 RAG 不依賴基于云的服務(wù)或外部 API。
開發(fā)者可以在配備一個或多個 NVIDIA RTX 專業(yè)旗艦級 GPU 的工作站或 NVIDIA RTX 系統(tǒng)上使用 Llama 3 8B NIM,完全立足于本地硬件構(gòu)建端到端 RAG 系統(tǒng)。這種設(shè)置讓開發(fā)者能夠充分利用 Llama 3 8B 的強大功能,以確保獲得高性能和低延遲。
通過在本地運行整個 RAG 工作流,開發(fā)者可以始終保持對其數(shù)據(jù)的完全掌控,以確保隱私和安全。如果開發(fā)者正在構(gòu)建的應(yīng)用需要做到實時響應(yīng),同時還需兼具高準(zhǔn)確性 (例如客戶支持聊天機(jī)器人、個性化內(nèi)容生成工具和交互式虛擬助手),那么對于開發(fā)者來說,上述方法特別有用。
混合式 RAG 可結(jié)合本地和基于云的資源來優(yōu)化 AI 應(yīng)用的性能和靈活性。借助 NVIDIA AI Workbench,開發(fā)者可以開始使用混合式 RAG Workbench 項目,這是一個示例應(yīng)用,可提供靈活的資源分配方法,既能用于在本地運行向量數(shù)據(jù)庫和嵌入模型,又能用于在云端或數(shù)據(jù)中心使用 NIM 執(zhí)行推理。
開發(fā)者可借助這種混合式設(shè)置平衡本地和云資源之間的計算負(fù)載,以便優(yōu)化性能和降低成本。例如,向量數(shù)據(jù)庫和嵌入模型可以托管在本地工作站,以確保實現(xiàn)快速的數(shù)據(jù)檢索和處理,而計算強度更大的推理任務(wù)則可以分流至基于云的強大 NIM 推理微服務(wù)。這種靈活性讓開發(fā)者能夠流暢地擴(kuò)展應(yīng)用,以適應(yīng)不同水平的工作負(fù)載,同時確保性能始終都能保持在同一水平。
借助在 RTX PC 和工作站上運行的生成式 AI,NVIDIA ACE NIM 推理微服務(wù)可創(chuàng)建栩栩如生的數(shù)字人、AI 非玩家角色 (NPC) 和用于客戶服務(wù)的交互式虛擬形象。
ACE NIM 語音推理微服務(wù) (包括 Riva 自動語音識別、文本轉(zhuǎn)語音和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯) 可提供準(zhǔn)確的轉(zhuǎn)錄、翻譯和逼真的聲音。
NVIDIA Nemotron 小型語言模型是一種智能 NIM,其中包含用于盡可能減少內(nèi)存使用量的 INT4 量化功能。此外,它還支持角色扮演和 RAG 用例。
而 ACE NIM 外觀推理微服務(wù)則包括 Audio2Face 和 Omniverse RTX,可用于創(chuàng)建栩栩如生的超逼真動畫視覺效果。這有助于提供更具吸引力的游戲角色,為玩家?guī)砀觾?yōu)秀的沉浸式體驗;還能在用戶與虛擬客服人員互動時,提供更加令人滿意的體驗。
深入探究 NIM
隨著 AI 的不斷發(fā)展,快速部署并擴(kuò)展 AI 功能的能力將變得越來越重要。
NVIDIA NIM 微服務(wù)可助力實現(xiàn)突破性創(chuàng)新,為 AI 應(yīng)用開發(fā)的新時代奠定了基礎(chǔ)。無論是構(gòu)建新一代 AI 賦能游戲、開發(fā)先進(jìn)的自然語言處理應(yīng)用,還是創(chuàng)建智能自動化系統(tǒng),用戶都可以使用這些觸手可及的強大開發(fā)工具。
如何開始使用:
- 前往 ai.nvidia.com 體驗 NVIDIA NIM 微服務(wù)并與之交互。
- 加入 NVIDIA 開發(fā)者計劃,以便免費訪問 NIM,并將其用于 AI 賦能應(yīng)用的測試和原型設(shè)計。
- 購買 NVIDIA AI Enterprise 許可證(帶有為期 90 天的免費生產(chǎn)部署評估期),并使用 NVIDIA NIM 在云端或數(shù)據(jù)中心部署自托管 AI 模型。
生成式 AI 正改變游戲、視頻會議和各種交互體驗。訂閱《解碼 AI》時事通訊,了解最新動態(tài),掌握后續(xù)進(jìn)展。
本篇文章的創(chuàng)作者為電競虎,轉(zhuǎn)載請注明出處使用微信掃描上方二維碼
打開網(wǎng)頁后點擊右上角分享按鈕