?NIM 讓不可能成為可能：解碼用于加速生成式 AI 的微服務(wù)

2024-07-19 14:39 來源：電競(jìng)虎

在 NVIDIA RTX AI 工作站和 NVIDIA GeForce RTX 系統(tǒng)上本地運(yùn)行生成式 AI 的 NVIDIA NIM 微服務(wù)。

編者注:本文屬于《解碼 AI》系列欄目,該系列的目的是讓技術(shù)更加簡(jiǎn)單易懂,從而解密 AI,同時(shí)向 NVIDIA RTX PC 和工作站用戶展示全新硬件、軟件、工具和加速特性。

在快速發(fā)展的人工智能領(lǐng)域中,生成式 AI 正在激發(fā)人們的想象力并變革各行各業(yè)。使這一切成為可能的是一位默默無聞的幕后英雄:微服務(wù)架構(gòu)。

現(xiàn)代 AI 應(yīng)用的基礎(chǔ)模組

微服務(wù)已成為一種強(qiáng)大的架構(gòu),從根本上改變了人們?cè)O(shè)計(jì)、構(gòu)建和部署軟件的方式。

微服務(wù)架構(gòu)可將應(yīng)用分解為一系列可獨(dú)立部署的松散耦合服務(wù)。每個(gè)服務(wù)都負(fù)責(zé)一項(xiàng)特定的功能,并通過明確定義的應(yīng)用編程接口 (API) 與其他服務(wù)通信。這種模塊化方法與傳統(tǒng)的一體化架構(gòu)形成了鮮明的對(duì)比。在傳統(tǒng)的一體化架構(gòu)中,所有功能都會(huì)捆綁至單個(gè)緊密集成的應(yīng)用中。

解除各個(gè)服務(wù)之間的耦合后,團(tuán)隊(duì)可以同時(shí)處理不同的組件,進(jìn)而加速開發(fā)流程。同時(shí),團(tuán)隊(duì)還能針對(duì)各個(gè)服務(wù)單獨(dú)推出更新,避免對(duì)整個(gè)應(yīng)用造成影響。開發(fā)者可以專注于構(gòu)建和改進(jìn)特定服務(wù),進(jìn)而提高代碼質(zhì)量并加快解決問題的速度。這種專業(yè)化開發(fā)讓開發(fā)者能夠成為其特定領(lǐng)域的專家。

服務(wù)可以根據(jù)需求獨(dú)立擴(kuò)展,從而優(yōu)化資源利用率并提高系統(tǒng)的整體性能。此外,不同的服務(wù)可以使用不同的技術(shù),這讓開發(fā)者能夠?yàn)楦鱾€(gè)特定任務(wù)選擇最合適的工具。

完美搭配:微服務(wù)與生成式 AI

微服務(wù)架構(gòu)具有可擴(kuò)展性、增強(qiáng)的模塊化屬性和靈活性,因而特別適用于開發(fā)生成式 AI 應(yīng)用。

AI 模型(尤其是大語(yǔ)言模型)需要用到大量的計(jì)算資源。微服務(wù)能夠讓這些資源密集型組件實(shí)現(xiàn)高效擴(kuò)展,同時(shí)避免對(duì)整個(gè)系統(tǒng)產(chǎn)生影響。

生成式 AI 應(yīng)用通常涉及多個(gè)步驟,例如數(shù)據(jù)預(yù)處理、模型推理和后處理。借助微服務(wù),每個(gè)步驟都可以獨(dú)立開發(fā)、優(yōu)化和擴(kuò)展。此外,隨著 AI 模型和技術(shù)的快速發(fā)展,微服務(wù)架構(gòu)可使集成新模型及替換現(xiàn)有模型的過程變得更加輕松,同時(shí)不會(huì)中斷整個(gè)應(yīng)用的運(yùn)行。

NVIDIA NIM:簡(jiǎn)化生成式 AI 部署

隨著人們對(duì) AI 賦能應(yīng)用的需求不斷增長(zhǎng),開發(fā)者在有效部署和管理 AI 模型方面面臨著挑戰(zhàn)。

NVIDIA NIM 推理微服務(wù)可將模型作為經(jīng)優(yōu)化的容器提供,以便在云端、數(shù)據(jù)中心、工作站、臺(tái)式電腦和筆記本電腦中部署這些模型。每個(gè) NIM 容器都包含經(jīng)過預(yù)訓(xùn)練的 AI 模型和所有必要的運(yùn)行時(shí)組件,可讓用戶輕松地將 AI 功能集成到應(yīng)用中。

NIM 可簡(jiǎn)化集成過程,且兼具生產(chǎn)就緒性和靈活性,為希望引入 AI 功能的應(yīng)用開發(fā)者提供了一種具有變革性的開發(fā)方法。開發(fā)者可以專注于構(gòu)建應(yīng)用,而無需擔(dān)心數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練或自定義會(huì)過于復(fù)雜,這是因?yàn)?NIM 推理微服務(wù)針對(duì)性能進(jìn)行了優(yōu)化,自帶運(yùn)行時(shí)優(yōu)化,還支持行業(yè)標(biāo)準(zhǔn) API。

觸手可及的 AI:工作站和 PC 上的 NVIDIA NIM

構(gòu)建企業(yè)級(jí)生成式 AI 應(yīng)用面臨著諸多挑戰(zhàn)。雖然云托管模型 API 可以幫助開發(fā)者著手進(jìn)行開發(fā),但與數(shù)據(jù)隱私、安全性、模型響應(yīng)延遲、準(zhǔn)確性、API 成本和擴(kuò)展相關(guān)的問題往往會(huì)阻礙應(yīng)用投入生產(chǎn)環(huán)境。

在支持 NIM 的工作站上,開發(fā)者可以安全訪問各種模型和經(jīng)過性能優(yōu)化的推理微服務(wù)。

通過消除與云托管 API 相關(guān)的延遲、成本和合規(guī)性問題并降低模型部署的復(fù)雜性,開發(fā)者可以專注于應(yīng)用開發(fā),進(jìn)而加速生產(chǎn)就緒型生成式 AI 應(yīng)用的交付,并在數(shù)據(jù)中心和云端實(shí)現(xiàn)流暢的自動(dòng)擴(kuò)展及性能優(yōu)化。

最近宣布可作為 NIM 的 Meta Llama 3 8B 模型正式版可以在 RTX 系統(tǒng)上本地運(yùn)行,為個(gè)人開發(fā)者提供先進(jìn)的語(yǔ)言模型功能,使其無需云資源的支持即可進(jìn)行本地測(cè)試和實(shí)驗(yàn)。借助本地運(yùn)行的 NIM,開發(fā)者可以直接在其工作站上創(chuàng)建復(fù)雜的檢索增強(qiáng)生成 (RAG) 項(xiàng)目。

本地 RAG 是指完全在本地硬件上部署的 RAG 系統(tǒng),這種 RAG 不依賴基于云的服務(wù)或外部 API。

開發(fā)者可以在配備一個(gè)或多個(gè) NVIDIA RTX 專業(yè)旗艦級(jí) GPU 的工作站或 NVIDIA RTX 系統(tǒng)上使用 Llama 3 8B NIM,完全立足于本地硬件構(gòu)建端到端 RAG 系統(tǒng)。這種設(shè)置讓開發(fā)者能夠充分利用 Llama 3 8B 的強(qiáng)大功能,以確保獲得高性能和低延遲。

通過在本地運(yùn)行整個(gè) RAG 工作流,開發(fā)者可以始終保持對(duì)其數(shù)據(jù)的完全掌控,以確保隱私和安全。如果開發(fā)者正在構(gòu)建的應(yīng)用需要做到實(shí)時(shí)響應(yīng),同時(shí)還需兼具高準(zhǔn)確性 (例如客戶支持聊天機(jī)器人、個(gè)性化內(nèi)容生成工具和交互式虛擬助手),那么對(duì)于開發(fā)者來說,上述方法特別有用。

混合式 RAG 可結(jié)合本地和基于云的資源來優(yōu)化 AI 應(yīng)用的性能和靈活性。借助 NVIDIA AI Workbench,開發(fā)者可以開始使用混合式 RAG Workbench 項(xiàng)目,這是一個(gè)示例應(yīng)用,可提供靈活的資源分配方法,既能用于在本地運(yùn)行向量數(shù)據(jù)庫(kù)和嵌入模型,又能用于在云端或數(shù)據(jù)中心使用 NIM 執(zhí)行推理。

開發(fā)者可借助這種混合式設(shè)置平衡本地和云資源之間的計(jì)算負(fù)載,以便優(yōu)化性能和降低成本。例如,向量數(shù)據(jù)庫(kù)和嵌入模型可以托管在本地工作站,以確保實(shí)現(xiàn)快速的數(shù)據(jù)檢索和處理,而計(jì)算強(qiáng)度更大的推理任務(wù)則可以分流至基于云的強(qiáng)大 NIM 推理微服務(wù)。這種靈活性讓開發(fā)者能夠流暢地?cái)U(kuò)展應(yīng)用,以適應(yīng)不同水平的工作負(fù)載,同時(shí)確保性能始終都能保持在同一水平。

借助在 RTX PC 和工作站上運(yùn)行的生成式 AI,NVIDIA ACE NIM 推理微服務(wù)可創(chuàng)建栩栩如生的數(shù)字人、AI 非玩家角色 (NPC) 和用于客戶服務(wù)的交互式虛擬形象。

ACE NIM 語(yǔ)音推理微服務(wù) (包括 Riva 自動(dòng)語(yǔ)音識(shí)別、文本轉(zhuǎn)語(yǔ)音和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯) 可提供準(zhǔn)確的轉(zhuǎn)錄、翻譯和逼真的聲音。

NVIDIA Nemotron 小型語(yǔ)言模型是一種智能 NIM,其中包含用于盡可能減少內(nèi)存使用量的 INT4 量化功能。此外,它還支持角色扮演和 RAG 用例。

而 ACE NIM 外觀推理微服務(wù)則包括 Audio2Face 和 Omniverse RTX,可用于創(chuàng)建栩栩如生的超逼真動(dòng)畫視覺效果。這有助于提供更具吸引力的游戲角色,為玩家?guī)砀觾?yōu)秀的沉浸式體驗(yàn);還能在用戶與虛擬客服人員互動(dòng)時(shí),提供更加令人滿意的體驗(yàn)。

深入探究 NIM

隨著 AI 的不斷發(fā)展,快速部署并擴(kuò)展 AI 功能的能力將變得越來越重要。

NVIDIA NIM 微服務(wù)可助力實(shí)現(xiàn)突破性創(chuàng)新,為 AI 應(yīng)用開發(fā)的新時(shí)代奠定了基礎(chǔ)。無論是構(gòu)建新一代 AI 賦能游戲、開發(fā)先進(jìn)的自然語(yǔ)言處理應(yīng)用,還是創(chuàng)建智能自動(dòng)化系統(tǒng),用戶都可以使用這些觸手可及的強(qiáng)大開發(fā)工具。

如何開始使用:

- 前往 ai.nvidia.com 體驗(yàn) NVIDIA NIM 微服務(wù)并與之交互。

- 加入 NVIDIA 開發(fā)者計(jì)劃,以便免費(fèi)訪問 NIM,并將其用于 AI 賦能應(yīng)用的測(cè)試和原型設(shè)計(jì)。

- 購(gòu)買 NVIDIA AI Enterprise 許可證(帶有為期 90 天的免費(fèi)生產(chǎn)部署評(píng)估期),并使用 NVIDIA NIM 在云端或數(shù)據(jù)中心部署自托管 AI 模型。

生成式 AI 正改變游戲、視頻會(huì)議和各種交互體驗(yàn)。訂閱《解碼 AI》時(shí)事通訊,了解最新動(dòng)態(tài),掌握后續(xù)進(jìn)展。

本篇文章的創(chuàng)作者為電競(jìng)虎，轉(zhuǎn)載請(qǐng)注明出處

?NIM 讓不可能成為可能：解碼用于加速生成式 AI 的微服務(wù)

相關(guān)資訊+more

熱門資訊+More

快手全程直播2025EWC電競(jìng)世界杯，點(diǎn)...

2025WSOP 國(guó)人Tony與丹牛同桌...

熱門表情包+More

電競(jìng)虎推薦+More

?NIM 讓不可能成為可能：解碼用于加速生成式 AI 的微服務(wù)

相關(guān)資訊+more

熱門資訊+More

快手全程直播2025EWC電競(jìng)世界杯，點(diǎn)...

2025WSOP 國(guó)人Tony與丹牛同桌...

熱門表情包+More

電競(jìng)虎推薦+More

快手全程直播2025EWC電競(jìng)世界杯，點(diǎn)...