先日開催された Nutanix Meetup Hybrid 24.11 で話した「Nutanix Kubernetes Platform の仕組み入門」のおまけパート「NKP と NAI 2.0」スライドです。
本編はこちらをどうぞ。
当日の録画はこちら。
NKP と NAI 2.0
NAI を、Nutanx Kubernetes Platform(NKP)のワークロード クラスタに展開してみました。
導入手順は、機会があれば紹介したいと思います。
ちなみに、ドキュメントはこちら。
- Nutanix Enterprise AI Guide(Nutanix Enterprise AI 2.0)
https://portal.nutanix.com/page/documents/details?targetId=Nutanix-Enterprise-AI-v2_0:Nutanix-Enterprise-AI-v2_0
いくつかポイントを挙げると・・・
- NKP クラスタ ノードの OS イメージは、カスタム作成(Ubuntu)が必要。
- 前提パッケージのインストールは、ソフトウェアによっては NKP のアプリケーション インストールではなく、 helm コマンドでのインストールがよさそう。
NAI 2.0 で作成できるものを紹介しておきます。(あと Web UI もあります)
- モデル(Model)
- Hugging Face / NVIDIA NGC から、LLM をダウンロードできる。
- モデルは、Nutanix Files の NFS に保存される。
- エンドポイント
- LLM による推論(生成)を実行する、推論サーバーのエンドポイント(URL) を作成できる。
- リクエストで指定する API キー、サンプル コード、テスト生成ができる。
- あとは・・・
- ユーザー認証の機能あり。
- 推論サーバーの簡易的なモニタリングも可能。
NAI UI(GUI)では、Hugging Face / NVIDIA NGC から、モデル(LLM)をダウンロードできます。
ダウンロードされたモデルは、NAI 独自の「Models」という Kubernetes リソースとして扱われます。LLM は大容量(数十 ~ 数百 GB)になりますが、Nutanix Files の NFS 共有に保存され、ダウンロード後はユーザー認証された利用者同士で共用できます。
ダウンロードした LLM から、「Endpoint」として推論サーバーを起動できます。これで、テキスト生成をするサービスの URL が利用可能になります。これは、おなじく NAI で作成した API キーでアクセスできます。
NAI で起動された推論サーバーには、curl による API リクエストのサンプルや、テキスト生成のテスト UI などが提供されます。
NAI の Endpoint は、内部的には Kserve による InferenceService リソースです。
NAI によってダウンロードしたモデル、作成された Endpoint(推論サーバーの URL)、推論サーバーへの API キーを利用すると、たとえば、下記のように企業内チャット アプリケーションで利用できたりします。
NAI では、エンドポイントの簡易モニタリングもできます。
NAI を展開した Kubernetes クラスタ(今回は NKP ワークロード クラスタ)の情報も確認できます。(ちなみに NKP & NAI のちゃんとサポートされた展開には、そこそこリソースと GPU が必要です)
curl で足りそうな仮想企業内チャット君のソースは こちら。
以上。