Nutanix Enterprise AI(NAI)2.6 で、SB Intuitions が開発している Sarashina の推論エンドポイントを起動してみます。Sarashina は NAI 2.6 の地蔵検証済みリストには含まれていないので、Hugging Face Hub の URL を指定してインポートします。
今回の内容です。
今回の環境
NAI は、下記の一連の投稿で構築した検証環境を利用します。
1. モデル(Sarashina)のインポート
この検証環境ではあまりリソースがないので、軽量なモデル(sarashina2.2-0.5b-instruct-v0.1)をインポートします。
NAI UI にログインして、「モデル」→「リスト」タブを開き、「モデルをインポートする」→「Hugging Face モデル ハブから」をクリックします。

「モデル URL を使用してインポートする」をクリックします。ちなみに、この NAI には Hugging Face のアクセス トークンを登録済みです。

インポートするモデルの情報を入力して、「インポート」をクリックします。
- モデル URL:sbintuitions/sarashina2.2-0.5b-instruct-v0.1(huggingface.co/ は省略)
- モデル インスタンス名:sarashina22-05b
- モデル機能:Text To Text

確認画面が表示されるので、「confirm」と入力して「インポート」をクリックします。
少し待つと、インポートしたモデルが「準備完了」になります。

2. モデルのアクセス許可
この環境の NAI では、Hugging Face Hub のモデルでも、URL 指定でインポートしたものは、事前検証済みのモデルとは別に、アクセス許可が必要です。そのため、下記のように警告マークが表示されています。

「モデル アクセス制御」タブを開き、「モデル URL を使用した手動ダウンロードを許可」を ON にします。

確認メッセージが表示されるので、「を有効にします」(NAI 2.6 では誤訳あり)をクリックして有効にします。

これで、URL でインポートしたモデルもアクセス許可されました。

「リスト」タブに戻ると、インポートしたモデルの警告マークが消えています。

ついでに、モデルの名前をクリックして情報を確認しておきます。

このモデルが、URL 指定でインポートしたものであることがわかります。

3. エンドポイントの作成
モデルから、推論サービスのエンドポイントを作成します。
「モデル」→「リスト」タブで、インポートしたモデルを選択して、「アクション」→「エンドポイントを作成」を開きます。
- モデル インスタンス名:sarashina22-05b

エンドポイントの基本パラメータを入力して、「次へ」をクリックします。
- エンドポイント名:sarashina22-05b-ep
- モデル インスタンス名:sarashina22-05b
- アクセラレーション タイプ:GPU Passthrough
- アクセラレーターの詳細:NVIDIA-A16
- A16 は、NAI ではサポート外ですが利用可能です。
- アクセラレーター(GPU)のモデルは、NKP の GPU ノードに接続されているものが自動選択肢に表示されます。
- API キー:demo-key-01

「表示 高度な構成」を開いてみます。

推論エンジン(vLLM)のソースや設定を変更できますが、今回はデフォルトのままにします。

vCPU とメモリの値を入力して、「次へ」をクリックします。今回は、ひとまず下記を指定しました。ここでの「インスタンス」は、推論エンジンの Pod(コンテナ)を指します。
- vCPUs:4
- メモリー:16 GiB

「作成」をクリックします。

「ローカル エンドポイント」画面に自動的に移動します。少し待つと、エンドポイントが起動されて、ステータスが「アクティブ」になります。

4. エンドポイントのテスト
「ローカル エンドポイント」で、エンドポイントの名前をクリックします。

エンドポイントの画面が開くので、「テスト」をクリックします。

サンプル リクエストを選択して、「テスト」をクリックします。

推論サービスにより、テキスト生成されたことが確認できました。

ちなみに、「カスタム リクエスト」を選択すると、自由にプロンプトを入力できます。

テスト画面を閉じて、「エンドポイント アクセス」ボタンをクリックします。

curl による、エンドポイントのサンプル リクエストを入手できます。

サンプル リクエストです。
以上。
