NTNX>日記

個人的な趣味による Nutanix Community Edition 日記。Japanese のみですみません。

Nutanix Enterprise AI 2.6 で Sarashina の推論エンドポイントを起動してみる。

Nutanix Enterprise AI(NAI)2.6 で、SB Intuitions が開発している Sarashina の推論エンドポイントを起動してみます。Sarashina は NAI 2.6 の地蔵検証済みリストには含まれていないので、Hugging Face Hub の URL を指定してインポートします。

 

今回の内容です。

 

今回の環境

NAI は、下記の一連の投稿で構築した検証環境を利用します。

 

1. モデル(Sarashina)のインポート

この検証環境ではあまりリソースがないので、軽量なモデル(sarashina2.2-0.5b-instruct-v0.1)をインポートします。

 

NAI UI にログインして、「モデル」→「リスト」タブを開き、「モデルをインポートする」→「Hugging Face モデル ハブから」をクリックします。

 

「モデル URL を使用してインポートする」をクリックします。ちなみに、この NAI には Hugging Face のアクセス トークンを登録済みです。

 

インポートするモデルの情報を入力して、「インポート」をクリックします。

  • モデル URL:sbintuitions/sarashina2.2-0.5b-instruct-v0.1(huggingface.co/ は省略)
  • モデル インスタンス名:sarashina22-05b
  • モデル機能:Text To Text

 

確認画面が表示されるので、「confirm」と入力して「インポート」をクリックします。

 

少し待つと、インポートしたモデルが「準備完了」になります。

 

2. モデルのアクセス許可

この環境の NAI では、Hugging Face Hub のモデルでも、URL 指定でインポートしたものは、事前検証済みのモデルとは別に、アクセス許可が必要です。そのため、下記のように警告マークが表示されています。

 

「モデル アクセス制御」タブを開き、「モデル URL を使用した手動ダウンロードを許可」を ON にします。

 

確認メッセージが表示されるので、「を有効にします」(NAI 2.6 では誤訳あり)をクリックして有効にします。

 

これで、URL でインポートしたモデルもアクセス許可されました。

 

「リスト」タブに戻ると、インポートしたモデルの警告マークが消えています。

 

ついでに、モデルの名前をクリックして情報を確認しておきます。

 

このモデルが、URL 指定でインポートしたものであることがわかります。

 

3. エンドポイントの作成

モデルから、推論サービスのエンドポイントを作成します。

「モデル」→「リスト」タブで、インポートしたモデルを選択して、「アクション」→「エンドポイントを作成」を開きます。

  • モデル インスタンス名:sarashina22-05b

 

エンドポイントの基本パラメータを入力して、「次へ」をクリックします。

  • エンドポイント名:sarashina22-05b-ep
  • モデル インスタンス名:sarashina22-05b
  • アクセラレーション タイプ:GPU Passthrough
  • アクセラレーターの詳細:NVIDIA-A16
    • A16 は、NAI ではサポート外ですが利用可能です。
    • アクセラレーター(GPU)のモデルは、NKP の GPU ノードに接続されているものが自動選択肢に表示されます。
  • API キー:demo-key-01

 

「表示 高度な構成」を開いてみます。

 

推論エンジン(vLLM)のソースや設定を変更できますが、今回はデフォルトのままにします。

 

vCPU とメモリの値を入力して、「次へ」をクリックします。今回は、ひとまず下記を指定しました。ここでの「インスタンス」は、推論エンジンの Pod(コンテナ)を指します。

  • vCPUs:4
  • メモリー:16 GiB

 

「作成」をクリックします。

 

「ローカル エンドポイント」画面に自動的に移動します。少し待つと、エンドポイントが起動されて、ステータスが「アクティブ」になります。

 

4. エンドポイントのテスト

「ローカル エンドポイント」で、エンドポイントの名前をクリックします。

 

エンドポイントの画面が開くので、「テスト」をクリックします。

 

サンプル リクエストを選択して、「テスト」をクリックします。

 

推論サービスにより、テキスト生成されたことが確認できました。

 

ちなみに、「カスタム リクエスト」を選択すると、自由にプロンプトを入力できます。

 

テスト画面を閉じて、「エンドポイント アクセス」ボタンをクリックします。

 

curl による、エンドポイントのサンプル リクエストを入手できます。

 

サンプル リクエストです。

gist.github.com

 

以上。

©2026 gowatana
クリエイティブ・コモンズ・ライセンスこの 作品 は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。