NTNX>日記

個人的な趣味による Nutanix Community Edition 日記。Japanese のみですみません。

Nutanix CE のバージョンアップ途中での CVM 障害の観察。

3 Node Cluster の Nutanix CE をバージョンアップしている途中で、たまたま CVM 障害が発生した時の様子を記録しておこうと思います。なお、うちの Nutanix CE は ESXi 上の Nested VM なのでよく落ちますが、ちゃんとした物理 Nutanix であれば、商用のアプライアンスでも、CE でも、こんなに落ちないのでしょう。

3 Node Cluster です。

f:id:gowatana:20161023002505p:plain

ちなみに、CPU 4コア (8スレッド) + メモリ 32 GB 搭載のマシンに、4 vCPU + 16 GB メモリ の Nutanix CE を 3台載せています。他にも VM を何台か・・・

Nutanix CE バージョンアップ途中で CVM 障害が起きた時の様子

ce-2016.06.30 →  ce-2016.09.23 のバージョンアップです。
ce-2016.09.23 のソフトウェアを「Download」します。

f:id:gowatana:20161023002550p:plain

「Upgrade Now」します。

f:id:gowatana:20161023002832p:plain

「Yes」

f:id:gowatana:20161023002921p:plain

アップグレードが開始します。

ここで、偶然 3ノード中、2ノードの CVM が停止しました。当然ながらクラスタも停止します。気が付いたら下の画面も表示されていなかったので、とりあえず 停止した CVM 2台を AHV ごと再起動してしばらく待ち、ブラウザは F5 更新してみました。

f:id:gowatana:20161023003009p:plain

Prism のログイン画面にログインした直後、バージョンアップの途中で停止したためか「New Acropolis Version Available」で停止します。「Upgrade to latest Acropolis」のリンクのみクリックできるので、クリックしてみます。

f:id:gowatana:20161023204952p:plain

途中までゲージが進んだ状態で、アップグレード画面が表示されます。障害発生したときは、50%のあたりまで進んでいたようです。

f:id:gowatana:20161023205257p:plain

しばらくすると(おそらく再起動した CVM が復活したことで)、少しゲージが戻りました。ゲージが戻った後も、そのままアップグレード処理が進みます。「open」リンクを開くと、ノードごとに進捗が見られます。

f:id:gowatana:20161023205415p:plain

ちなみにこの状態でも、画面左下の「Nothing to do?」リンクから 2048ゲームは起動することができます。

f:id:gowatana:20161023205733p:plain

2048 ゲームを右上の「×」で閉じると、この画面に戻ります。「Upgrade to latest Acropolis」をクリックすると、アップグレードのゲージが表示された画面に戻ります。

f:id:gowatana:20161023205830p:plain

ちゃんとアップグレードは進んでいます。

f:id:gowatana:20161023205929p:plain

不幸ことに、この状態で CVM が1台停止しました。CVM 1台だけだと Nutanix クラスタは停止せず、Prism からはただゲージが進まない状態になっていました。この場合は、停止した CVM を起動すると、CVM が復活したタイミングでゲージが少し戻って、そのままアップグレードが進みます。

f:id:gowatana:20161023210554p:plain

Nested VM に Nutanix CE をインストール(しかも オーバーコミットで)していると、とにかく CVM も AHV も頻繁に落ちてしまうので、アップグレード中に 6回くらい CVM がおちましたが、それでも Nutanix CE のバージョンアップは何とか成功しました。

f:id:gowatana:20161023211032p:plain

 ちゃんと、2016.09.23 バージョンになっています。

f:id:gowatana:20161023211049p:plain

感想

  • AOS のバージョンアップ中に CVM が 1台停止しても、2台停止(= 3 Node クラスタ停止)しても、複数回 CVM が停止しても、CVM が復活できればバージョンアップ処理が進んで完了できた。意外とバージョンアップ中の障害には耐性がありそう。
  • 普通のスペックのマシンで構築した Nested Nutanix CE 3 ノードクラスタでのバージョンアップは大変かつ時間がかかるので、可能なら インストールイメージから再構築したほうが楽で早い。
  • Prism の 2048 ゲームは、途中で「×」ボタンで閉じてから開きなおすと、途中のままになっている。有事の時に遊んでいたことが露見しないように注意が必要である。

以上。