3 Node Cluster の Nutanix CE をバージョンアップしている途中で、たまたま CVM 障害が発生した時の様子を記録しておこうと思います。なお、うちの Nutanix CE は ESXi 上の Nested VM なのでよく落ちますが、ちゃんとした物理 Nutanix であれば、商用のアプライアンスでも、CE でも、こんなに落ちないのでしょう。
3 Node Cluster です。
ちなみに、CPU 4コア (8スレッド) + メモリ 32 GB 搭載のマシンに、4 vCPU + 16 GB メモリ の Nutanix CE を 3台載せています。他にも VM を何台か・・・
Nutanix CE バージョンアップ途中で CVM 障害が起きた時の様子
ce-2016.06.30 → ce-2016.09.23 のバージョンアップです。
ce-2016.09.23 のソフトウェアを「Download」します。
「Upgrade Now」します。
「Yes」
アップグレードが開始します。
ここで、偶然 3ノード中、2ノードの CVM が停止しました。当然ながらクラスタも停止します。気が付いたら下の画面も表示されていなかったので、とりあえず 停止した CVM 2台を AHV ごと再起動してしばらく待ち、ブラウザは F5 更新してみました。
Prism のログイン画面にログインした直後、バージョンアップの途中で停止したためか「New Acropolis Version Available」で停止します。「Upgrade to latest Acropolis」のリンクのみクリックできるので、クリックしてみます。
途中までゲージが進んだ状態で、アップグレード画面が表示されます。障害発生したときは、50%のあたりまで進んでいたようです。
しばらくすると(おそらく再起動した CVM が復活したことで)、少しゲージが戻りました。ゲージが戻った後も、そのままアップグレード処理が進みます。「open」リンクを開くと、ノードごとに進捗が見られます。
ちなみにこの状態でも、画面左下の「Nothing to do?」リンクから 2048ゲームは起動することができます。
2048 ゲームを右上の「×」で閉じると、この画面に戻ります。「Upgrade to latest Acropolis」をクリックすると、アップグレードのゲージが表示された画面に戻ります。
ちゃんとアップグレードは進んでいます。
不幸ことに、この状態で CVM が1台停止しました。CVM 1台だけだと Nutanix クラスタは停止せず、Prism からはただゲージが進まない状態になっていました。この場合は、停止した CVM を起動すると、CVM が復活したタイミングでゲージが少し戻って、そのままアップグレードが進みます。
Nested VM に Nutanix CE をインストール(しかも オーバーコミットで)していると、とにかく CVM も AHV も頻繁に落ちてしまうので、アップグレード中に 6回くらい CVM がおちましたが、それでも Nutanix CE のバージョンアップは何とか成功しました。
ちゃんと、2016.09.23 バージョンになっています。
感想
- AOS のバージョンアップ中に CVM が 1台停止しても、2台停止(= 3 Node クラスタ停止)しても、複数回 CVM が停止しても、CVM が復活できればバージョンアップ処理が進んで完了できた。意外とバージョンアップ中の障害には耐性がありそう。
- 普通のスペックのマシンで構築した Nested Nutanix CE 3 ノードクラスタでのバージョンアップは大変かつ時間がかかるので、可能なら インストールイメージから再構築したほうが楽で早い。
- Prism の 2048 ゲームは、途中で「×」ボタンで閉じてから開きなおすと、途中のままになっている。有事の時に遊んでいたことが露見しないように注意が必要である。
以上。