小規模vSphere クラスター環境構築 on PowerEdge VRTX(番外編)　共有ストレージのトラブルシューティング

今回、環境構築の早期の段階で、共有ストレージへの接続性についての問題が発生したため、備忘録かつトラブルシューティングのアプローチ手法を確認頂くために、記事にまとめて見ます。

まず前提として、トラブルへの対処手順は複数存在するということです。

記事をお読み頂いた方の中には、”もっと自分なら違う方法がある”という方もおられるかもしれません。今回はトラブルシュートの基本を学びたい方向けの記事であることを先んじてご了承ください。

さて、まずトラブルシュートの基本は私は3段階だと捉えています。

問題定義
原因調査
ソリューション（アクション、対処とも言う）

1. 問題定義：特定ホストでの共有ストレージLUNマウント不可

f:id:instructor8010:20180806135822p:plain

まずは問題ですが、何が問題かといいますと、3ノードで構成されたクラスターノードのうち、1ノードだけが共有ストレージ領域であるLUNをマウントできていないということです。今回は、VRTXシャーシ内 Slot 4に搭載されたPowerEdge M620でのみ発生している問題です。

2. 原因調査

この問題の原因を探るべく、次の事を実施してみました。

該当ホスト上でのストレージアダプター、VMFS、デバイスのスキャン　→　同事象継続
該当ホストのハイパーバイザー自体の再起動　→　同事象継続
該当ホストのログ調査　→　複数回PCI バスに関連するエラーを確認
該当ホストでのESXi再インストール　→　同事象継続
共有ストレージのマウント解除及び再マウント　→　同事象継続
ファームウェア類の更新　→　最新版適用をしてみても同事象継続
他2台のサーバーを停止し、本機だけを起動した状態でのアクセス確認　→　同事象継続
3台のサーバーでBIOSやホストの設定を比較　→　BIOSもホストの設定も3台全て共通

上記作業では改善が見られませんでしたが、ログ調査ではPCIバス 0:3:0と3:0:0でのBus Fatal Errorを確認できました。

f:id:instructor8010:20180806140408p:plain — iDRACで見ています、リモートからログが閲覧出来るのは大変便利

このバスのうち、0:3:0はというと、どうやらShared PERC8コントローラーに接続をするためのメザニンカードであることが確認できました。

f:id:instructor8010:20180806140521p:plain — 上のエラーの右端ですが、Mezzanine Bというコンポーネントでエラーが起きている模様

概ね原因箇所が洗い出せたので、次のトラブルシューティングを試みます。

ブレードサーバーの搭載スロット位置の変更
メザニンカードのスワップ

1で改善してしまえば、VRTX内部のミッドプレーン（各種サーバーやディスク群の搭載基盤）側の問題だと言えるでしょう。

2で改善してしまえば、メザニンというコンポーネントの問題だと言えるでしょう。

いずれでも改善しない場合は、可能性としてはバスを持つデバイスということで、同機種のマザーボードの可能性が高いと考えられます。

理由としては、他の2台のPowerEdgeでは該当の共有ストレージにアクセスができているため、VRTX側のRAIDコントローラーやディスク群には問題があるとは言い難い状態です。

補足としては、PowerEdge VRTX筐体上のShared PERC領域への接続には、PCI メザニンがあることでアクセスパスが提供される形となっています。

つまり、下図でいう赤色の経路上の問題であり、複数のサーバーでは以上が見られないため、”PCIe Switch 1"と”Integrated Storage Controller 1(Shared PERC8)”には障害がないのではないか？という見立てです。

f:id:instructor8010:20180806171625p:plain

https://qrl.dell.com/files/en-us/html/manuals/vrtx/mapping%20pcie%20expansion%20slots=guid-3476b49e-4110-4f4f-8b3f-9aa4f783e2ea=2=en-us=.html

ということで、早速、1と2の作業をしてみます。

まずはメンテナンスモードでホストの停止準備をします。

f:id:instructor8010:20180806142412p:plain — メンテナンスモード、忘れずに！

そして、ホストを停止します。

f:id:instructor8010:20180806142909p:plain

そして、電源が落ちたPowerEdgeを確認し....

f:id:instructor8010:20180806143904p:plain — 今回の障害が発生しているホスト

f:id:instructor8010:20180806144011p:plain — 電源LEDが消灯になりました、この状態であれば筐体から抜去できます

f:id:instructor8010:20180806145051p:plain — 筐体からブレードを抜きます。筐体サイズは結構長いですね。

f:id:instructor8010:20180806145608p:plain — 赤い枠内に2つのメザニンカードが搭載されています。左側がB、右側がCです。

本当はせっかくブレードサーバーも開けたので、メザニンカードの抜き差しや、メザニンBとC間の入れ替えなど行いたかったのですが、一度に多くの作業を行ってしまうと、原因箇所特定が困難になりますので、まずはブレードスロットの入れ替えだけを行います。この後ブレードサーバーをスロット2に搭載し、電源起動します。

すると...