障害から復旧するためには何よりも情報が必要になります。それはネットワーク機器から得られる情報だけではありません。
障害発生時の現場の様子、該当装置の周辺環境、接続されている他のネットワーク機器、障害が発生する直前の状況等、様々な観点からの情報が必要になります。
急いで被疑箇所のネットワーク機器にコンソールを接続して、コマンドを打つのではなく、まずは落ち着いて現場周囲の状況から確認をするようにしてください。
現場状況の確認
トラブルシューティングを実施するにあたっては、主に現場担当者にヒアリングする事と現場環境を目視で確認をします。
まず現場の状況に関しては、以下の事項の確認をしておきます。
- 障害発生前にスイッチの周辺機器(スイッチ / ルーター / ファイアーウォール / サーバ)の設定作業や増設作業が行われたか?
- 障害発生前に計画停電はあったか?
- 他のLAN環境(他のセグメント)の状況はどうか?
- 物理的なLAN配線に問題はないか?(LANケーブルはきちんと接続しているか?)
- スイッチに接続されるルータ等、他の装置の設定に問題はないか?
作業時の確認
- 作業を実施する上で必要なツールは揃っているか?
(ロールオーバーケーブル / LANケーブル / 作業手順書等) - 電源コンセントに空きがあるか?
電源コンセントがある場合は、管理者から使用許可を取ってあるか? - 保守員がネットワーク経由で疎通確認試験を行う為の空きポートがあるか?
ハードウェアの状態確認
- スイッチのファンは正常に動作しているか?また、おかしな音が出ていないか?
- POST(Power On Self Test:ハードウェア診断プログラム)にエラー表示がなく装置が正常に起動するか?
- その他LEDランプ状態は問題ないか?
基礎情報の収集
ハードウェアと機器の設定に問題がない事を確認ができたら、次は障害の解析に必要な基礎情報を収集します。
以下に示す事項については障害の状況に関係なく収集をしてください。
- 現場の場所、設置環境
- 装置の導入年月日
- 装置名 / シリアル番号 / 製造番号
- ソフトウェア / ハードウェアのバージョン