I-12-9. ネットワーク機器の障害対策とトラブルシューティング

ルータやスイッチなど、ネットワーク機器運用管理の基本を示し、電源電圧障害、ケーブル障害、熱暴走、設定ミスなど起こりうる機器障害の内容とその対策について解説する。またハードウェアトラブルの原因を追求する手法についても述べる。

【学習の要点】

* ネットワーク機器はサーバと異なり可動部分が少ないことから、ネットワーク機器の障害の発生率はサーバに比べると低い。しかし発生時の影響が多大なため、適切な障害管理が行われていることが重要である。

* 障害が発生した場合には、電源電圧障害、ケーブル障害、熱暴走、設定ミスなどを想定して対応し、原因の切り分け調査を行うと迅速な対応ができる。

図I-12-9. MTBFの計算方法

【解説】ネットワーク機器運用管理

* ネットワーク機器の運用管理

ネットワーク機器はサーバと異なり可動部分が少ないことから、ネットワーク機器の障害発生率はサーバの障害発生率に比べると低い。

- 平均故障間隔(MTBF)

システムの稼動時間/故障回数で求められる、故障から次の故障までの平均的な間隔を表した数値である。多くのネットワーク機器ではこの値が公表され、機器選定のポイントとなっている。

* 障害発生ポイントおよび対策

障害が発生した場合に原因の切り分けを行う必要がある。おもに障害が発生しやすい点を紹介する。これらの障害はネットワーク機器のログか、後述するsnmpで情報の取得を行う。

- 電源電圧障害

電源電圧の障害が発生した場合、ネットワーク機器は停止するか異常な稼働をする。対策としては、電源装置の二重化を行う。

- ケーブル障害

ケーブル障害が発生した場合、接続しているサーバやネットワーク機器がパケットをロスト(紛失)してしまうため正常な通信ができなくなる。対策としては、すべての経路のケーブルの二重化を行う。

- 熱暴走

機器にとってよくない環境で長時間稼働した場合、熱暴走が起きる場合がある。この場合もネットワーク機器は停止するか異常な動作を行う。対策として、機器配置の際に機器間に十分にスペースをとっておくことが望ましい。

- 設定ミス

設定ミスによって障害が発生することもある。特に冗長構成で異常が発生した場合などに判明することが多い。対策としては設定内容の検証を行う。

4) ネットワーク機器のハードウェアトラブル

ネットワーク機器でハードウェアトラブルが発生した場合、以下の手順で原因の追及を行う。

* ログの取得

該当するネットワーク機器にログインするか、リモートサーバにログファイルを転送している場合は、サーバで異常なログが出力されていないか確認する。

* シリアルでの接続

TCP/IPでネットワーク機器に接続できない場合、シリアルポートでの機器への接続を行い、ログを確認する。

OSS Course Naviのコンテンツは IPA OSS モデルカリキュラムを基としています。

フォーラム会員企業専用

記事配信

コンテンツ配信

ユーザログイン