影響範囲が大きかったシステムトラブル例

リモートデスクトップ切断NW
リモートデスクトップ切断

こんばんは、NAOです。ITインフラ業界に携わり、様々なシステムトラブルにあってきた私の備忘録的メモです。技術開発が進んでもう発生しないであろうトラブルから現在も発生する恐れのあるシステムトラブルをメモです。(2019年11月現在)

システムの影響範囲が大きかったトラブルの記憶です。

システムトラブル

ループ (LANの間違った物理的接続)

LANの物理的配線ミスでフロアのレイアウト変更などで発生します。。LAN接続の物理的配線を間違えてしまうとパケットが抜け出せず通信不可になります。システムトラブルでループと呼びます。これは人的ミスによるものが多く、人事異動時のレイアウト変更などで発生することが多いです。

作業机の移動などでLANを抜いて違う場所にLANを差し込んでしまうと発生します。

電源供給不足

電圧が足りずサーバーのパワーが上がりきらない時に起きるトラブルです。サーバー容量が大きく電源が2つ以上あるときに起きやすいトラブルです。一見起動しているように見えるものの半端に使用出来るため切り分けが難しいトラブルです。

497日問題

WindowsServer2008のサーバーで起きたトラブルです。サーバーを再起動せず497日以上連続稼働させると  TCP ポート (TIME_WAIT状態のポート) が開放されず残留し続け、最終的にポート番号枯渇が発生する問題です。修正プログラムをあてれば問題が解決します。 これも発生した時は、よく解りませんが知っていれば焦らず解決できるでしょう!

ネットワーク機器の設定保存忘れ

停電・復電作業時やネットワーク機器の再起動時にあるトラブルです。Ciscoなどのネットワーク機器の設定変更を行なった際にrunning-configの設定で動作を確認し、saveを忘れてしまった場合などが原因になります。saveをしないとstartup-configに設定が保存されていない為、ネットワーク機器が起動したときには設定が消えてしまいます。saveをしなくても再起動しない限りは正常な状態で動くため時限爆弾的なトラブルです。

発生した時は解りにくいですが、 切り分けの為に設定ファイルはこまめに保存しておきましょう。トラブル発生時に設定ファイルを比較するとすぐ解ります。

DHCPの枯渇

新端末や新しい機器の導入時に起こりやすいトラブルです。

企業では端末のIPアドレス管理をしやすくするため、自動的にIPアドレスを割り振るDHCPサーバーという役割を持つサーバーがあります。DHCPのIPアドレス割当て範囲はサブネットマスクにより割振り範囲が違いますが大抵の場合/24ビットで切っているため、254台となります。

24ビットでセグメントを区切っている場合、通常はX.X.X.1~X.X.X.254の範囲(254個)でIPアドレスが割り当てられれば問題はないです。端末の入替え時などは新旧同時のセグメントを使用すると使用率が倍以上になる恐れがあります。枯渇してしまった場合はIPアドレスを割り当てられず通信が出来ないトラブルが発生します。これも知っていれば問題なく対処できます。

ネゴシエーションの不一致

企業内の通信が不安定で気づいたりします。実際にあったのはONUとFWのネゴシエーションが不一致で通信が不安定になっていました。ONU側に切替スイッチがありFW側とネゴシエーションを合わせるように切替えした事で復旧できました。

サーバー容量の肥大化

グループウェアなどブラウザアクセス不可になります。画面遷移が遅くなったりアクセス不可になったりします。これはサーバーなどのログが肥大化し容量が100%近くになった時に発生します。ログ削除など空き容量を増やせば元通り使用できるようになります。日々の点検やログが溜まりすぎないように工夫をすることで回避できます。

証明書期限切れ

証明書の期限切れなどで認証が出来なくなった際に発生します。事象としては無線なら接続不可になり影響範囲が全体に及びます。切り分けに困るので証明書の期限はチェックしておきましょう。

コメント

タイトルとURLをコピーしました