障害切り分け – 手当たり次第に書くんだ

障害切り分けとは何か – 影響範囲から構造を読む

障害切り分けを、原因当てではなく影響範囲から構造を読む作業として整理します。DNS、認証、Kubernetes、監視情報をどう読み、正常な範囲と異常な範囲の境界を探すかを考えます。

UTC、JST、ローカルタイム、RTC、NTP、chrony、ログ時刻を運用目線で整理します。Linux、コンテナ、Kubernetes、ログ集約、障害切り分けで時刻ずれを防ぐために、保存時刻と表示時刻を分けて考えます。

ホストとノードの違いを、サーバー、VM、Kubernetes、クラスタ、監視、障害切り分けの文脈で整理します。どの単位を主語にしているかを分けることで、設計や運用の会話を安定させます。

TFTP の仕組みを、UDP 69 番、転送用ポート、PXE Boot、DHCP、ネットワーク機器のバックアップ、ファイアウォール設計の観点から整理します。TFTP は単に 69 番ポートを開ければよいわけではありません。

SNMP Trap を監視設計の主役にしない理由を、Polling、状態監視、イベント通知、復旧判定、Zabbix、UDP/162、linkDown / linkUp の扱いから整理します。Trap は状態の正本ではなく、補助的なイベント情報として設計する方が安定します。

KDDI の大規模通信障害を、個別企業批判ではなく通信インフラの設計責任として整理します。冗長化、切り戻し、輻輳制御、加入者 DB、制御プレーン、影響範囲、復旧運用の難しさを考えます。