PRTG によるルーターの監視: インターネットは「動作」しているが遅すぎる場合

世界の 3 つの大陸にオフィスがある成長中の会計事務所で、IT 管理者として一緒に働いたある女性の話をしましょう。おそらく似たような話を聞いたことがあるでしょう…

すべてを変えた午前 3 時のモーニングコール

ある日の午前 2 時 47 分に、サラの電話が鳴りました。自動監視システムから、会社のメインルーターがダウンしたという報告があったのです。ヨーロッパ本社で働くサラは、眠気に逆らいつつリモートログインして、簡単な ping テストを行いました。ルーターは問題なく応答しました。彼女は「誤報」だと考えて、すでに業務が開始しているアジア太平洋オフィスで問題が発生していることに気付かず、アラームを消して再び眠りにつきました。

目覚めた後、サラは嵐の中に足を踏み入ることになりました。グローバル会計チームは、インターネット障害でシンガポールとシドニーの従業員が繁忙期にクラウドベースの税務ソフトウェアにアクセスできなかったことに激怒していました。顧客への締め切りは守れず、パートナーは説明を求めていました。

サラは ping のログを見せながら説明しました。「でも、ルーターは一度もダウンしてないんです。見てください、すべての ping テストに応答していますよね。」

その時、私に電話がかかってきました。ネットワークエンジニアとして似た状況をこれまで何十回となく経験していた私は、何が起こっているか即座に理解しました。サラは、私が「ping パラドックス」と呼ぶ状況に陥っていたのです。そのルーターは確かに ping には応答していましたが、実際の業務トラフィックを効果的に処理できていませんでした。

事例: 従業員 80 名の成長中の会計事務所では、税務シーズン中に、インターネットの速度の遅さに関する苦情が毎日寄せられていました。ISP はサービスが停止していないことを確認し、基本的な ping テストでルーターが「動作中」であることを示しましたが、事務所の従業員は依然としてインターネットの遅さについて苦情を訴えていました。

問題: 隠されたルーターのパフォーマンス問題がありました。
初期評価中に、サラの監視設定に危険な盲点があることを発見しました。BGP フェイルオーバーを備えた彼女のデュアル ISP 設定は、接続性の観点からは正常に見えましたが、ユーザーには次のような問題がありました:

ピーク時の断続的な速度低下
クライアントとの会議中の VoIP 通話の品質の悪さ
クラウドサービスへのファイル転送のタイムアウト
支払請求の対象となる業務時間が発生する不安定なアプリケーションパフォーマンス

私はサラに次のように説明しました。「ping 監視は電話に出られるかどうかを確認するようなもので、相手がまともに会話できる状態なのかどうかは分からないのです。ルーターは「応答」していますが、実際には過負荷状態だったのです。」

3 層のルーター監視ソリューション
目を見張る結果
サラの変化
ルーター監視における PRTG の利点
IT 管理者へのメッセージ

3 層のルーター監視ソリューション

私はサラに、彼女が切実に求めている可視性を提供する包括的な監視戦略の実装方法を説明しました。

層 1: 接続性監視の強化

「まず最初に、基本的な ping 監視をアップグレードする必要があります。接続性だけでなく、品質もテストしましょう。」

PRTG の構成:

Ping v2 センサー（アップ/ダウンステータスのみでなく）遅延追跡機能を備えています。
MTU 問題をテストする複数のパケットサイズ（64、512、1500 バイト）、インターフェイス固有の監視（WAN1、WAN2、LAN インターフェイス）、しきい値（IT 管理者にアラートを送る値）を設定できます。

スクリーンショットに示されているように、パケットサイズは 64 バイトと 512 バイトを送信するように設定しました。テスト目的で ping の MTU を増やすのと同じです。

「これで、ルーターが理論的には「動作中」であっても、問題が生じているかどうか分かるようになります。」

層 2: SNMP によるパフォーマンスの詳細な分析

次に、「では、ルーターの中身を見てみましょう。」と、PRTG で SNMP センサーを設定しました。

サラが監視するようになった重要なルーター指標:

CPU 使用率 (警告: 70%、エラー: 85%)

センサーには、実際の監視データを処理する 1 つ以上のチャネルがあります。チャネル設定では、センサーの異なるチャネルからのデータをグラフ、ゲージ、表形式でどのように表示するか定義できます。さらに、チャネルデータでセンサーの状態を判断できます。制限設定を使用して、値に対するセンサーの状態を定義します。

チャネル設定の変更方法は、このリンクを参照してください。

メモリ使用量とルーティングテーブルのサイズ
インターフェイス使用率
温度とハードウェアの健康状態
パケットドロップ率とバッファ使用率

「ここが魔法が起こる場所です。これらの指標は、ユーザーに問題が起きていることだけでなく、問題が発生している原因を教えてくれます。」

層 3: NetFlow によるトラフィックインテリジェンス

最後に、ネットワークトラフィックの実際の状況を理解できるように NetFlow 分析を実装しました。

カスタム NetFlow チャネルの定義:

1️⃣ High Bandwidth Apps

SourcePort[80] OR SourcePort[443] OR DestinationPort[80] OR DestinationPort[443]

2️⃣ VoIP Traffic Quality

SourcePort[5060] OR DestinationPort[5060] OR SourcePort[1720] OR DestinationPort[1720]

3️⃣ Cloud Backup Traffic

SourcePort[443] AND DestinationIP[backup-provider-range]

4️⃣ Critical Business Applications

SourceIP[tax-software-servers] OR DestinationIP[tax-software-servers]

👉 カスタム NetFlow チャネルの作成についての詳細

目を見張る結果

「これを見てください。」と、監視開始から 2 週間後の PRTG ダッシュボードをサラに見せました。データは明確な結果を示していました:

ルーターの CPU 使用率は、自動バックアップ中の毎晩午前 2 時に 95% に急上昇していました。
ある ISP 接続では、営業時間中に常に 15% のパケットロスが発生していました。
毎日午前 9 時から 11 時まで、および午後 2 時から 4 時まで、プライマリ WAN リンクの帯域幅が飽和していました。

「これがユーザーからの苦情の原因です。ルーターは理論的には「動作中」でしたが、実際にはフル稼働していたのです。例えるなら、混雑しているレストランで会話をしようとしているようなものです。理論的には可能ですが、まともな会話はできません。」

サラの変化

3 か月後、彼女から興奮した声で電話がかかってきました: 「信じられない! ネットワークパフォーマンスに関する苦情は 1 件も来なくなり、ユーザーに影響が出る前に問題を検出して 2 件の大規模な障害を未然に防ぐことができたんです。」

サラの変わった点:

事前対応型の問題予防

PRTG のアラートを CPU 使用率が 70% になると警告するように設定して、ユーザーに影響が出る前に調査する時間を確保しました。
帯域幅使用率アラートを利用して、ピーク時のトラフィックを管理できるようにしました。

データ主導の意思決定

Flow データを使用して、プライマリインターネット接続のアップグレードが必要なことを証明しました。
ルーターのパフォーマンス指標を使用して、営業時間への影響を回避するようにバックアップスケジュールを最適化しました。
帯域幅を消費している業務と関係のないトラフィックを特定してブロックしました。

業務への影響

ネットワークパフォーマンスに関するユーザーからの苦情がなくなりました。
ISP の利用を最適化して不要な帯域幅を減らすことにより、月額で 800 ドル節約できました。
インフラストラクチャ計画と予算申請のための具体的なデータを提供できるようになりました。
税務シーズン中の約 15 時間のダウンタイムを回避できました。

ルーター監視における PRTG の利点

優れた監視以外に、PRTG の何が彼女を変えたのでしょうか。それは、PRTG が複雑なルーターデータを分かりやすい実用的な情報として提供できることでした:

🧩 直感的なダッシュボード: エンジニア以外の人にも分かりやすい、色分けされたステータスインジケーターにより、ルーターの状態を一目で確認できるようになりました。

🧩 インテリジェントなアラート機能: 午前 3 時に誤報を受け取るのではなく、適切な通知を適切なタイミングで受け取り、優先順位を付けて効果的に対応できるようになりました。

🧩 履歴の傾向: PRTG の履歴データにより、問題が発生する前にパターンを特定して、容量のニーズを計画できるようになりました。

🧩 ベンダーに依存しない監視: Cisco、Juniper、その他のブランドのルーターでも、PRTG の包括的な SNMP サポートは安定して動作します。

IT 管理者へのメッセージ

この記事を読んで「自分の状況と似ている」と思われたのはあなただけではありません。私はこれまで、基本的な監視結果とユーザーエクスペリエンスの矛盾にもどかしさを感じている多くの IT 管理者を見てきました。

実際のところ、ping 監視は始まりに過ぎません。ルーターは複雑なタスクを処理する高度なデバイスであるため、高度な監視が必要です。PRTG には、ルーターが動作しているかどうかだけでなく、ネットワークにおける重要な役割をどのくらい適切に果たしているか把握するために必要なツールが用意されています。

午前 3 時のモーニングコールをなくしましょう!

👉 PRTG の無料トライアル版をダウンロードして 3 層のルーター監視ソリューションを導入し、事後対応型のトラブルシューターから、事前対応型のネットワークプロフェッショナルへ変身しましょう。

ネットワークの最も重要なコンポーネントを真に可視化することで、ユーザーは喜び、経営者は信頼性の向上に満足するでしょう。そして、管理者は安心して眠れるようになるでしょう。

サマリー

基本的な ping 監視はルーターの接続性は確認できますが、実際の業務に影響を与える重大なパフォーマンスの問題を見逃してしまいます。この記事では、接続性監視の強化、SNMP パフォーマンス指標（CPU、メモリ、帯域幅）、NetFlow トラフィック分析を組み合わせて隠されたルーターの問題がユーザーに影響を与える前に特定する、PRTG を使用した 3 層のルーター監視ソリューションを紹介しました。ある会計事務所の IT 管理者は、この包括的な監視戦略を導入することにより、ネットワークに関する苦情を解消し、15 時間のダウンタイムを回避しました。このソリューションは、インテリジェントなアラート機能とデータ主導の意思決定により、事後対応型のトラブルシューティングを事前対応型のネットワーク管理へと変革します。

この記事は、Paessler の Blog で公開されている「Router Monitoring with PRTG: When Internet “Works” But Performance Doesn’t.」の日本語参考訳です。