ネットワーク

【AristaTIPS】レイヤー1障害のトラブルシューティング

こんにちは。Arista Networks ヘルプデスク担当のNoryです。

Aristaチームでは、ポートのLink down、Link flapなどの
レイヤー1障害についてよくお問い合わせ頂きます。
そこで、こうしたレイヤー1障害に対する、
Aristaスイッチ製品での基本的なトラブルシューティングをまとめていきたいと思います。

調査に必要なログ
基本的にはshow tech-supportがあれば十分です。頂けるととても助かります。
(状況によって、もしかしたら更にログをご取得頂くことも・・・)

show loggingでの関連ログ
Aristaヘルプデスクでは以下の2種類が多いです。

ポートのLink down/up

%LINEPROTO-5-UPDOWN: Line protocol on Interface Ethernet1, changed state to down
%LINEPROTO-5-UPDOWN: Line protocol on Interface Ethernet1, changed state to up

このポートdownに伴い、BGPやLAGなどの変動が共に出力されていたりします。
ですが、その他は状況把握として確認するものの、根本はこのポートdownなので、そこに焦点を当てて調査をします。
このパターンは原因が多岐に渡ります。

Transceiverの光レベル異常
Arista Networks製品は、トランシーバーの温度、送光/受光レベルに対し、製品ごとに閾値が設定されています。
その閾値を超過している=異常が起きているということになります。
下記は光の受光レベルが閾値を下回ったときのログ例です。

%LAYER1MONITOR-3-RXPOWER_THRESHOLD_LOW_ALARM: Ethernet1 receive power is -14.32dBm, which is at or below the alarm threshold of -13.50dBm.

同じように、show interfaces transceiver detail でも閾値を下回っていることが確認できます。
これも一概には言えませんが、トランシーバーや光ケーブルの端面の汚れや傷によって引き起こされることが多い印象です。

                                 High Alarm  High Warn  Low Alarm   Low Warn
              Rx Power   Threshold    Threshold   Threshold    Threshold
 Port       (dBm)        (dBm)          (dBm)          (dBm)         (dBm)
 ———   ————-  —————  ————–  —————  ————–
 Et1         -14.32        4.50             3.50            -13.50          -12.50

トラブルシューティング1
まずは私たちがお客様から頂いたログから、被疑箇所を絞っていきます。
ここではshow tech-supportに含まれるものをご紹介します。

show clock
ログ取得時刻を確認して、後述のエラーカウント時刻の照合に使ったりします。

show logging
Link Down等の発生日時やポートなどの事実確認をします。
ここでの発生日時も後述のエラーカウント時刻の照合に使います。

show inventory
対象ポートに接続されているトランシーバーの製品名、S/Nを確認します。
トラブルシューティングではないですが、ここで確認した情報は後々事務処理で使うので見ています。

show interfaces mac detail
ここでは以下項目のカウントアップの状況を見て、自側か対向側、
どちらに原因があるのかを絞っていきます。

 MAC Rx Local Fault :自身が受信できていない=対向側が怪しい!
 MAC Rx Remote Fault:送った信号が対向側で問題となっている=自側が怪しい!

以下例のように、直近でカウントアップした時刻(Last Change)と事象発生時刻などを照合し、
カウントアップが事象発生時のものかを確認します。

例:
===================================================================================================
1月1日 の 20:56:50 に Link Downが発生。

Jan 1 20:56:50 SW1 Ebra: %LINEPROTO-5-UPDOWN: Line protocol on Interface Ethernet1, changed state to down

Remote Fault の最後のカウントアップは3分半前に起きているようです。

  Ethernet1
                                           Current State   Changes                          Last Change
   PHY State                        linkUp              13                                     0:03:34 ago
   Interface State                 linkUp              13                                      0:03:31 ago
   MAC Rx Local Fault         False                 2                     844 days, 2:11:16 ago
   MAC Rx Remote Fault     False               13                                     0:03:31 ago

show clockの時刻からLast Changeを引きカウントアップ時刻を算出します。
 Fri Jan 1 21:00:00 2022 - 0:03:00 = 1月1日 20:57:00 にカウントアップしたことが分かります。

Link Down時刻(1月1日 20:56:50)と近いことから、関連しているカウントアップだと分かりました。
そしてこの例ではRemote Faultがカウントアップしているので、
自側被疑である可能性が高いと判断します。
===================================================================================================

この時点で例のように発生時にカウントアップが確認できれば、おおよその被疑箇所が絞れます。
※あくまでも可能性のお話で、この被疑箇所が確実とは言い切れないのが辛いところです。

反対に受光側に問題が見られる(上記でいうLocal Faultのカウントアップがある)場合、
更に深堀するためには次の部分を見ることがあります。

show interfaces phy detail
以下項目のカウントアップで受信異常がないかを確認していきます。
===============================================================================
 PCS RX link status      :PCSレイヤーで信号をロックできているか

 PCS block lock       :受信しているPCSブロックをロックできているか
 PMA/PMD RX signal detect:自分が信号を受信できているか
 PCS err blocks       :Ethernetのブロック同期に問題がある場合にエラーをカウントする
 PCS BER          :信号を受信するまでの過程(*)に問題がある可能性
  *ケーブル/パッチ/結合部汚れ、ケーブル長/ケーブル曲げに伴う送信・受信光への影響など
===============================================================================

・・・これらのログでも被疑箇所が絞れないことは沢山あります。
そして答えに辿り着くには、どうしても物理のトラブルシューティングが必要不可欠になります。
そのために現地のお客様のご協力が必要になってしまうので、ヘルプデスクとしては歯痒い部分です。

トラブルシューティング2
次はいよいよ物理的なトラブルシューティングに入ります。

使用しているトランシーバーの種類(SFP、DAC、AOC等)など形状により多少異なりますが、
Aristaヘルプデスクではお客様へ以下順番でトラブルシューティングのご協力をお願いしています。

1. トランシーバや光ケーブルが汚れていないか?
ゴミや汚れの付着によりSFPの接触不良が起きたり、光レベルが低下したりはL1あるあるです。
なので、まずはこれらを一度取り外していただき、綺麗に清掃して頂きます。
==============================================================================
 SFP・・・エアダスターを吹きかけて埃などを飛ばす
 光ケーブル・・・コネクタ形状にあわせクレトップやクリーナーペンで端面を綺麗にする
 UTP・・・クリーニングクロス等で拭き取って綺麗にする
==============================================================================

2. トランシーバ故障ではないか?
次に、SFPやDACなどを交換いただきます。
※ご契約内容により、弊社協力会社から良品を配送し、到着後に交換頂くこともあります。

3. ケーブル故障ではないか?
特に光ケーブルはUTPと比べ繊細です。曲げすぎればパキッと折れて使い物にならなくなります。
折れてしまうと丸ごと交換か、技術者による「光ファイバーの融着」などが必要になります。
ただ長距離敷設している光ケーブルだと「どこが折れた?」かを知るために「OTDR」といった専用機器を使う必要があったり、
それが結構お高いので持っていなかったりすると、丸ごと敷設となるケースもあり、大がかりな作業になってしまうかもしれません。。。

UTPでもラックドアに挟んでしまったり、断線するケースもたまにはあったりします。
なので、ここまでの流れで回復しない場合は交換頂くこともあります。

4. スイッチ本体のポート故障ではないか?
ここまでやって回復しない場合、スイッチ本体のポートそのものが故障している可能性があります。
先に清掃や交換いただいたトランシーバやケーブルが無事かを一度確認する必要があるので、
それらを他のポートで問題なく利用できるかを確認頂きます。
空きポートや他筐体のポートで利用可能であれば、スイッチ本体のポート不良である可能性が高いと言えます。

被疑品の交換対応
ヘルプデスクでは、ここまでのトラブルシューティングで被疑箇所が確定した場合、
具体的にはSFPや本体ポートなどご契約中のArista製品の故障が判明した場合ですが、良品との交換対応へ移ります。
ご契約内容によりますが、お客様へ良品をお届けするのとは別に、私たちは裏でメーカー(Arista社)へここまでの状況を伝え、RMA(Return Merchandise Authorization)処理を依頼し、故障品と良品を交換する対応をしていたりします。
ここまで書いたトラブルシューティングを実施しているのには、このRMAをすんなり通す意味も含まれていたりします。

要は、故障疑いのある物品が「本当に壊れているんだよ」をトラブルシューティング結果をもって明示する必要があるのです。。。

最後に
今回はネットワーク屋の基礎中の基礎、レイヤー1障害に焦点を当てて書いてみました。
少しは参考になったでしょうか?

Aristaヘルプデスクからは基礎的な情報を、このブログを通してお届けしていきますので、
今更な情報も多いかもしれませんが、参考になれば幸いです。

これからもArista Networks製品と私たちヘルプデスクをよろしくお願いいたします。

<関連記事はこちら>

【AristaTIPS】予期せぬ再起動について