ネットワーク

【AristaTIPS】予期せぬ再起動について

こんにちは。Arista Networks ヘルプデスク担当のNoryです。

Aristaチームでは、予期しないスイッチの再起動についてお問い合わせ頂くことがあります。
ということで、今回は予期しない再起動が発生した際の、
Aristaスイッチ製品での基本的な確認箇所をまとめていきたいと思います。

調査に必要なログ
基本的にはshow tech-supportをもとに後述のような確認をします。
再起動の原因が分かり、本体交換が必要となった場合にはその他のログを頂くことがあります。

ログ確認
ここではshow tech-supportに含まれるものから被疑箇所を絞っていきます。

show version detail の uptime
時間がリセットされていることで実際に再起動があったことの事実確認をします。

 Uptime:    0 weeks, 0 days, 0 hours and 3 minutes

show version detail の Abootバージョン
Bug-419257に該当していないかを知るため、Abootバージョンを確認します。
詳しくは後述します。

 Component   Version
 —————   ——————————————

 Aboot       Aboot-norcal2-2.0.10-1458058

show reload cause full
直近の再起動理由を確認します。様々な理由が出力されるので詳しくは後述します。

show reload cause history
上記以前の、過去の再起動履歴を見ることもあります。

※show reload causeはサポート終了済みの古いEOSの場合は項目が存在せず、
    原因特定や調査が出来ない可能性が高くなります。

 ですのでEOSバージョンは最新のものを、最低でもサポート範囲内のものに維持が推奨されます。
 東京エレクトロンデバイスの推奨バージョンはコチラで随時更新中です!
 ※当社と保守サポート契約を締結しているお客様向けサイトとなります。

その他
show tech-supportには含まれていませんが、
show agent logs にも以下のような再起動関連のログが記録されていることがあります。

 Ucd9012Agent 0 FixedSystempowerController1: Found reload cause: scdSeuError
 Ucd9012Agent 0 Reload Cause is: scdSeuError

show reload causeの出力例
ここではshow reload causeに出力される様々な再起動理由をご紹介します。

kernel panicによる再起動

 Reload Cause:
 ——————-
 The system rebooted due to a watchdog caused by a kernel panic

 Recommended Action:
 ——————-
 This may indicate a software or hardware problem.
 Contact your customer support representative and provide the contents
 of the “Debugging Information” below.

 Debugging Information:
 ———————-
 ~
 <0>[162353411.110957] scd 0000:00:18.5: scd: CRC error interrupt occurred!
 <0>[162353411.187028] Kernel panic – not syncing: scd_crc_error detected, system will reboot.


SEUエラー()による再起動

 Reload Cause:
 ——————-
 The system rebooted due to an SEU error on the Scd
 
 Recommended Action:
 ——————-
 Software detected that the switch rebooted due to an SEU error on the Scd.
 If the problem persists, contact your customer support representative.
 
 Debugging Information:
 ———————-
 None available.

*SEUエラー
 single-event upsetエラー。Aristaスイッチのメモリコンポーネントで稀に発生する
 予期せぬ状態変化とのことです。


電源不足による再起動(電源ケーブル抜去、OAタップ故障等)

 Reload Cause:
 ————————————
 The system rebooted due to a Power Loss


CLIコマンド経由での再起動

 Reload Cause:
 ————————————
 Reload requested by the user.


再起動理由がない(Unknown)

 Reload Cause:
 ————-
 Unknown

 こちらは以下のようなBugの可能性があります。
  (1)Bug-419257(Field Notice0044:CPUサブシステムの競合によるECCエラー)
  (2)Bug-623392(内部CPUエラー)
 1の場合についてはパッチ適用が必要ですので、次の項目で詳しく説明します。
 2の場合は該当するか否かも含め、メーカーへ詳細調査を依頼することになります。

Aboot()バージョンの確認
Bug-419257(Field Notice0044)に該当しているかを確認するため、
show version detail の下の方にあるAbootバージョンがBug対象でないかを確認します。

*Abootとは
 Abootとは、Aristaスイッチのブートローダーです。
 スイッチの電源起動後、EOSがロードされる前にROMからAbootプロセスが起動し、
 Abootが/mnt/flash/boot-configを読み取ったのち、選択したEOSを起動します。

 EOSの起動に加え、起動パラメータの変更、デフォルトのスイッチ設定の復元、
 ハードウェアの問題の診断、スイッチファイル管理のためのシェル実行など、
 Aboot単体でシステムメンテナンスのためのコマンドが利用できたりします。
 例:EOSが正しく起動しない場合に工場出荷時に戻す
   パスワードを忘れたときにstartup-configを手修正する 等

[Bug対象バージョン]
 6.1.7または6.0.9より前のAboot6 BIOSバージョン
 4.1.1または4.0.7より前のAboot4 BIOSバージョン

 例)6.0.8ですので、対象バージョン「6.0.9より前」に該当している場合

 Component  Version
 —————  —————————————-
 Aboot      Aboot-norcal6-6.0.8-4777726

 対象バージョンに該当している場合はコチラの手順に従って、
 パッチ適用によるAbootバージョンアップが必要になります。

調査後の流れ
初めて発生した場合、かつ一過性の再起動であった場合は、経過観察をご案内することが多いです。

再発の場合、これは初回と全く同じ原因要因だった場合に限りますが、
メーカー調査のもと本体故障と見なされた場合には良品との交換対応へ移ります。

ご契約内容によりますが、お客様へ良品をお届けするのとは別に、
私たちは裏でメーカー(Arista社)へここまでの状況を伝え、メーカー側でも詳細調査が行われた後、
RMA(Return Merchandise Authorization)処理を依頼し、故障品と良品を交換する対応をしていたりします。

最後に
今回はネットワーク製品あるあるの予期せぬ再起動について書いてみました。
少しは参考になったでしょうか?

Aristaヘルプデスクからは基礎的な情報を、このブログを通してお届けしていきますので、
今更な情報も多いかもしれませんが、参考になれば幸いです。

これからもArista Networks製品と私たちヘルプデスクをよろしくお願いいたします。