Arista パリティエラーの対応方法について
Aristaスイッチのメモリーコンポーネントで稀に発生するパリティエラー(ビット反転)の対応方法について説明します。
Aristaスイッチはパリティエラーが発生すると、自動的にそれを修正しますが、一部のスイッチでこれらのエラーを検出せず、パリティエラーの発生を判断できないものもあります。
パリティエラーのログの出力例)とその対応方法について説明します。
1)Error — HARDWARE-3-FPGA_ERROR: Hardware error occurred on an FPGA
FpgaAgent: %HARDWARE-3-FPGA_ERROR: Hardware error occurred on an FPGA in the card Linecard3. Reason: CRC error pin Zuma0CrcErr asserted due to corrected error. Power cycle the card to clear the error
(OR)
FpgaAgent: %HARDWARE-3-FPGA_ERROR_SYSTEM: Hardware error occurred on an FPGA in the system. Reason: CRC error. Power cycle the system to clear the error.
ログの意味)
7500 スイッチのラインカード 3 の FPGA/SCD(システム制御デバイス)でビット反転が検出されたことを示しています。
これは7280R/R2/R3 システムでも出力されます。
対応方法)
1. FPGAはかなり大きく、システム機能にとって重要なのは小さなセクションだけであるため、エラーによる不正な動作に気付かないかもしれません。ただし、エラーが修正されなかったため、Aristaは、エラーをクリアするために、影響を受けるラインカードまたはスイッチの電源を入れ直すために、できるだけ早くメンテナンスウィンドウをスケジュールすることをお勧めします。
2. 再起動後もエラーが続く場合は、当社サポート窓口に連絡して調査を依頼してください。
2)Error – Jerp_INT_KAPS
SandFap: %SAND-3-INTERRUPT_OCCURRED: Interrupt JERP_INT_KAPS_ECC_1B_ERR_INT on Jericho4/0. KAPS ECC error in block 5
ログの意味)
プレフィックス検索または KAPS でパリティ エラーが発生したことを示しています。
KAPS は、IPv4 エントリと IPv6 エントリの両方のハードウェア転送テーブルのプログラミングに使用されます。
このメッセージは、ルート検索中に LPM テーブルで 1 ビット ECC エラーが発生したことを示しています。
エラーはハードウェアによって修正されるため、パフォーマンスへの影響はありません。
対応方法)
1. 7280R2 7500R2 プラットフォームでは、EOS 4.25.7、4.26.7、4.27.1 に拡張機能が追加され、KAP ハードウェア テーブルの未使用部分のエラーをネイティブに処理できるようになりました。
エラーが停止した場合は、スイッチでさらに発生していないか監視します。
エラーが続く場合は、一時的なエラーをクリアするために、スイッチを再起動するメンテナンスウィンドウをスケジュールしてください。
2. 再起動後に同じエラーが発生した場合は、当社サポート窓口に連絡して調査を依頼してください。
3)Error — PCIE_FATAL_ERROR: Uncorrectable Fatal PCIe Error
PciBus: %HARDWARE-3-PCIE_FATAL_ERROR: Uncorrectable Fatal PCIe Error detected. PCI device name: SwitchlowerPlx8717Switch:BridgeBr1, address: 02:01.0, error count: 1
(OR)
PciBus: %HARDWARE-4-PCIE_NONFATAL_ERROR: Uncorrectable Non-Fatal PCIe Error detected. PCI device name: Jericho0, address: 02:00.0, error count: 2.
ログの意味)
PCIe はエラーが発生したシステム バスであり、エラーは修正できませんでした。
修正されていないエラーは内部通信の問題を引き起こす可能性があります。
対応方法)
1. スケジュールされたメンテナンス ウィンドウ期間にスイッチの電源を入れ直してください。
再度同じ事象が発生しないか監視することをお勧めします。
2. 再起動しても問題が解決しない場合は、当社サポート窓口に連絡して調査を依頼してください。
4)Error – HARDWARE-6-PERR_CORRECTED: SDK
Mar 31 12:57:03 switch1 Strata: %HARDWARE-6-PERR_CORRECTED: SDK corrected a parity error in a Strata switching ASIC (chip: Linecard7/0, table: 5256 (MMU_PKT_LINK), index: 2612, address: 0x10020a34)
ログの意味)
1. パリティー・エラーが発生した場所と、それが修正されたことを示します。
この場合、エラーは LC7、ASIC 0 で発生しています。
2. メッセージが繰り返されているかどうか、または新しいエラーではないかどうかは、インデックスとアドレスが同じかどうかを確認することで確認できます。
この場合はインデックス2612とアドレス0x10020a34です。
対応方法)
1. メッセージが繰り返されない場合は、ログを監視します。
2. メッセージが同じメモリ位置で繰り返され、修正されない場合は、モジュラースイッチのチップをリセットするか、メンテナンスウィンドウ中にスイッチを再起動します。
モジュラスイッチチップをリセットする例)
switch#platform trident Lincecard7/0 reset
3. 1と2の手順で問題が解決しない場合は、当社サポート窓口に連絡して調査を依頼してください。
5)Error — HARDWARE-4-PERR_FATAL
Strata: %HARDWARE-4-PERR_FATAL: Fatal register parity error occurred in a Strata switching ASIC
ログの意味)
1. 致命的なパリティエラーは、スイッチがクラッシュしようとしていることを意味するものではありません。
致命的なパリティ エラーは、スイッチがそれ自体で修正できなかったパリティ エラーです。
対応方法)
1. メンテナンス期間中にスイッチを再起動して、一時的なエラーをクリアします。
2. 再起動でエラーが解決しない場合は、当社サポート窓口に連絡して調査を依頼してください。
Aristaスイッチのパリティエラーについて、今回は例)をもとにその対応方法について説明しました。
ご質問等御座いましたら、当社サポート窓口までお問い合わせいただけますと幸いです。
※本内容は、Arista社のドキュメント等より情報を抜粋し東京エレクトロンデバイスにて記事としてまとめたものとなります。