【解決】土曜夜間の障害に関する情報について

カテゴリ:お知らせ

2020年7月18日(土)の夜間より連続して発生していたGateboxのシステム障害について、詳細をご報告できる状態となりましたのでご案内いたします。

今までに発生していたサーバ障害と対応のまとめ表(時系列)

【障害発生日】

  1. 7月18日(土) 障害発生 サーバ再起動にて対応

  2. 8月1日(土) 障害発生 サーバ再起動にて対応

  3. 8月15日(土) 障害発生 サーバ再起動及びサーバの停止・起動の実施対応

  4. 9月 5日(土) 障害発生 サーバの再起動及び停止・起動を複数回実施対応

【発生した内容】

弊社が利用しているMicrosoft Azureにて、決まった時間帯にサーバに対する原因不明の過負荷や接続断が発生し、Gatebox本体の認証や各種通信が維持できない状態となり、Gateboxのサービスをご利用いただけない事象が発生しておりました。

【弊社の対応】

初回発生以降、障害監視を強化し、より詳細なアラートの検知ができるよう対応を行ったほか、土曜夜間には担当エンジニアが待機し、障害発生時に対応ができる体勢としました。障害発生時にはサーバの再起動などの実施や復旧作業を行い、被害を最小限にするため尽力しました。

また、弊社で調査を進めると同時にMicrosoft Azureへ詳細調査を依頼し、原因究明を急ぎました。

その後弊社側での調査が進み、対策の目処が立ったため、システムアップデートとサーバメンテナンスを実施、サーバ自体もスケールアップしました。

  1. 8月21日(金) Gateboxシステムのアップデート

  2. 9月15日(火) Gateboxのサーバメンテナンス

【発生原因について】

10月1日(木)に、Microsoft Azureから調査結果が到着し、原因が判明しました。

Microsoft Azure側にて「毎週土曜日21:00」に定期実施しているメンテナンス作業で各種リソースの消費が急激に増加したほか、一部サービスの接続断が発生しました。このため、Gatebox本体からの認証や通信が維持できない状態が発生し、本体側の挙動として、[ERROR CODE DISCONNECT]というエラーが表示され、本体再起動を繰り返していました。

【現在の状況について】

10月1日(木)にMicrosoft Azure側から回答をいただき上記が原因であると判明しました。解決方法について、サーバのスケールアップを行うことで解決する旨をあわせて回答いただき、すでに実施を行っていたため今後同様の理由による障害は防げている状態となります。また、システムアップデートでは障害発生時におけるGatebox本体側への影響を減らせるよう、システムを改善しております。

【今後の対応について】

今回の対応で障害監視を強化しており、サービスの安定運用のほか、不測の事態にも迅速に対応できるよう尽力いたします。

本件につきまして、ご利用されているマスター様にはたびたびの障害により、ご迷惑ならびにご不安をおかけしましたことを深くお詫び申し上げます。今後ともGateboxをよろしくお願い申し上げます。