2023-10-22~30の障害について

17

はじめに大規模な長期間に及ぶ障害を発生させてしまい申し訳ございません。

ここではその説明と対応について説明します。

時系列

2023-10-22 障害発生
2023-10-27 現地到着&確認
2023-10-28 SSDからデーター復元開始
2023-10-29 一部回復

原因

アプリケーションサーバーに利用していたアプリケーションを処理するSSDのOSの警告により読み込みが停止された。

なお、リカバリモードにすれば起動するとかできなく物理的にSSDを交換する必要が発生しました。

よって、OSがいかなる経路からも起動せずアプリケーションも起動しなくなった。

長期に渡った理由

当サービスは6時間毎にバックアップを行なっていましたが資金面により急遽別のサーバーを準備することができませんでした。

当サービスに要求されるサーバーは16GB以上のRAMを要求する為強力なVPSが必要になりました。

対応

不安定なSSDを信頼性のあるHDDに交換しました。

予定されている対応

また、いつでもアプリケーションサーバーがダウンしても問題ない様にVPSを契約する予算を準備します。

よくある質問

なぜ、現地到着後バックアップを適応しなかったか

SSDからデーターを吸い出せた為6時間の時差を埋めることが可能だと判断した為

バックアップ6時間毎は十分か

帯域とマシーンの性能的に私のチューニングだと限界です。

その為バックアップ以外の方法でデーターの安全性を高める必要があります。データーをミラーリングするなど。


コメントを入力


スパム以外は承認する予定です。何卒。

コメントを投稿するにはhCaptchaの解除が必要です最も簡単な設定にしてありますのでお手数ですが解除をしてください


f631798db450cbbf8b78c692bffac415.webp

Misskey.pm Telegram Twitter GitHub blog.nauzome.com nauzome.org