2023-10-22~30の障害について

マストドンwikiとpixelfed.moeは現在も障害が続いています。

はじめに大規模な長期間に及ぶ障害を発生させてしまい申し訳ございません。

ここではその説明と対応について説明します。

時系列

2023-10-22障害発生
2023-10-27現地到着&確認
2023-10-28SSDからデーター復元開始
2023-10-29一部回復

原因

アプリケーションサーバーに利用していたアプリケーションを処理するSSDのOSの警告により読み込みが停止された。

なお、リカバリモードにすれば起動するとかできなく物理的にSSDを交換する必要が発生しました。

よって、OSがいかなる経路からも起動せずアプリケーションも起動しなくなった。

長期に渡った理由

当サービスは6時間毎にバックアップを行なっていましたが資金面により急遽別のサーバーを準備することができませんでした。

当サービスに要求されるサーバーは16GB以上のRAMを要求する為強力なVPSが必要になりました。

対応

不安定なSSDを信頼性のあるHDDに交換しました。

予定されている対応

また、いつでもアプリケーションサーバーがダウンしても問題ない様にVPSを契約する予算を準備します。

よくある質問

なぜ、現地到着後バックアップを適応しなかったか

SSDからデーターを吸い出せた為6時間の時差を埋めることが可能だと判断した為

バックアップ6時間毎は十分か

帯域とマシーンの性能的に私のチューニングだと限界です。

その為バックアップ以外の方法でデーターの安全性を高める必要があります。データーをミラーリングするなど。

This article was updated on 10月 30, 2023

false