サーバーの台数を増やして アクセスを分散させる方法です
具体例としては、サーバー管理委託会社の作業ミスや、導入したデータベースへの知識不足による設定ミスなどが挙げられます。
搭載HDDが多くなれば、それだけ物理的な負荷が増えるため、トラブルが発生する可能性が高くなる。しかも、大規模なサーバーでは、容量が大きいことによる単純なデータ抽出時間の増大だけでなく、通常のファイル復旧ツールでは対応していないデータ構造になっている場合もあるため、復旧作業の難易度も非常に高くなる。
「大容量で安価なHDDが増えたことでデータ容量が増大していますが、それによってデータを復旧するために時間はかかりますし、大容量を実現するために特別なファイルシステムを採用することも増えていて、復旧難易度が大きく高まっています。そこは技術的に戦っていかなければならない部分ですが、お客様の側でも、大容量HDDやサーバーシステムは一度故障すると復旧難易度が高いことを前提とした対策を取る必要があると思います。たとえば、コンシューマ向けHDDはNASやサーバー向けHDDに比べると故障率が高いので、データ保存用には、なるべく高品質なHDDを使うようにすることも重要になってくると思います」(井瀧氏)。
ハードウェア故障の原因が老朽化によるものであれば、これを機に、老朽化を気にしなくて良いクラウドサーバーに切り替えるのがおすすめです。
さらに井瀧氏は、近年増加しているデータセンターに関する事例も挙げた。ある企業がサーバーを計画停電のため事前にシャットダウンした後、停電解消後に電源を⼊れても起動せず、データセンターへ出張復旧したというケースだ。「定期的に再起動するたびに、ファイルシステムやデータを修復する機能がOSとして備わっていたりする。が、24時間稼働し続けるサーバーだと再起動できず、裏で破損が進んでしまうことがある。複数のHDDを組み合わせて耐障害性を高めるRAIDにするだけで安心しがちだが、この例ではそもそもRAIDを制御するコントローラーの方にも異常があった」という。
サーバーの台数を増やして、アクセスを分散させる方法です。
ハードウェアの故障によってサーバーダウンした場合は、ハードウェアを修理または交換する必要があります。まずはマニュアルを読んで対応するのがおすすめです。
このため、同氏はサーバー筐体側のRAIDコントローラーの故障とRAID設定を修復。4台でRAID設定していたHDDのうち1台に物理障害が発生して復旧不可となっていたため、他の3台からデータ抽出したのち、RAIDの仕組みを用いて4台分のデータ復旧に成功した。かかった時間は1~2日程度。「他社ではHDDのデータ復旧は得意でも、基板やコントローラー、RAIDの設定なども含めて対応できるところはほとんどない。他社がやっていない、機器全体を元通りにして復旧する、ということができるのが我々の強みでもある」と井瀧氏は話す。データをクラウド化しているからといって決して安全ではなく、突然故障するリスクとは常に隣り合わせということが分かる一例だ。
ネットワーク回線の帯域が狭いと通信量も少なく、すぐに許容量を超えてしまいますが、広い帯域の回線に変更して最適化することで、アクセス集中によるサーバーダウンを防ぐことができます。
デジタルデータリカバリーでは、2020年に容量が100~300TBクラスのデータサーバーの復旧依頼が立て続けに入ったそうだ。HDDが44本入った容量300TBの大容量サーバーの事例では、HDDに論理障害が発生して、ファイルシステムが壊れた状態になっていた。
ただし、自然災害によって自社にあるサーバーが破損するような状況では、予備のサーバーも同時に災害の被害に遭ってしまう場合も多く、復旧が長引いてしまいます。
アクセスが集中してサーバーダウンが起こった場合は、アクセスの集中が収まれば自然に復旧します。
自然災害でサーバーがダウンした場合は、その状況によって対処します。著しい破損や水没などの場合は、予備のサーバーを利用して、バックアップデータから復旧します。
サーバーがダウンした際に異音や異臭などがあれば、ハードディスクが故障している可能性が高いです。しかし、むやみに動かすとよりサーバー内部にダメージを与えて、プロの修理業者でも復旧が難しくなってしまう可能性があります。
本記事をまとめると、サーバーダウンが起こる主な原因は以下の5つです。