Thursday 6 December 2007

2台でも安心できない



2006年のシステム更新(単年度のみ)の直前は、学科のサーバが落ちまくってました。

 http://mixi.jp/view_diary.pl?id=29095341&owner_id=2510

このあたりとか。RAIDサーバ2台も同時に壊れるとかいう技を出してたし。

でも、原因もわかっていて、2002年のシステム更新の時にサーバを安物にしすぎたからからなんだよな。まぁ、2005年まで持ったんだから悪くはないんだけど。

どうして2005年になって落ちまくったってのも原因があって、ハードディスクを増設して電源容量が足りなくなったから。このあたりだと、個々の電源の個体差あたりも効いていたらしい。そういえば、Sun Enterprise 3000 が入っていた時も、ハードディスクを増設した直後にふっ飛ばしているんだよな。あの時も結構困ったっけ。ソフトウェアのライセンスサーバがSunだったので。ハードディスクが高回転化して電力食うようになった頃だったんだよな。

RAIDは基本的に信用してないので、HDD8台のRAIDを2台使ってました。最初は1台だったのだが、とらぶったのを機に1台増やしました。これも、Logitech の安物で、かなり壊れました。移行した時には2台とも壊れてました。

そういうわけなので、2005年はかなり不幸だった記憶がある。でも、後半になると、その電源の問題が判明して、一気に安定してしまう。それはそれでつまらない。

 http://mixi.jp/view_diary.pl?id=115381281&owner_id=2510

とかでも書いてるな。

2006年からはHPのDL380 x 4 (RAID x 2), Xserve x 4 (RAID x 2) という構成になって、これが全然落ちない。

 つまんないです。

なので、毎年、Fedora Linux のversion を上げてます。2.5 inch SAS RAID ボードがささっているのだが、これが高速で信頼性が高い。すばらしい。さすが、金かかっているだけある。(2002年に入れたのと10倍ぐらいの差がある... 2002年のがいかに安物だったか...) 微妙にお金が余っていて「Xserve x 4にしようか、HP x 4 にしようか?」「えーい、両方、入れちゃえ」だったはず。

「SASが信頼性が高いなんて神話でしょ。SATAで入れてくれ」って僕が言ったのを業者さんに「お願いですからSASの仕様にして下さい」と言われてSASになったわけなんですが、まぁ、そういうことなのかも。やっぱり、SAS/SATAは選別してんじゃないの?

Cisco のルータもエンジンは二重化してあってホットスタンバイだったのだが、途中から片方壊れていたと言うのが、リース切れした後で発覚してたし。

もっとも、180台のクラスタの方は、順調に落ちていて、楽しめそうです。

No comments: