エキサイトブログ
|
検索
wrong, rogue and log
大規模インフラ個人運用:AWS+Hadoopの成功例
▼
これは
西村さん
[外部リンク]からTwitterで教えてもらったことなのであるが、
AWS
+
Hadoop
[外部リンク]の幸せな成功例である:
Self-service, Prorated Super Computing Fun!
[外部リンク]
NY Timesが過去のアーカイブを含めてすべて無料化した
わけだが、そのシステム的な移行措置として過去のスキャンしたTIFF画像をPDFに変換する必要があったのだ。TIFFのサイズは合わせて4TBという巨大さ。
これを行うのに次の構成をとったそうだ:PDF変換に
iText
[外部リンク]を用いる。変換するマシンはAWS上の100インスタンスを
Hadoop
[外部リンク]で
MapReduce
[外部リンク]構成をとることで並列化した。これによりすべてのPDF変換(なんと成果物は1.5TB)が、24時間未満の時間で終了したのだ。そして作業をしたのは、一人のプログラマだけである。
だから言った
でしょ。もう時代は一人大規模サービスの時代なんですよ。そのためのインフラはちょっと工夫すれば、もう個人の手に入るんですよ。だからこそ、
GoogleよりもAmazonのほうが革命的
なのだ。
上記のサイズのジョブだと設定含めて36時間回したとして、AWSの課金では$600-$700ですよ。4TBのTIFFのPDF変換なんて、業者に頼んだらいくらになるか想像がつかない。ちょっと大ざっぱな計算をしてみよう。ソースは1ページ10MBとして400,000ページ。いま
ここ
[外部リンク]を見ると、TIFF->PDF変換の変換料が1ページ150円だそう。だから、400,000ページで60,000,000円、つまり変換料になんと6千万円。まあ、実際はバルク料金になるだろうから、6千万なんて金額にはならずに500万円以下くらいでやってくれると思う。でも、一方でAWS60,000円+人件費(おそらく2日くらいか、120,000円) = 18万円なり。
どうですか、もうこういう世の中なのですよ。
by yutakashino
(2008/05/21 0:59)
IT
コメント0件
トラックバック0件
(*)前へ
次へ(#)
コメントする
リンクする
特集
ゆるキャラデコメ特集
今流行のゆるキャラ満載!
wrong, rogue and log
ログイン
エキサイトブログトップ
エキサイトモバイル
ヘルプ
上へ
(C)Excite Japan