2011年4月1日金曜日

「新しい」技術で「古い」PCを活用

こんにちは。このブログは大変賑やかで楽しそうですね。私も何か記事を書きたくなりました。私は教員のyamafuです。(かって勤務していた会社での職制上の略称が「ヤマフ」でした)最近の高性能パソコンを求める学生さんに遅れを取らないように努力はしています。しかし、その反面、古いパソコンも大切にという思いも捨てきれません。ここでは、7年前に買ったノートPCを今も利用しています、という話を書きます。ちょっとだけ前置きがあります。 

ヤフー、グーグル、アマゾンなどが提供する様々な情報サービスの裏では、極めて大規模なデータ処理がなされていることは、みなさんも想像できるでしょう。それらの処理は、数千台以上のコンピュータ群の連携で行われています。これを大規模分散処理と呼びます。その枠組みを与えるソフトウェアの一つにHADOOPというのがあります。HADOOPはこのような大規模分散処理のためのものですが、大学などでは、少数台のパソコン構成でも試行することができます。そこに、古いパソコンの出番があります。パソコンのOSは、Windowsのままでも可能ですが、Linuxにしてしまった方が、より効率的に使えます。

では、実際に試した状況を示しましょう。HADOOP上で動かすWik-IE( 東京電機大学の森竜也先生が公開)と言うアプリケーションがあります。これは、Wikipedia(Web上の百科事典)のデータファイルを色々な角度から解析します。日本語版のWikipediaのデータファイルは、全体で約6ギガバイトという巨大なものです。今回は、このファイルのデータ構造から、見出し項目(約200万件)だけをすべて抽出することをやってみました。

図のとおり、ノートPC3台構成の小規模HADOOPで動かしました。これら3台は、7年前、6年前、1年前に購入というかなりの強者です。この構成で、上記の解析(抽出)は約15分で完了しました。古いマシンの割にはかなり速くできたと感じました。注目してください!各パソコンの性能にほぼ比例した分量のデータを担当して解析していますね。古くても、教育環境ではまだ使えることが確認できました。

1 件のコメント:

  1. ちょっと補足しますね。コンピュータの性能はCPUのクロック周波数だけで決まるわけではありませんが、ここでは目安としてクロック周波数を使ってよいでしょう。値が大きいほど高速になります。PC3はDual Core(同時に動くCPUが2個)となっています。すなわち、大まかな性能比は、PC1:PC2:PC3=1.0:1.2:3.2となります。処理したデータ量は、21:29:59 = 1.0:1.3:2.8であり、各PCは、ほぼそれぞれの性能に見合った大きさのデータ量を処理していると言えます。

    返信削除