- NAMAAN Staff UMAブログ -   rss

« NAMAANスタッフブログを開設しました | メイン | NAMAANスタッフの一日 »

2006年05月31日

NAMAANの卒論がHackされました

大崎@NAMAAN UMAです
先日ですが、とうとう私の卒業論文が発見されてしまいまして
今日の井原 - blog検索エンジン「NAMAAN」の中身
にてHackされておりました。
井原さんありがとうございます。

今までは、人が発表している内容をHackしている立場だったんですが、
自分の発表しているものがHackされるのは初めの体験で恥ずかしさのあまり、
NAMAAN事務所では大騒ぎしてしまいました。。。

さて、井原さんがブログにて紹介されていますが、恥ずかしながら著者として
論文の内容について簡単に紹介したいと思います。

論文ではNAMAANのシステム概要を簡単ですが説明しています。
現在のNAMAANは、論文に書いてありますように。オープンソースのNamazuを利
用して並列検索システムを実現しています。
NAMAZUを選択した理由は、非常に高機能で構築が簡単だったためです。

ですが、テスト開発を開始するとNamazuには...
 ・XMLのインデックスパーサが標準ではない。
 ・インデックスが巨大になると遅くなる。
 ・逆にインデックスが細かいのが多くても余計に遅い。
 ・データ量が多いとインデックス処理が遅くなってしまう。
 ・Namazuの標準インデックス処理には、Namaanでは必要の無い余計な処理も
  あった。
 ・ハイライト処理も貧弱。
 ・形態素解析はChasen?Kakashi?Mecabがいいのか?
 
等など、数多くの問題点がNamazuにはありました。。。
インデックス処理が遅い件に関しては、Perlで書かれているのが原因だと思い、
Cで書き無そうかとも考えましたが、とりあえずソースを変更してNAMAAN独自
のチューニングを行っています。

またNamazuには、サーバ間での並列検索処理機能が備わっていません。
そのためNAMAANでは、検索とインデックス作成部分のプログラムに関しては
Namazuの上に並列プログラムを書くことで、独自の並列検索システムを実現し
ています。

このシステムにより、サーバを追加することで簡単に検索データ量と処理の高
速化が可能なシステムになっています。

しかし、現在のシステムはまだまだ未熟なところが多く、次期システムは現状
の検索システムの不満点、改善点を洗い出して一から設計をしています。

この件については、今後このブログでお話していきたいと思っています。

今後ともNAMAANをよろしくお願い致します。

投稿者 staff : 2006年05月31日 12:00 このエントリーを含むはてなブックマーク このエントリーをはてなブックマークに追加 このエントリーをnewsingに追加 このエントリーをdel.icio.usに追加 このエントリーをlivedoor クリップに追加 このエントリーをPOOKMARKに追加

トラックバック

このエントリーのトラックバックURL:
http://blog.namaan.net/MT_Admin/mt-tb.cgi/83

コメント

コメントしてください




保存しますか?

(書式を変更するような一部のHTMLタグを使うことができます)