«前の日記(2008-05-15 (木)) 最新 次の日記(2008-05-23 (金))»  

まちゅダイアリー


2008-05-17 (土)

【作ってみた】Powerset を日本語で検索する Jawerset

Powerset を日本語で検索できるようにする Jawerset を作ってみた。

Jawerset

Powerset は自然な言葉を検索語にできる検索エンジン。 以下のサイトが参考になる。

インターネット検索に3度目の転機が訪れるかも知れないと鳴り物入りで登場したのがPowersetだ(参考記事:Powerset、「質問の答え」を見つけてくれる検索エンジンをβ公開)。自然言語検索の技術を使い、通常の人間の言葉による質問に対して、それに適した回答を探し出してくれる。

グーグルとの違いをひと言で言えば、グーグルが検索キーワードに最も関連のある「ページ」を提示してくれるのに対して、Powersetは「情報そのもの」を提示してくれるということだ。

なんだか面白そうだけど、英語でしか検索できないのがネック(そのうち日本語版もでるらしいけど)。 そこで、翻訳エンジンと組み合わせて、日本語でも検索できるようにしてみた。

やっていること

  • 入力された検索語句(日本語)を英語に変換
  • Powerset で検索
  • 検索結果(英語)を日本語に変換

翻訳エンジンにはGoogle AJAX Language APIを、 Powerset の検索には Yahoo! Pipesを使ってる。 Pipes では、 Fetch Page を使って Powerset のページを取得し、 JSONP に変換している。 自分で作ったのは Powerset のページを取得する Pipesと、呼び出し側の JavaScript だけ。 こんなに簡単に作れるなんて、便利な時代になったなぁ。

そうそう、 Powerset はたまにステータスコード 404 を返してくる(もしかしたら、検索結果が Freebase に見つからなかった時かも)。 なので、普通に Pipes で取得しようとするとエラーになるので、 Fetch Page の時に 404 を 200 に変換するプロキシをかましている。

試してみた

日本語で検索できても英語の Wikipedia しか検索対象にならないので、もちろん日本の情報はあまり出てこない。 あとは、検索語句の日本語から英語への変換はまぁうまくいくけど、検索結果を英語から日本語に変換すると、よく分からない日本語になることが多い。

んで、いくつか検索した結果。

イルカってどうやって呼吸してるの?

Dolphins breathe through a blowhole located on top of their head, with the trachea being anterior to the brain.

イルカ息を介して噴気孔位置に頭の上に、脳への気管の前です。

たどたどしい訳になっちゃった。

うさぎの目はなぜ赤い

Environmental pollution, corneal disease, entropion, distichiasis, or inflammation of the eyes are also causes.

環境汚染、角膜疾患、眼瞼内反、二重睫毛か、または、目の炎症にも原因が考えられます。

ま、マジですか。うさぎも大変だ。

F1の最年少チャンピオンは誰?

Fernando Alonso On September 25 2005 he won the World Driver's Championship title at the age of 24 years and 58 days, thus breaking Emerson Fittipaldi's record of being the youngest F1 champion and is also the youngest double champion.

彼は9月25 2005万ウォンの世界選手権大会タイトルは、運転者の年齢を24歳と58日間、エマーソンフィッティパルディの記録を破るために、最年少のF1チャンピオンとも最年少のダブルチャンピオンになった。

やっぱり訳がたどたどしい。

自然な語句で検索するといえば Office のイルカを思い出すけど、あれはあんまり使われていない印象がある。 流行るかどうかは分かんないけど、今後が楽しみ。

Tags: memo