自

 

1.自然な言い回しで検索できます。

2.ノイズが少なく、検索漏れも少なくなります。

ネット上の記事が現在のペースで増えていくと、これまでのようなキーワード検索ではノイズが多いので、早晩限界がくるでしょう。

 

仕組み

 

原文章をすべて構文解析して、係り受け(単語とその直接関係する単語との組み合わせ)をデータベースにしておきます。検索文も同様に係り受けにして検索します。このためキーワードだけで検索する方式に比べてノイズが大幅に減ります。またシソーラスを用いて用語の標準化係り受け関係の正規化をするので、検索漏れも減ります

よく起こる問題を簡単な例を使って説明します。

 

原文章(データベース)

 

紫色の部分をデータベース化します。

 

@     田中さんがおいしそうに食べたりんごは青かった

 

  構文解析、用語標準化、正規化

 

 

 

 「田中さん,が,食べ,た」

 「おいしそう,に,食べ,た」

 

 「食べ,,りんご,は」 → 「リンゴ,を,食べ,た」  係り受けを正規化

 

 「りんご,,,かった」→  リンゴ,が,青,かった」  用語の標準化

 

A     佐藤さんは青いお皿のうえの赤い林檎を食べました

 

  構文解析、用語標準化、正規化

 

 

 

 「佐藤さん,は,食べ,ました」

 

 「,い,お皿,         → 「お皿,,,い       係り受けを正規化

 「お皿,のうえの,林檎,を」 「お皿,のうえの,リンゴ,を」 用語の標準化

 「赤,,林檎,を」      「リンゴ,, ,い」    用語の標準化

 「林檎,,食べ,ました」   「リンゴ,,食べ,ました」  用語の標準化

 

 

 

検索文

 

 検索文も構文解析して係り受けにして、係り受けで検索します。

 このときも正規化、用語の標準化をします。紫色の部分を検索キーにします。

 

青い林檎を食べた

 

  構文解析、用語標準化、正規化

 

 

 

「青,,林檎」    → 「リンゴ,が,青,い」  係り受けを正規化します。

 

 「林檎,,食べ,た」  → 「リンゴ,を,食べ,た」 用語を標準化します。

 

 このようにして@の文だけが検索されます。

 

 これまでのキーワードによる検索では「青い」「林檎」「食べ」という3つの単語で検索することになるので、Aの文を取り出してしまいます。


<関連資料>

構文解析用語の標準化照応


 

お問い合わせ・ご購入はこちらへ

株式会社 言語工学研究所