自
然
文
検
索
1.自然な言い回しで検索できます。
2.ノイズが少なく、検索漏れも少なくなります。
ネット上の記事が現在のペースで増えていくと、これまでのようなキーワード検索ではノイズが多いので、早晩限界がくるでしょう。
![]()
仕組み
原文章をすべて構文解析して、係り受け(単語とその直接関係する単語との組み合わせ)をデータベースにしておきます。検索文も同様に係り受けにして検索します。このためキーワードだけで検索する方式に比べてノイズが大幅に減ります。またシソーラスを用いて用語の標準化、係り受け関係の正規化をするので、検索漏れも減ります。
よく起こる問題を簡単な例を使って説明します。
![]()
原文章(データベース)
紫色の部分をデータベース化します。
@ 「田中さんがおいしそうに食べたりんごは青かった」

構文解析、用語標準化、正規化
![]()
「田中さん,が,食べ,た」
![]()
「おいしそう,に,食べ,た」
「食べ,た,りんご,は」 → 「リンゴ,を,食べ,た」 係り受けを正規化
「りんご,は,青,かった」→
「リンゴ,が,青,かった」
用語の標準化
A 「佐藤さんは青いお皿のうえの赤い林檎を食べました」

構文解析、用語標準化、正規化
![]()
「佐藤さん,は,食べ,ました」
「青,い,お皿,」 → 「お皿,が,青,い」
係り受けを正規化
![]()
「お皿,のうえの,林檎,を」 → 「お皿,のうえの,リンゴ,を」 用語の標準化
「赤,い,林檎,を」 → 「リンゴ,が, 赤,い」 用語の標準化
「林檎,を,食べ,ました」 → 「リンゴ,を,食べ,ました」 用語の標準化
検索文
検索文も構文解析して係り受けにして、係り受けで検索します。
このときも正規化、用語の標準化をします。紫色の部分を検索キーにします。
「青い林檎を食べた」

構文解析、用語標準化、正規化
![]()
「青,い,林檎」 → 「リンゴ,が,青,い」 係り受けを正規化します。
「林檎,を,食べ,た」 → 「リンゴ,を,食べ,た」 用語を標準化します。
このようにして@の文だけが検索されます。
これまでのキーワードによる検索では「青い」「林檎」「食べ」という3つの単語で検索することになるので、Aの文を取り出してしまいます。
<関連資料>