記事と記事との意味的な距離を測る

 

 記事と記事との距離を説明する前に用語同士の距離を定義します。

これまでわが国には本格的なシソーラスがなかったので、用語同士の意味的な距離を、同一文内での共起頻度で代用をしていました。同義語、表記の揺れのように本当に意味の近い言葉同士の距離は、同じ文に現れることがほとんどないのであまり意味がありませんでした。

 

用語同士の距離とは

 

木構造のシソーラスの構造上の距離で用語と用語の距離を測ります。

 

関係語の2つの用語間の距離を次のように定義しました。

    表記の揺れ   0

    同義語     1

    広義語/狭義語 2

    反義語     2

    関連語     4

    共起語     2

 

3番目の用語との距離は2つの距離を加算しました。


洋犬」と「シバイヌ」の距離は「洋犬」・「和犬」の距離4に「和犬」と「シバイヌ」の距離2を加算して6としました。

 


多義語を区別する

 

このような距離を測るシステムでは多義語が問題になることがあります。例えば「お稲荷さん」には2つの意味があります。

                                距離

        お稲荷さん − 稲荷神社   1

        お稲荷さん − いなりずし 1

 

多義語を意味で区別しないシステムでは「稲荷神社」−「おいなりさん」−「いなりずし」との意味的な距離は2になってしまいます。我々のシステムでは「おいなりさん」の2つの意味を区別して管理しているので「稲荷神社」−「いなりずし」の距離は無限大になります。

 

 記事と記事との距離を測る

 

記事と記事との距離が計算できます。注目しているサイトと類似したサイトを探すときなどに有効です。


    S:類似度

    N:記事内の総単語数

    D:記事内の単語同士の距離

 

用語と用語の距離で、構文解析の係り先を決める

 

次に構文解析に利用した例を説明します。

 

例 「望遠鏡で泳いでいる彼女を見た

 

という文を解析した場合、「望遠鏡で」という文節は「泳いでいる」という文節と「見た」という文節に係る可能性があります。これまでの多くの構文解析システムでは位置的に近いという理由で「泳いでいる」に係っていました。

望遠鏡」という単語と「泳ぐ」「見る」という2つの単語との意味的な距離を測ってみます。

                      距離

望遠鏡 − 泳ぐ       

望遠鏡 − 見る       

 

この結果、「望遠鏡で」という文節は意味的な距離の近い「見た」という文節と係り受け関係にしたほうが良いだろうと予測できます。



<関連資料>

構文解析シソーラス


 

お問い合わせ・ご購入はこちらへ

株式会社 言語工学研究所