構文(意味)解析

ブログなどの文体も扱えます

 

 

 

これまでのブログや口コミサイトを扱うシステムでは、形態素解析で記事を単語に分解して、キーワードがあるかないかだけで評価していました。そのため精度が上げられず手詰まり状態の感がありました。より高度な評価をするためには、構文(意味)解析システムを導入して係り受け関係(キーワードとその直接関係のある単語との組み合わせ)をキーにして評価するのが効果的です。

このシステムでは、ブログなどで取り交わされるような会話的な文章から、係り受け関係とともに、文の意図(良しあし、疑問、否定、要望、希望、勧誘・・)が取り出せます。

 

ホームページから使ってみられます!!
〜構文解析試用サイト(係り受け)はこちら〜
〜構文解析試用サイト(木構造)はこちら

 

 

自然文データベースを自然文で検索します。

 

・まず記事をすべて構文解析して係り受けをデータベースにしておきます。

・質問文も構文解析して係り受けにして、検索します。

係り受けにして検索するようにすれば、不必要な記事を大幅に減らせます。

 

 例「見た目はいまいちだが、味と栄養については問題ない。

 

見た目,,いまいち,, ,,,栄養,,,,,,問題,,い。

 

 

 


 

      係り             受け

係り自立語 係り付属語    受け自立語 受け付属語 意図

見た目,  は,            いまいち,    だが,      悪い

,       については,    問題,        ない,      良い

栄養,     については,    問題,        ない,      良い

 

                               赤字の部分が自立語です。

 

意図としては、当面次のようなものを用意してあります。

良しあし、否定、要望、希望、勧誘、義務、確認、単純疑問、疑問詞疑問、その他

  否定があると「良しあし」は逆になります。

 

例えば「ので,,った」「から,購入」などの付属語に注目して整理すれば、営業に必要な情報を取り出せます。

     かったので            いませんでした

   高機能 だから    購入        しました

 

「係り」「受け」「良しあし」「意図」をセットにしてCSV形式で取り出せます。エクセルで整理できます。

 

 

     用語の標準化

 

・記事、質問文双方の用語を標準化します。

日本語には「同義語」や「表記の揺れ」と言われるものがたくさんあります。自由な記述では、使う言葉が人によってまちまちになります。これも、検索漏れの原因になっています。シソーラスを用いて同義語、表記の揺れを標準の表記にします。

 

  コンピュータ

  パソコン                  コンピューター

  計算機

  電脳、電子計算機

 

 

  米、米国

  USA、U.S.A.            アメリカ

  合衆国

  アメリカ合衆国

 

・係りと受けの関係も標準化します。

限定用法の用言を叙述用法にします。

例えば「林檎が青い」と書いてある記事を「青いリンゴ」という言い方で検索してもヒットします。

 

 

     良しあしの評価

 

「良しあし」は単語だけでは決まらず、係り受けになると決まるものがあります。

 

   寿命が  延びる 良い

   寿命が  短い  悪い

 

「寿命」「延びる」「短い」などの単語だけでは「良しあし」の意味を持ちませんが係り受けになると良しあしの性質をもつ組み合わせがあります。このような係り受けは辞書に登録してあります。

 次の例では輸出産業と、輸入産業とで「良しあし」の評価が変わります。また自社の商品名のようにいつも注目しておきたい用語もあります。

 

   円が   上がる ?

 

係り受けに「良しあし」「注目度」をつけて辞書に登録できます。

 このような用語または係り受けに「良しあし」「注目度」をつけて辞書に登録しておけば、ユーザーに最適な記事を推奨する仕組みが作れます。

 

     係り    受け  良しあし  注目度

  PDFinder             7

  騒音    小さい  良い    2

  リンゴ   甘い   良い

  判断    甘い   悪い

 

 

     主語の代名詞を実際の名詞に置き換えます。

 

 

  例えば、下の原文章で「60歳の人は誰ですか」という質問に「彼です」と答えたのでは意味がありません。代名詞が指す実際の名前例えば「田中さん」を文章中から探し出して置き換えます。

 

   原文章(2008628)        処理が済んだ文章

 

 昨日、田中さんが講演しました。     2008年6月27日

 は60歳になったそうです。      田中さんが講演しました。

                     田中さんは60歳になったそうです。

 

 例えば「60歳になったのは誰ですか」という質問にすぐ「田中さんです」と答えられます。人名だけでなく、タイムスタンプなどから日付、差出人住所から地名、機関名などを取り出して置き換えます。

 

 

 意味解析

 

 

 これまでは構文解析自体も十分な精度がでなかったため、利用者が導入を躊躇していました。どのような方法で精度を上げたかを説明します。

 

   構文構造が分かりやすいようにまとめた形になっています

 

 

解析についての問題はなかったということです。」という文を解析してみると次のような構造になります。(このような図を構文木と呼びます。)

 

  言語工学版構文解析        これまでの構文解析

解析についての─┐             解析に─┐

     問題─┐           ついての─┐

かったということです。        問題は─┐

                                          かったと─┐

                                               いう─┐

                                                ことです。

 

 これまでの構文解析は「解析について」「ついての問題は」のような無意味な係り受けを出力して、肝心な「解析についての問題は」という係り受けは出力できませんでした。

このようなことを実現するために次のような項目数の辞書を用意しています。

自立語辞書(上の例の赤の部分)   220,000

      付属語(上の例の青の部分)    1,300,000

      係り受け辞書            70,000

 

  付属語列をまとめた形で辞書に用意しているため、アクセス回数が少なくなり、

解析も速くなりました。

                                                          

シソーラスを用いて、構文構造を決定しています。

 

[係り先の決定]

 シソーラス上での意味的距離を用いて係り先を決定しています。

 

ネットで行く場所を場所を調べた。      車で行く場所を場所を調べた。

     ネットで─┐               車で─┐

     行く─┐ │                 行く─┐

      場所を                  場所を─┐

調べた。                   調べた。

 

前者の文を解析した場合、「ネットで」という文節は「行く」という文節と

「調べた」という文節に係る可能性があります。これまでの多くの構文解析システムでは位置的に近いというだけの理由で「行く」という文節に係っていました。

「ネットで」という文節と「行く」「調べた」という二つの文節とのシソーラス上での意味的な距離を計算すると。

 

                     距離(シソーラス上での)

ネットで − 行く         

ネットで − 調べる         2

 

これにより「ネットで」は「行く」ではなく、「調べる」に係ることが推測できます。

 

[並列構造の決定]

 

   例 ビールとお酒を飲む。     先生とお酒を飲む。

 

ビール <P>─┐          先生と─┐ 

お酒を        お酒を─ 物

飲む。             飲む。

 

<P> は並列の意味です。

 

「ビール」と「お酒」とは類似した意味なので並列ですが、「先生」と「お酒」は並列にはなりません。

 

距離を測るときに多義語を区別しています

距離を測るシステムでは多義語が問題になることがあります。

例えば「お稲荷さん」には二つの意味があります。

 

                                 距離

        お稲荷さん − 稲荷神社   0

        お稲荷さん − いなりずし  0

 

これまでの多義語をそれぞれの意味で区別しないシステムでは

 

稲荷神社 稲荷さん いなりずし

 

との意味的な距離は0になってしまいます。我々のシステムでは「お稲荷さん」の二つの意味を区別して管理しているので「稲荷神社」と「いなりずし」との距離は無限大になります。

                                距離

        稲荷神社いなりずし  

 

 

その他の機能

 

解析結果の修正

 解析にはどうしても誤りが残ります。用途によっては間違いのない係り受けファイルが要求されることがあります。構文木を見ながら係り受けの受け先をドラッグ&ドロップして修正する機能があります。

 

オントロジーの作成支援

 コーパス(文例集)を用意すれば、ボトムアップでオントロジーの作成が支援できます。

 


 

納入実績 国立情報学研究所、産業技術総合研究所、NHK放送技術研究所、東京外国語大学、関西電力()SETソフトウェア()

 


論文発表

  「シソーラスを組み込んだ意味解析システム」(PDF)

   国分芳宏、梅北浩二、松下栄一、末岡隆史
   自然言語処理 2010年7月 Volume17 Number4 P.43


お問い合わせ・ご購入はこちらへ

株式会社 言語工学研究所