キーワード(複合語)抽出

 

1.目的

 用語辞書を作るときや情報検索のキーを設定するときなどのためにテキスト中から名詞を抽出します。必要に応じて振り仮名も付与します。

   例 言語工学,げんごこうがく

 

2.特長

 構文解析をして名詞を取り出す方式なので、漢字列だけでなく平仮名語や交ぜ書きの言葉も抽出できます。

   例 補てん   「填」が常用漢字でないため

     いわき/市

 

 辞書上の用語に複合語の要素になり得るかどうかのフラグを持っています。このフラグを持っている用語の連続だけで複合語を作ります。

   例 毎朝新聞を読みます。 → 毎朝、新聞

     朝日新聞を読みます。 → 朝日、新聞、朝日新聞

 

形式名詞、接頭辞、接尾辞なども分類してあります。

 新語も積極的に採択してあります。

 

 複合語を分解して各要素の組み合わせを出力しますが、形式名詞、接頭辞で終わる組み合わせや、接尾辞で始まる組み合わせは出力しません。

 

  例 次の文からは下記のような名詞を抽出します。

「超先端的システム論の中で述べていることは、」 →

      超先端

      超先端的

      超先端的システム

      超先端的システム論

      先端

      先端的

      先端的システム

      先端的システム論

      システム

      システム論

  (注)この文から超、論、的だけおよび、的で始まる言葉は出力しません。

   中(形式名詞)は出力しません。

 

3.その他

・辞書保守ユーティリティーによりユーザー様で辞書登録ができます。

  ・保守契約を結んでいただければ、年2回最新の辞書をお送りいたします。

 

4.開発経緯

  16ビット版 1990年頃

  32ビット版 1999

構文解析版 2006


[納入実績] 医学中央雑誌刊行会、農林水産省


<関連資料>

構文解析キーワード抽出資料


 

お問い合わせ・ご購入はこちらへ

株式会社 言語工学研究所