文章を単語に分解して平仮名にする
日本語は英語のように単語同士が空白で区切られていません。日本語の研究をするときには、文章を単語に分解することに大変な労力が必要でした。このプログラムでは、漢字仮名交じり文を自動的に解析して単語に分解し、読み仮名、品詞コードを出力するので、そのような問題を一挙に解決します。
|
|
形態素とはこれ以上に細かくすると意味がなくなってしまう最小の文字列をいいます。また文を最小の文字列に分解するプログラムを形態素解析プログラムと呼びます。 日本語は英語のように単語同士が空白で区切られていませんので、日本語解析をするためにはまず文を形態素に分解する必要があります。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
具体的にどのように分解するのか、下記例文で説明します。 例文.「大きな地震が来ないことを祈ります。」
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
振り仮名情報を出力 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
文法的な情報をつけて出力 (約150種類に品詞を分類) 品詞の例)
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
日本語の形態素解析では分解の仕方が1通りではないことがあります。
また「最高値」という言葉の場合は2通りの分解の仕方があります。
これらの違いは、文脈に依存するので、どうしても厳密に解析したいときには、利用者に会話形式で問い合わせるほかありません。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
日本語の形態素解析はどうしても「解析」に時間がかかります。
接続できなかったときは、2番目の候補をより短い別の候補に取り替えてもう一度接続できるかどうかを検査します。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
空白で簡単に切れる英語のような外来語の場合に比べると数倍の時間がかかってしまいます。 また珍しい固有名詞など辞書に登録されていない言葉を含む文や、会話的な崩れた文のときに解析し損なう場合があります。 特に源氏物語のような古文に対しては現在の解析では無力であるのが現状です。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
形態素解析をするためには解析アルゴリズムとともに大きな辞書が必要になります。 言語工学研究所の辞書は25万語の項目があります。 言葉は生き物なので新しい言葉が生まれては古い言葉が使われなくなっていきます。それに従って辞書を管理していく必要があります。社会一般では珍しい名前でもその会社の文書にはよく出てくる名前であれば、その名前を登録するだけでその会社の作業の精度が簡単に上がるでしょう。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
キーワード(名詞)抽出 日本語処理の研究 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
ルビ振り 読み仮名 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||