文章を単語に分解して平仮名にする

形態素解析

 日本語は英語のように単語同士が空白で区切られていません。日本語の研究をするときには、文章を単語に分解することに大変な労力が必要でした。このプログラムでは、漢字仮名交じり文を自動的に解析して単語に分解し、読み仮名、品詞コードを出力するので、そのような問題を一挙に解決します。


形態素
形態素とはこれ以上に細かくすると意味がなくなってしまう最小の文字列をいいます。また文を最小の文字列に分解するプログラムを形態素解析プログラムと呼びます。

日本語は英語のように単語同士が空白で区切られていませんので、日本語解析をするためにはまず文を形態素に分解する必要があります。

具体的にどのように分解するのか、下記例文で説明します。

 例文.「大きな地震が来ないことを祈ります。」

形態素
大きな 地震 こと ます

振り仮名
おおきな じしん こと いの ます  

品詞
連体詞 名詞 格助詞 動詞語幹 助動詞 活用語尾 形式名詞 格助詞 動詞語幹 活用語尾 助動詞 句読点

意味
                       

活用の種類
      カ行変格活用         ラ行5段活用      

活用形
          連体形       連用形    

特長
振り仮名情報を出力
文法的な情報をつけて出力
(約150種類に品詞を分類)
品詞の例)

名詞
意味(約10種類)人、物、場所など

動詞
活用の種類(約17種類)

助詞
種類(たとえば格助詞、終助詞)

活用語尾
活用形

問題点

日本語の形態素解析では分解の仕方が1通りではないことがあります。

たとえば「女らしい」という言葉は3つに分解される場合と2つに分解される場合があります。

女・らし・い 暗くて男か女かわからないがどうも女らしい。
女らし・い しとやかで、優しくて、きれいで:(今は死語かな)

また「最高値」という言葉の場合は2通りの分解の仕方があります。

最・高値 さいたかね
最高・値 さいこうち

これらの違いは、文脈に依存するので、どうしても厳密に解析したいときには、利用者に会話形式で問い合わせるほかありません。

解析

作業

日本語の形態素解析はどうしても「解析」に時間がかかります。

まず入力文の文字列と一番長く一致する辞書の項目を先頭の候補にします。

続いて文の続きの部分と一番長く一致する辞書の項目を2番目の候補にします。先頭の候補と2番目の候補とが日本語としてうまく接続できるかどうかを検査します。

あります・です。 接続できない例
ありません・でしょうか。 接続できる例

接続できなかったときは、2番目の候補をより短い別の候補に取り替えてもう一度接続できるかどうかを検査します。
2番目の候補がなくなってしまったら、先頭の候補に戻ってより短い候補をさがします。

このような作業を文全部について繰り返し行います。

問題点
空白で簡単に切れる英語のような外来語の場合に比べると数倍の時間がかかってしまいます。
また珍しい固有名詞など辞書に登録されていない言葉を含む文や、会話的な崩れた文のときに解析し損なう場合があります。
特に源氏物語のような古文に対しては現在の解析では無力であるのが現状です。

辞書
形態素解析をするためには解析アルゴリズムとともに大きな辞書が必要になります。
言語工学研究所の辞書は25万語の項目があります。

言葉は生き物なので新しい言葉が生まれては古い言葉が使われなくなっていきます。それに従って辞書を管理していく必要があります。社会一般では珍しい名前でもその会社の文書にはよく出てくる名前であれば、その名前を登録するだけでその会社の作業の精度が簡単に上がるでしょう。

用途
キーワード(名詞)抽出
日本語処理の研究

資料
ルビ振り

読み仮名

お問い合わせ・ご購入はこちらへ

株式会社 言語工学研究所