資料
読み仮名
|
英語は単語がスペースで区切られていますが、日本語の処理にはまず漢字仮名交じり文を形態素に分解する必要があります。形態素とは、文のなかで意味を持つ最小単位をいい、分解する処理を形態素解析といいます。テキスト音声変換、ルビ振り、重要度付きキーワード抽出、校閲支援、点字翻訳に共通して重要な機能です。問題点の説明がしやすいのでここでは漢字仮名交じり文を音声で読み上げる場合を例にして話を進めます。 1 日本語の表記の揺れ 仮名漢字変換のプログラムでは日本語に同音異義語が多いことが解析を難しくしていました。日本語では同じ内容を表すのに、いくつかの表記が許されています。これを「表記の揺れ」といいます。漢字仮名交じりのデータを解析するときには、どんな表記の揺れも受け付けられるようにすることに、辞書を整備する段階で非常に多くの労力を必要としました。 仮名漢字変換のときにも「じ、ぢ」、「ず、づ」の使い分けの問題や、「既存」を「きぞん」と入力するか「きそん」と入力するかという連濁規則の曖昧さからくる「仮名表記の揺れ」がありましたが数はわずかでした。 表記の揺れを具体的に述べてみます。 参考文献 改訂現代仮名遣い 昭和61年7月内閣告示
例えば「わかる」という言葉にあてた漢字の違いにより「分かる」、「判る」となるように送り仮名の規則は複雑です。これらは表記が異なっていても、当然発音、アクセントは同じになります。 1.2 用いる字が定まっていません。 国語辞書を開いて見れば分かりますが、一つの言葉に当てた文字がいくつかあります。例えば「あんばい」という言葉に対して、手元にある辞書を調べただけで、5種類もの漢字があてられていました。
漢字が入ってくる前は1つの動詞だったのでしょうが、日本語の「とる」という動詞に対して該当する漢字が複数あったために漢字が使い分けられています。
「とる」という動詞が中国語に比べていかに広い概念を持っているかが分かります。また「年をとる」のように当てる適当な漢字がないときは平仮名のままになります。 実際にはきちんと対応して使い分けられているわけではありません。逆にある漢字を出して訓でどう読むかがクイズになったりします。 使用できる漢字が制限されたために他の字を当てましたが、元の字による書き方も一般に許されています。
1.3 異体字 異体字とは1つの文字概念に対して幾つかの字体が許されているものです。例えば「剣、けん」という文字に対して、JISの第二水準に登録されているものだけでも他に「劍」「劔」「劒」「剱」「釼」の5つの文字があります。 参考文献 1)異体字に関する調査研究 報告書 日本規格協会(平成2年) 2)情報交換用漢字符号 JIS X0208 日本規格協会(平成2年) 3)情報交換用漢字符号−補助漢字 JIS X0212 日本規格協会(平成2年)
最近の文書には「ユーティリティー」「ニューメディア」のように「ティ」「ディ」のような音をよく見掛けます。昭和30年代からだそうですが「ティ、ディ、トゥ、ドゥ」という音が日本語の中に市民権をえてきました。余談になりますがこの「ティ、ディ、トゥ、ドゥ」のローマ字表記は決まっていません。 最後の長音を付けたり付けなかったりします。
「コンピュータ」とかいても発音は「コンピューター」になります。筆者らの読み上げシステムでも「コンピュータ」と入力しても「コンピューター」と読み上げます。 1.5 もともと複数の表記が許されている
少しでも紙面を減らしたかったのでのでしょうが「行う」という書き方が標準になっていています。「行なう」という形も許容されてはいます。「行った」(おこなった)という活用形で、「いった」と読んでしまうことがあります。私の個人的な意見ですが、「行く」も「行う」も非常によく使う言葉なので「行なう」という書き方に統一するべきだと思います。昭和41年当時は「行なう」が標準だったと覚えています。 参考文献 改訂送りがなの付け方 昭和48年6月内閣告示 1.6 間違った表記 さらに一般の文章は必ずしも正しい表記で書かれているとは限りません。正しくない表記でも、よく間違えると思われる表記は扱えるようにしておかないと使い物になりません。 例えば「うけたまわる」を漢字で書くと、正しくは「承る」ですが、「承わる」と書かれることが少なくありません。これは誤った表記ですが、だれでも違和感なく読めてしまいます。このような誤った表記も含めて、よく使われる表記はなるべく辞書に登録しておく必要があります。以前に比べると、原稿をワープロで書くことが増えたためか、この種の間違いは減ってはいます。 2 表記は同じでも異なった読み方がある 人は前後の関係で読み分けているのですが、筆者らの日本語解析では決定ができない場合があります。 例えば「今日は」という言葉を「今日/は」と二つの単語として解析したときは「コンニチワ」になりますが、「今日は」と一つの単語として解析したときは挨拶の場合で「コンニチワ」になります。 「その後」は「ソノゴ」「ソノウシロ」「ソノアト」「ソノノチ」と、「その」が文脈上で何をさしているかで、どの読み方が許されるかが決まります。 これらの問題を日本語解析だけで解決しようとすると大変な困難を伴います。筆者らのシステムでは、仮名漢字変換の同音異義語選択と同じようにユーザーに変換キーにより正しい読み方を選択しさせています。仮名漢字変換と同じように単語同士の区切り位置の修正が必要になる場合もあります。またその結果の学習も必要になります。
3 辞書に登録されていない言葉を読むには 自然言語処理をするときの宿命として、固有名詞や専門用語など辞書に登録されていない言葉が必ず存在します。このような未登録語に関しては、文字の種類によって次のように読みを与えています。 漢字の場合、漢字辞書を引きながら、前後とも平仮名の場合は訓で読み、複数の漢字が連続している場合には、その文字が熟語の一部になったときに統計的に、一番多いとされる読みとアクセントをつけます。 平仮名語の場合、付属語として扱います。 片仮名語の場合、外来語とみなして文字数を調べてその文字数のときに一番多いアクセントの形をつけています。 アルファベットはユーザー登録された言葉は日本語的な読み方になります。
登録されていない言葉は、現在スペル読みをしています。このため「NHK」のようにスペル読みでよい省略形はなんとかなりますが、長いスペルの英語を読ませるには不都合で、ローマ字書きふうな読みをする必要があるかもしれません。 参考文献 住吉英樹 相沢輝昭 NHK放送技術研究所 英語固有名詞の片カナ読みへの簡易変換 情報処理学会 第43回全国大会 ’91 3−291 4 解析の誤り 漢字を読み間違える例は、仮名漢字変換の同音意義語を取り違える場合に比べると非常に数が少なく、あまり問題になるケースはありませんでした。むしろ文章上の平仮名の多い部分のほうが仮名漢字変換と同じように、解析を間違えて、間違ったアクセントで読み上げる原因になりました。変換の速度も、辞書の大きさが仮名漢字変換の辞書より大きいにもかかわらず高速でした。 5 解析のための辞書 一般に市販されている国語辞書は、分からない言葉を調べるための辞書です。従って「ごみ袋」、「登下校」のようによく使われていますが、普通の日本人は調べることのない項目は記載されていません。一方日本語解析用の辞書を作るときは、意味を調べなければ分からないような難しい使用頻度の少ない言葉は捨てて、よく使われる言葉を中心に収集します。よく使われる言葉を探すためには大量の文章を解析して、登録されていない言葉を探し出して集める必要があります。 辞書を作っていてもう一つ気づいたことは仮名漢字変換の辞書を作ったときは新しい文章を作るための道具なので、古い言葉は必要ありませんでしたが、読み上げではすでに書かれた文を読むので古い言葉も必要でした。 筆者らのシステムの辞書は、語数で約20万語に、実行形式の辞書の大きさも3メガバイトになっています。この大きな辞書を更新する作業が常について回ります。最近もカザフスタンの首都がアクモラに移動したので登録しました。またこのような作業をしていると、どうしても辞書の大きさがどんどん大きくなってしまいます。 「逆噴射」のように古くなって使われなくなった言葉を削除するだけでなく、他の語の組み合わせから派生できる語を探して削除するなどの、辞書の大きさをなるべく小さくするための努力も怠ることができません。
|