資料
シソーラスとオントロジー
30年前の「非常勤職員」という語が時代とともに陳腐化して、「アルバイター」「パートタイマー」と次々に代わり、最近では「フリーター」という語を耳にします。次はどんな語になるのでしょうか。
「非常勤職員」という語を使っている記事を同じ意味の「アルバイター」という語で検索しても、これまでの多くのデータベースでは検索できません。この橋渡しをして検索できるようにするためには、「非常勤職員」と「アルバイター」とは同じ意味であると語を意味によって整理してある辞書が必要になります。この辞書をシソーラスと呼びます。普通辞書は語をアルファベットや五十音順で整理してありますが、シソーラスとは意味で整理した辞書です。
検索して記事が見つからなかったときや、逆に検索された記事が多すぎたときにより適当な検索キーを探すためにシソーラスを使います。
また例えば料理の記事には「料理」という語はほとんど使われていません。料理の記事を探すためには「和える」「煮る」「から揚げ」「ソテー」「下ごしらえ」「塩コショウ」・・・など料理に関連した語を駆使して検索します。このような関連した語を探すにはシソーラスが必須です。
1 意味上での語同士の関係
「たしか豚肉の料理だったが」とか「犬に似た動物だったが」など思い出せない語をはっきりさせるときにも、シソーラスの中の狭義語、広義語、関連語、反義語などの語同士をたどって目的の語を探します。
「食材」から見ると「肉」は部分的な意味概念なので狭義語(下位語ともいう)になります。逆に「肉」から見ると「食材」が広義語(上位語ともいう)になります。
「豚肉」から見ると「肉」がさらに広義語になります。
「肉」と「野菜」とは関連語の関係です。「にく」は「肉」の表記の揺れ(異表記語ともいう)の関係になります。
1.1 同義語
英語で1人称単数は″I ″だけですが、日本語には「私」「僕」「我」「小生」「我が輩」「手前」「愚生」と数十あり、話者と相手との関係で使い分けられています。日本語にはなぜ同じ意味の語、同義語がこんなに多いのか考えてみましょう。
外来語
日本語のなかに奈良時代には中国から、最近は主に米国から輸入されて日本語の中に入ってきている語があります。
| 大和言葉 |
漢 語 |
片仮名語 |
英 字 |
| 打ち合わせ |
会議 |
ミーティング |
|
| しお |
食塩 |
ソルト |
NaCl |
|
読み出し専用メモリー |
ロム |
ROM |
多少のニュアンスの違いはありますがすべて同義語といえます。このような組み合わせが日本語のなかにたくさんあり、これが同義語を増やしている大きな原因です。大和言葉は親しみやすさを、漢語は権威を、片仮名語は近代的な感じをあたえます。また最近は「計算機」が「コンピューター」に、「写真機」が「カメラ」になるといったふうに、漢語が片仮名語に置き換わる傾向があります。わが国は工業製品では輸出超過だそうですが、用語の世界では大幅な輸入超過です。
省略形
「特別急行」→「特急」のようなものをいいますが、「マスコミ」は「マス・コミュニケーション」であったというように省略形の方が4拍の新しい語として定着してしまっているものがたくさんあります。省略の程度も地域によって異なります。関東よりも関西の方が積極的に省略するようです。
「弱冷房車」(JR東日本) = 「弱冷車」(JR西日本)
英語の単語の先頭の文字だけを集めた(頭文字)もこの省略形に入れるべきでしょう。
Read Only Memory = ROM
通称
通称と正式名が両方使われています。
「首相」 = 「内閣総理大臣」
年号
わが国だけの問題ですが年号が2種類あります。さらに漢数字とアラビア数字が両方使われます。
「2001年」 = 「平成13年」 = 「平成十三年」
立場による語の違い
立場によって同じことを違った語で現す場合があります。例えば政府は「公的資金」といいますが、「税金」を払う人は「血税」といいます。検索する人は「税金」という語で引きます。
語の陳腐化
語は使い込んで身近なものになると同時に陳腐化して、新しい語ができてきます。古い語は使用方法が制限されるようになり、だんだんと消え去ります。特に人や人の職業を表す語は変化が激しいようです。例えば「お前」という語は元来相手を直接指しては失礼に当たるので、相手の前を指して間接的に相手を指す非常に丁寧な語だったのだそうです。同じように間接的に指す例として「閣下」、「殿下」などがあります。しかし長い間にすっかり陳腐化してしまって、「お前呼ばわりをする」という語があるように今日では上司に対して使うと問題になります。「女中」という語は「お手伝い」「ハウスキーパー」などという語に置き換えられて現在では差別語にまでなってしまいました。
また毎回同じ言い回しばかりだと物足りなくなって、新しい言い回しをしたくなります。
「ヒットを打つ」 = 「バットが火を吹く」
「日本全国」 = 「北海道から沖縄まで」
慣用句
日本語の意味空間では、慣用句が大きな位置を占めています。慣用句についても考慮する必要があります。
「額に汗する」 = 「働く」
「水をあける」 = 「引き離す」
(「水をあける」には「水」の意味はまったくありません)
表記の揺れ
同義語のうち発音も同じものを表記の揺れ(異表記語ともいう)と言います。日本が地震国のためとは思いませんが、日本語では標準とされている表記の他に複数の「表記の揺れ」が許されている語があります。個人により、機関によりいろいろな表記が氾濫しています。極端な場合には同じ著者が書いた記事でも表記法が違うことがあります。複数の機関の記事を一度に検索しようとする場合には考えられる揺れをすべてキーにして検索しなければなりません。
漢字と仮名による表記の揺れ
犬、イヌ、いぬ
漢字表記の揺れ
沈殿、沈澱 「澱」の字が常用漢字でないので「殿」の字を代用した。
超電導 JIS
超伝導 学術用語
外来語を仮名書きするときの揺れ
インターフェース 新聞 96年まではインタフェースでした。
インタフェース JIS
インターフェイス 学術用語
インタフェイス
古い記事を扱うときは異体字も問題になります。
國語、国語
送り仮名の違いによる表記の揺れ
行う、行なう
打ち合わせ、打ち合せ、打合わせ、打合せ、打合
(内閣告示の「送り仮名の付け方」の中にも複数の表記が許容されています。)
あいまいさを許して検索すれば、すべての揺れを検索できそうなものもありますが、不要な記事を検索する場合が増えてしまいます。
言葉だけでなく句読点の書き方にも表記の揺れがあります。
句点 (。)または(.)
読点 (、)または(,)
1.2 反義語
意味が対立する語の関係です。否定文を扱うときなどに必要になります。対立の仕方にいくつかあります。
片方を否定すると対立する相手になる語の関係です。「良くないこと」とは「悪いこと」になるような関係です。
善 ←→ 悪
ある中間的な点を中心にして逆の方向になる語の関係です。
上 ←→ 下
一つの行為を対立する立場で捕らえた語の関係です。
売る ←→ 買う
さらには「兄」に年齢で対立する語として「弟」があります。また性別で対立する語として「姉」があります。どちらも反義語になります。
兄 ←年齢的対立→ 弟
↑
性別的対立
↓
姉
1.3 関連語
ある程度の意味的な関連性を持つ語の関係を言います。大きく分けると同じカテゴリーの語と異なるカテゴリーの語との関係があります。
同じカテゴリーの語。別の言いかたをすると共通の広義語を持つ語です。
肉 野菜
異なるカテゴリーであるが、関係のある語。
肉 肉料理
2 意味関係とその表示方法
次に言葉の意味関係とその表現方法について考えてみましょう。
2.1 書籍のシソーラス
書籍のシソーラスは物理的な制約もあり、ほとんど木構造になっています。そかしこの方式は、シソーラスを作ったひとの分類基準をよく理解して、その分類に従ってたどっていかないと使いこなせません。そのため木構造をたどって探しても思った語が見つからなくて、結局巻末の総索引から引き直すということが少なくありません。
|
|
| 食材 |
|
|
| |
NT |
肉 |
| |
|
・牛肉 |
| |
|
・豚肉 |
| |
|
野菜 |
| |
|
・葉菜 |
| |
|
・根菜 |
| |
|
魚 |
| |
|
・干物 |
|
|
|
| 図3:字下げによる表示 |
| (NTは狭義語という意味です。) |
|
2.2 電子化されたシソーラス
キーボードから直接どこでも指定できるので木構造をたどりながら探していく必要はありません。もはや木構造ではなく、網構造になって複数の広義語が持てるようになります。しかしその結果同じ文字列で複数の意味を持つ多義語が区別できない問題がでてきます。例えば木構造で検索したときには、「時間」からたどった「月」(month)と、「天体」からたどった「月」(moon)の二つの異なった意味の語は区別できますが、網構造では区別ができなくなります。
「月」を「天体」の観点でとらえたときはmoon で「時間」の観点でとらえたときはmonthであるとすれば解決できます。
一つのグループに入れる語を多くしすぎるとグループのなかを探すのに時間がかかってしまいます。逆に少なくしようとすると階層が深くなってしまいます。電子化されたシソーラスでは、クリックするだけで、簡単に上下の階層に移れるので階層を深くしても問題は少ないのですが、グループにつける名前がとかく恣意的になりがちです。
2.3 複数の観点での分類
身近な例で「料理」について考えてみましょう。古今東西の料理の種類は相当な数になるので何らかの基準でいくつかのグループに分類する必要があります。これまでのシソーラスではこのような大量の語をシソーラスを作ったひとの分類基準に従ってたどっていかなければなりませんでした。また紙面の物理的な制約もあって意味空間を1次元的に整理してありましたが、元来多次元空間のはずです。多次元空間を分類するには、複数の観点によって多次元的に分類する方が合理的です。
上の図は「料理」を「調理法」「材料」「地域」の3つの観点で分類した例です。ある一つの語、例えば「刺し身」はすべての観点による分類の下に入っています。逆に「刺し身」の広義語が「生もの」「魚料理」「和食」の3つあることになります。この他に「料理」のための観点としては「対象」(病人食、独身料理)「スタイル」(会席料理、飲茶)などが考えられます。いろいろな考え方の利用者がいるのでなるべく多くの観点で分類しておく必要があります。
2.4 概念の重なり
「しお」と「NaCl」とを1.1では同義語にしましたが、イメージは大分違います。同義語は意味的にほとんど重なっていますが、言えば違いがあり関連語にするべきではないかと思われるものがあります。どこまでを同義語として認めるかは、辞書の作業者同士でも食い違うことがあります。
書籍のシソーラスは概念同志を排他的に分類してありますが、実際の概念は重なり合っている場合があります。
2.5 人間の感覚に沿った分類
分類にも工夫する必要があります。色を分類するときにもほとんどのシソーラスでは「赤系統」「青系統」「黄色系統」などと色相や明度などに従って分類してあります。データベースの検索の支援をするためには、もっと人間との関係を重視して「はでな色」「暖かい色」いった人間の感覚に沿った分類にした方が実用的でしょう。
3 シソーラスの用途
シソーラスはいろいろなところで使われています。用途によっていくつかに分けられます。
3.1 連想支援に
文章を書くときにより適当な用語を探すために使います。分類語彙表などこれまでの書籍によるシソーラスはほとんどこのタイプです。
3.2 検索キーを捜すときに
インターネットの中を検索する場合を考えてみましょう。いろいろな人によってすでに書かれている記事を探すわけですから、用語の統制を図ることは不可能です。漏れなく検索するためには普通に考えられるすべての語で検索してみる必要があります。このようないろいろな書き方の検索キーを取り出すためにシソーラスを使います。検索システムによっては、検索キーワードに同義語や関連語などを自動的に付加して検索するシステムもあります。
3.3 日本語解析で
意味の分野まで踏み込んだ日本語解析にも必要になります。
仮名漢字変換を例にして説明します。
「とをあける」→「戸を開ける」
「あける」という仮名文字に対して「空ける」「開ける」「明ける」などの漢字があります。しかしこの例の場合は「戸を・あける」という場合は「開ける」が適当です。では「雨戸」の場合はどの漢字が適当か、さらに「網戸」の場合はどの漢字が適当かということを逐次定義していくことが必要になります。ここでシソーラスを使えば「戸」の狭義語のときは「開ける」が適当であるということができます。さらに「カーテン」のような関連語も「開ける」が適当であるとできます。
3.4 用語同士の意味的な距離を測る
まず、仮に2つの用語間の距離を次のように定義します。
表記の揺れ 0
同義語 1
広義語/狭義語 2
反義語 3
関連語 4
関係語とさらにその関係語との距離は加算することにします。例えば狭義語のさらに狭義語との距離は2+2で4にします。構文解析などで、あいまいな係り先を決定するときにこの距離が使えます。また検索結果が多すぎたときに、検索キーと検索した記事中の用語との間の距離を測れば、検索結果を適切な順に表示できます。
3.5 用語統制に
各学会や新聞社などで、記事を書くときに使用する用語を統制するために使います。木構造になっていて、多義語を除いて1つの用語は1つの広義語しかもちません。用語の意味の外延をその用語に属する狭義語によって定義します。
4 その他の機能
語末一致
日本語の複合語はほとんどの場合、意味や品詞を決定する語が語末に、修飾する語が前方にきます。この性質に着目して語末が同じ語を取り出すと同じ意味の語が集められ、狭義語を集めたのと同じような効果を持たせることができます。
例えば、「トンボ」と語末が一致する語を取り出すと
狭義語 「アカトンボ」「イトトンボ」「シオカラトンボ」・・・
例外 「竹トンボ」
漏れ 「オニヤンマ」「ギンヤンマ」
学習機能
ユーザーがどんな語を関係語として要求するかは個人によって、また置かれた状態によってまちまちです。前出の「非常勤職員」の同義語の例でも「フリーター」などという語は最近の労働問題を調べているひとには必要ですが、労働問題の歴史を研究しているひとには不要です。
また研究の初期の段階にいるひとは、同義語はもちろん、狭義語、広義語までを含めて広くいろいろな語を要求しますが、最終段階になるとごく限られた語だけを要求するようになります。
用語同士の関係がそのひとの環境、世代で異なることもあります。筆者らの世代では、「パソコン」は「コンピューター」の狭義語ですが、最近の社会一般ではこれらの二つの語は、同義語になっています。個人別にカスタマイズしたり学習したりする柔らかい機能が重要です。
差別語
実際にシソーラスを運用するためには、関係する語として差別語を出力しないなどといった細かい配慮が必須です。差別語は年々増える方向にあります。増える差別語を次々に登録していくためにもいつも辞書を更新していかなければなりません。
5.オントロジー
ここまで述べてきたシソーラスは用語を分類的に整理したものです。一方これから述べるオントロジーとはある知識ベースで前提としている概念と、その概念同士の相互関係を明示したものです。いま話題のセマンティックWebやデータベースのセマンティックモデル、AIにおける概念のモデルや推論機構などで使用されています。オントロジーを記述するための言語もW3C(World Wide Web consortium)で提唱されています。
しかし実際にある知識ベースに必要な概念とその関係をデータ化するのは大変な作業です。ここでは自然言語処理のためにオントロジーをボトムアップで作成する例を説明します。具体的に言うと、過去のコーパスを基にして概念とその関係を抽出します。
まずコーパスを構文解析して係り受け関係を取り出します。
この係り受け関係を前後の文章も参考にして概念とそれらの関係に置き換えます。「部屋を掃除する」という文は、次の図のようになります。

図7 RDFでの記述
ここでは概念のことをクラス(class)といいます。
で囲いました。概念同士の関係をプロパティー(property)といいます。
で囲いました。概念を定義するための手段として、その概念に含まれる用語を用います。この用語のことをインスタンス(instance)といいます。
で囲いました。インスタンスでは同義語、表記の揺れなどを考慮する必要があり、ここではシソーラスはオントロジーに含まれます。
自然言語処理では複数の解釈が成り立つことにより、処理の結果が一意に定まらないことがネックになっています。このオントロジーを用いて生成した文章では、要約、翻訳などではこのような問題が大幅に減少します。
セマンティックウェブなどでは、論理的な関係を表現できるモデルとしてRDFを用いたメタデータ(データについてのデータ)が前提になっています。オントロジーもこのRDFを拡張した形式で書かれています。
RDFを用いた電子商取引などでは企業間で交換されるRDF文書中のタグ名、タグの内容、データの型などは業界内では同じにしてあります。しかし異業種間でお互いに独立して作られたRDFで書かれた記事を通して検索するためには、概念間の相互関係を記述しておく必要があります。オントロジーによってはじめて、それぞれの記述の意味的な関係付け(例えば同義関係、包含関係)ができます。
図8のようなRDFによる記述から例えば「広さが20平方メートル以上の居間」といった条件で調べるときに必要になるオントロジーです。
<用途>居間</用途>
<広さ 単位=”畳”>8</広さ>
<タイプ>ダイニング</タイプ>
<広さ 単位=”平方メートル”>24</広さ>
図8 RDFの例
終わりに
ここでは記事検索の場での使い方を中心に話をしました。今後日本語解析を高度化していくためには意味の分野に立ち入らざるを得ないでしょう。そのときもシソーラスが多用されるでしょう。英語圏ではすでにロジェをはじめいくつかのシソーラスが実用化されています。
付録1 市販されているシソーラス
書籍のシソーラス
シソーラスの構成及びその作成方法 JIS X 0919−1991
分類語彙表 国立国語研究所
類語国語辞典 角川書店
日本語語彙体系 岩波書店
日経シソーラス 日本経済新聞社
中日新聞社情報システム研究所編シソーラス 紀伊國屋書店
電子化されたシソーラス
JICST科学技術用語シソーラス 科学技術振興事業団
医学用語シソーラス 医学中央雑誌刊行会
パッケージソフト
デジタル類語辞典 ジャングル(開発:言語工学研究所)
付録2 ユーザー登録語の交換形式の標準化について
利用者が登録した語は利用者の財産です。使っているシソーラスシステムを取り替えるときには、古いシステムから利用者登録語を取り出して新しいシステムにそのまま再登録ができないとすべて再入力しなければならないことになります。そうならないためには交換形式を標準化が急がれます。
またさらにシソーラスプログラムのAPIを標準化しておけば、シソーラスプログラムと検索プログラムの独立性が保たれるので、どちらか片方だけを取りかえることも可能になります。
ここではまだ標準化するべき項目を上げただけです。全文検索システム協議会内部だけの問題ではなく、語の意味の分野に踏み込んだシステム共通の問題で他の分野の人にも呼びかけて参加してもらう必要があります。関心をお持ちの方はぜひ検討に加わってください。
1.シソーラスのユーザー登録語の交換形式
1.1 記述する内容
1.1.1 関係の記述をどこまで認めるか
他のユーザーを考えて統制語シソーラスのための関係記述も認めておく。
SN スコープノート
BT 広義語
BTG 類種関係の広義語
BTP 全体部分関係の広義語
NT 狭義語
BTG 類種関係の狭義語
BTP 全体部分関係の狭義語
RT 関連語(関連性の記述)
AT 反義語(RTに入れてしまうことがある)
SY 同義語
USE "を見よ"参照(優先語:統制語シソーラスだけで意味があります)
UF "を見よ"参照あり(非優先語:統制語シソーラスだけで意味があります)
TT 最上位語 (検索用では不用:統制語シソーラスだけで意味があります)
1.1.2 逆の関係も別に登録する。
「Aの広義語はB」(a)
「Bの狭義語はA」(b)
これらの2つは同価であり片方を登録すれば十分であるが、両方登録する。
1.3 どこまで詳細に記述するか。
1.3.1 品詞
品詞の種類およびその指定方法は資料2にからそのまま導入すればよいであろう。
1.3.2 注釈
1.3.3 コーパス
1.3.4 出典
1.3.5 日付
1.3.6 登録者名
1.3.7 観点
1.4.記述形式
XMLにするべきであろう。
1.5.関連する資料
・シソーラスの構成及びその作成方法 JIS X0901−1991 資料1
統制語シソーラスであるが、基本的にはこれを踏襲し拡張する。
・仮名漢字変換辞書交換形式 JIS X4062−1998 資料2
CSV形式である。
品詞とその指定方法はそのまま導入したい。
シソーラスプログラムの呼び出し方(A.P.I.)の標準化
2.シソーラスルーチンの呼び出し方
2.1 初期化
2.2 機能の問い合わせ
2.3 後始末
2.4 読み出し
2.4.1 関係の取り出し
2.4.2 品詞の取り出し
2.5 ユーザー語の登録
2.5.1 関係の書き込み
2.5.1 品詞の書き込み
2.6 ユーザー登録語一覧表を取り出す。
以上
【関連サイト】 用語の標準化,オンラインサービス「類語.jp」,パッケージ版「類語.jp」,シソーラス
お問い合わせ・ご購入はこちらへ