
言語工学研究所シソーラス
意味の領域まで足を踏み入れた自然言語解析で必要になるシソーラスです。用語の意味関係として同義語、広義語、狭義語、関連語、反義語があり、さらに多義語も分別してあります。
複数の意味的な観点で分類
用語の絞り込みが早くできます。また多義語も意味ごとに区別してあります。
「料理」を「調理法」「材料」「地域」の観点により分類した例

差別語
差別語を出力してしまうと社会的に致命的な問題になりかねません。差別語から正しい言葉を出力しますが、正しい言葉から差別語は出力しないような仕組みにしてあります。
例 めくら → 視覚障害者
視覚障害者 →×めくら (出力しません)
語数 42万語
「草食系男子」「歴女」「サブプライムローン」「エコポイント」などの新しい時事的な用語
名詞だけでなく、動詞、形容詞、副詞さらには慣用句
Eメールなどで使われる会話的な用語
表記の揺れ
標準でない表記でもシソーラスが引けます。
例 インターフェース 新聞
インタフェース JIS
インターフェイス 学術用語
休止
じゃまになる用語を一次的に休止させて出力しないようにする機能があります。
動作環境
Windows,Linux,FreeBSD,Solaris
利用法
検索
・検索して見つからなかったときや、逆に検索された文書が多過ぎたときに、より適切な検索キーを探すために使います。
・前もって記事中の用語を同義語展開しておいて、どの用語でも検索できるようにします。
構文解析
構文解析と有機的に組み合わせて利用できます。
・ どこに係るかをシソーラス上での意味的な距離で決定する。
![]()
![]()
× 意味的距離が遠い。
望遠鏡で泳いでいる彼女を見た。
![]()
○ 意味的距離が近い
・多義語はそれぞれの意味ごとに区別して、距離を測る。
いなりずし お稲荷さん 距離0
稲荷神社 お稲荷さん 距離0
いなりずし 稲荷神社 距離∞
用語標準化支援
全文検索と組み合わせて標準でない用語を標準の用語(同義語)に置きかえる。
「USA」「U.S.A.」「米国」「合衆国」「アメリカ合衆国」→「アメリカ」
自動校閲
共起禁止語の同義語、狭義語も共起禁止のエラーになる。代表の用語だけの共起関係を記述しておけば、検査するときにシソーラスで拡張できる。
「戸」を「空ける」。 共起禁止
「ドアー」を「空ける」。 「戸」の同義語
「雨戸」を「空ける」。 「戸」の狭義語
翻訳
日本語では同じ用語でも主語になる用語によって訳語が異なることがある。多くの場合同義語、狭義語では共通の訳語になる。
犬(番犬、土佐犬) 鳴く bark
小鳥(ヒバリ、カナリヤ) 鳴く chirp
シソーラス関連製品
オンライン検索サイト 「類語.jp」
パッケージソフト電子辞典「類語.jp」
シソーラス付き全文検索システム「PDFinder Pro版」
シソーラス関連資料
論文発表
「自然言語処理を意識した日本語シソーラス」
国分芳宏、岡野弘行
情報知識学会誌 2010年2月15日 第19巻4号
「複数の観点で分類した自然言語処理用シソーラス」(PDF)
国分芳宏、岡野弘行
自然言語処理 2010年1月 Volume17 Number1 P.247
「複数の観点で分類した自然言語処理用シソーラスと応用[含 討議報告] 」
国分芳宏、岡野弘行
TP&Dフォーラムシリーズ. (通号 18) [2009.4] 35〜46