OpenMWE for Japanese

Table of Contents

はじめに Edit

OpenMWEは、慣用句や複合語といったmultiword expressions(MWEs)関係の言語資源で、オープンソースソフトウェアとして配布しています。 本プロジェクトはMWEsに関わる自然言語処理技術の開発を主な目的としており、次のような言語資源を順次リリースする予定です。

コーパス
MWEsの用例集。文法的振る舞いを観察したり、機械学習データとして使用する。
辞書
MWEsの言語処理で必要な情報を記述した辞書。
同定システム
文中のMWEsを同定(検出)するシステム。MWEsの中には、例えば慣用句「骨を折る」のように、文字通りの意味と慣用的(比喩的)な意味の両方を持つものがあるが、このシステムは両者を区別して(曖昧性を解消して)MWEsを同定する。
格解析システム
述語として使用されるMWEs(「骨を折る」「頭が痛い」「解決を見る」など)の述語項構造を解析するシステム。述語MWEsに係っている(依存している)ガ格要素やヲ格要素を見極める。

本プロジェクトは開始して間もなく、慣用句の一部のみを扱っているだけですが、 今後はあらゆるMWEsを網羅的に、そして他の主要な言語のMWEs言語資源も構築する予定です。 現在このサイトでは、 現在我々が対象としている慣用句のリスト公開中の慣用句コーパスEMNLP08の実験で使ったデータを閲覧することができます。

開発チーム Edit

発表、論文など Edit

  • Compilation of an Idiom Example Database for Supervised Idiom Identification. Chikara Hashimoto and Daisuke Kawahara. Language Resources and Evaluation. Volume 43, Number 4, pp.355--384. 2009.
  • Construction of an Idiom Corpus and its Application to Idiom Identification based on WSD incorporating Idiom-Specific Features. Chikara Hashimoto and Daisuke Kawahara. EMNLP 2008, Regular paper, Oral, pp.991--1000. 2008. 10.
  • 日本語慣用句コーパスの構築と慣用句曖昧性解消の試み. 橋本力, 河原大輔. 電子情報通信学会研究会 言語理解とコミュニケーション研究会, pp.1--6. 2008. 7.
  • 慣用句の検出と格解析のための言語資源の構築. 橋本力, 河原大輔. 言語処理学会第14回年次大会発表論文集, pp.1148--1151. 2008. 3.
  • Detecting Japanese Idioms with a Linguistically Rich Dictionary. Chikara Hashimoto, Satoshi Sato, and Takehito Utsuro. Language Resources and Evaluation: Special Issue on Asian Language Technology, Volume 40, Number 3-4, pp.243--252. 2006.
  • 自動検出のための慣用句の分類と語彙的情報. 橋本 力, 佐藤理史, 宇津呂武仁. 第173回 自然言語処理研究会. 2006-NL-173, pp.59--66. 2006.5.
  • 依存構造照合に基づく慣用句自動検出. 橋本 力, 佐藤理史, 宇津呂武仁. 言語処理学会第12回年次大会発表論文集, pp.829-832. 2006.3.
  • 自動検出のための慣用句の分類と語彙的情報. 橋本 力, 佐藤理史, 宇津呂武仁. 言語処理学会第12回年次大会発表論文集, pp.825-828. 2006.3.
  • Japanese Idiom Recognition: Drawing a Line between Literal and idiomatic Meanings. Chikara Hashimoto, Satoshi Sato, and Takehito Utsuro. COLING/ACL 2006 Poster, pp.353--360. 2006.7.

謝辞 Edit

本プロジェクトは、京都大学情報学研究科ーNTTコミュニケーション科学基礎研究所共同研究ユニット 「グローバルコミュニケーションを支える言語処理技術」の活動の一環として行われました。

また本プロジェクトは、NTTコミュニケーション科学基礎研究所と、日本学術振興会科学研究費補助金若手研究(B) 「日本語慣用句の検出と格解析のための言語資源の構築」19700141(研究代表者:橋本 力)からの支援 を受けております。

上記共同研究ユニットのメンバーの方々と 情報通信研究機構のFrancis Bondさん名古屋大学の佐藤理史教授 からたくさんの有益なご意見をいただきました。 また、 佐藤理史教授 から日本語の基本慣用句リストをいただきました。 心より感謝申し上げます。