Site menu:

gcoe_pamphlet_banner tufs_banner ubli_banner
日本語 Top » 言語情報学 » 分野別コーパス

1.プロジェクト名: 分野別コーパスを使った語彙・用例調査

2.プロジェクト概要:
コーパス用例調査のための検索エンジン(JSC)の開発を行った。JSCはコマンドラインから検索キーワード指定を行う。GCOEの他のメンバーに教科書コーパスを利用してもらうため、マウス操作で検索式の記述ができるWebインタフェースを開発するため外注発注している。また、形態素フィルターの開発も行っている。

3.事業推進担当者名: 佐野 洋

4.研究協力者名: 川口 裕司、投野 由起夫

5.進捗状況:
コーパス用例調査のための検索エンジン(JSC)の開発を行った。最終的には、GCOEの専用サーバーにインストールし、コーパス検索のために利用する予定である。
今年度は、JSCのインタフェースの改良を実施する予定で、外注発注を行っている。また、形態素フィルターの開発も行っている。
タグ付きコーパスの作成において、日本語の形態素解析には、昨年度Chasen(茶筅)を使用した。Mekabuもフリーソフトなので利用可能である。両者の違いは、形態素の認定単位の違いにあって、前者が比較的短い単位(形態素に近い)、後者がより長い単位(単語に近い)といわれている。Chasenの形態素解析結果から、外部から指定した規則に従って、形態素の認定単位を変更することができる形態素フィルタープログラムを開発している。なお、フィルター用の形態素変換規則の作成は本学で行う。例えば、日本語教育用の形態素区分をはじめ、松下文法風の形態素区分など日本語研究に利用可能なタグの付与ができるようにする。

6.成果物:
・コーパス検索ソフトウェア
・形態素フィルター
日本語教科書コーパス(1400万語)の分析、日本語家電製品取扱説明書コーパス(24万語)の分析を実施した。日本語教科書コーパスは検索システムを開発し、ウェブブラウザを通じた用例検索を実現した。
日本語家電製品マニュアルコーパスは言語学的な定性分析を行い、取扱説明書に頻出する機器操作説明における日本語従属節表現と英語の従属節表現の違いを明らかにした。