1. プロジェクト名: 学習者コーパス

2. プロジェクトの概要:

本プロジェクトの目的は、海外の教育機関でデータ収集を行い、日本語の学習者コーパスを構築することにある。主に2つの活動を実施した。1)E-ラーニングを活用した作文データ収集によるコーパス構築、2)作文データ収集及びオンライン誤用辞書の開発、である。1)のデータは、台湾淡江大学で収集した。これとパラレルのデータとして、英国SOASと本学の母語話者のデータも収集した。2)のデータは、英国リーズ大学、ウクライナキエフ国立大学、台湾銘傳大学で収集した。

3. 事業推進担当者: 海野多枝 (東京外国語大学)


4. 協力者:

1) E-ラーニングを活用した日本語学習者コーパス構築
学内協力者: 林俊成(東京外国語大学)、岡田昭人(東京外国語大学)
大学院生: 鈴木 綾乃(博士後期課程)、楊 嘉貞(博士後期課程)
井之川 睦美(博士後期課程)、鳥居 彩(博士前期課程)
データ提供協力者:彭 春陽(台湾 淡江大学)、堀越和男(台湾 淡江大学)
バルバラ・ピッツィコーニ(英国SOAS)


2) 日本語誤用コーパス構築とオンライン誤用辞書の開発
学内協力者: 望月 圭子(東京外国語大学)
大学院生: テレンス シャア(博士後期課程)、蔡 松益(博士後期課程)、
福田翔(博士後期課程)、小柳昇(博士後期課程)、
コベルニック・ナディア(博士後期課程)
張志凌(博士後期課程)、高杉寛子(博士前期課程)、
志田康宏(博士前期課程)、住谷和樹(博士前期課程)、
荒川和仁(研究生)、市川淳太(アジア・アフリカ学院)
データ提供協力者:森本 一樹(英国 リーズ大学), 大枝由佳(英国 リーズ大学)、 Gornovska, Olga (Kiev State Linguistic University ,Ukraine),
Yakovchuk,Svitlana(Kiev State Linguistic University ,Ukraine),
Yang, YuWen (MingChuan University,Taiwan)
Xu,MengLing(MingChuan University,Taiwan).


5. 進捗状況:

[1]台湾でのデータ収集(海野・林):以下のテキストデータを収集した。形態素解析は2012年3月までに完了する予定である。第1期(2008年2月~6月):機能タスク8種、日記タスク8回 22人(約52800字);第2期(2008年9月~12月):機能タスク9種、日記タスク8回 10人(約12000字);第3期(2009年2月~6月)機能タスク8種、日記タスク8回 24人(約72000字);第4期(2009年9月~12月)日記タスク8回 8人 (約13000字);第5期(2010年2月~6月)機能タスク8種、日記タスク8回 26人 (約74000字);第6期(2010年9月~12月)日記タスク8回 14人 (約22000字); 第7期(2011年2月~6月)機能 タスク8種、日記タスク8回 24人 (約87000字)
その他関連するデータ:①留学前後と留学中の比較研究を視野に入れて、SOAS, University of London(UK)の協力により、同様のタスクを用いて、留学中の日本語学習者のデータ収集を試験的に試みた。②日本語母語話者との比較研究を視野に入れて、日本語を母語とする大学生59名のデータ、(機能タスク8種、日記タスク1回)を収集した。これらは今後のプロジェクトで発展させていきたい。

[2]作文データ収集(望月):英国(145作文、113人、122,980字)、ウクライナ(169作文、59人、35585字)、台湾(81作文、29人、35178字)
以上のデータは、2012年3月までに以下の2つのコーパスで公開予定である。
・Learner’s Language Corpus of Japanese http://cblle.tufs.ac.jp/llc/ja/(文字列検索)
[1][2]のすべてのデータがここで公開される
・the CbLLE POS Research Engine (written Japanese by Japanese learners) http://cblle.tufs.ac.jp/tag/ja/index.php?menulang=ja(品詞検索)
[1]のすべてのデータがここで公開される

[3] 上級学習者の作文データベース(海野):121人(587作文、469600字)によるテキスト形式の作文データを公開中。

[4] 日本語誤用オンライン辞書(望月):上の[2]のデータにある380の作文から抽出された10498の誤用を統語的・意味的範疇に基づいて分類し収録したもの。海外の学習者・教師用に誤用の原因と正用についての情報も掲載している。ウエブ上で公開している。