curve_top_left curve_top_right
 

Home

■更新情報
・2010/04/28 39574語 公開
・2010/05/10 48671語 公開(9097語追加)
・2011/10/13 267442語 公開(218771語追加)


■概要・目的
CbLLE品詞検索エンジン(日本語学習者による書き言葉)は、グローバルCOEプログラム「コーパスに基づく言語学教育研究拠点(CbLLE)」で構築した「日本語学習者言語コーパス」を、品詞検索できるようにしたものです。日本語形態素解析システム「茶筌」を用いて形態素解析を行い、その結果を編集して品詞タグを付したものです。この検索エンジンは、グローバルCOE 「コーパスに基づく言語学教育研究拠点 (CbLLE)」の研究成果を広く一般に公開するものであり、日本語学習者による日本語作文を分析する目的で開発されました。
参考:
http://chasen-legacy.sourceforge.jp/

■コーパスデータの構成
この品詞検索エンジンは、「日本語学習者言語コーパス」のうち次の2つのデータについて品詞検索が行えるようになっています。

  1. 日本語学習者による作文データ(台湾淡江大学での収集分、総語数約200,000語)

収集時期とそのタスクは以下の通りです。

 

収集時期

タスクの種類

データ収集(第1期)

2月下旬~6月下旬
(2週間に1回)

機能別タスク8種類(f1~f8)
日記タスク8回(d1~d8)

データ収集(第2期)

9月上旬~12月上旬
(2週間に1回)

日記タスク8回(d9~d16)

2.日本語母語話者による作文データ(総語数約60,000語)
1のデータと同じ機能別タスク8種類(記号:f1~f8)と、日記タスク1回(記号:d)を、1度に収集しました。

機能別タスクの内容は以下の通りです。

 

タスク番号

内容

タスク1

f1

自己紹介

タスク2

f2

特徴を述べる

タスク3

f3

予定を述べる

タスク4

f4

禁止・指示をする

タスク5

f5

経験を述べる

タスク6

f6

許可を求める

タスク7

f7

助言する

タスク8

f8

希望を述べる


データ名は次のような構成になっています。
例1)
Tw 01 f1 -D
  収集地
個人番号 タスク番号 辞書使用あり
例2)
Tw 01 d1  
  収集地
個人番号 タスク番号 辞書使用なし
例3) NS
01 d  
  母語話者 個人番号 タスク番号  


つまり、例1「Tw01f1-D」は、「台湾で収集、個人番号01、機能別タスク1回目、辞書を使って書かれた作文」を、例2「Tw01d1」は「台湾で収集、個人番号01、日記タスク1回目、辞書を使わないで書かれた作文」を、例3「NS01d」は「母語話者、個人番号01、日記タスク」を表しています。
参考:
http://cblle.tufs.ac.jp/llc/ja/

■研究チーム
事業推進担当者:海野多枝(大学院総合国際学研究院准教授)
学内協力者:林俊成(大学院総合国際学研究院教授)
大学院生:鈴木綾乃(博士後期課程)、楊嘉貞(博士後期課程)、井之川睦美(博士後期課程)、鳥居彩(博士前期課程)
学部生:林奈美(外国語学部)、樫本るい(外国語学部)
データ提供協力者:彭春陽(台湾 淡江大学)、堀越和男(台湾 淡江大学)
インフォーマント:
学習者:台湾の大学で日本語を主専攻として学ぶ学習者。データ収集時、日本語レベルは中級(中級開始後3ヶ月が経過)。
母語話者:日本語を母語とする大学生。



UBLE

 
curve_top_left curve_top_right