1.プロジェクト名: 言語処理・教育工学
2.プロジェクト概要:
形態素タグ付きコーパスの作成を行った。教科書160冊分(購入教科書は1,400冊)のデータを収録した。内訳は、中学校教科書は11冊,高校教科書は149冊である。また、比較のため新潮文庫100冊のタグ付きコーパスの試作を行った。
3.事業推進担当者名: 佐野 洋
4.研究協力者名: 川口 裕司、望月 源
5.進捗状況:
教科書テキストの電子化と電子化テキストへの形態素タグ付けを行った。全教科書を母集団と見なし,科目構成比を調べた。例えば,国語教科書について,平成19 年度市販されている国語教科書は中学校,高校合計で85点があり,その36.5%にあたる31冊分を教科書コーパスとして収録できた。コーパス化した160冊教科書の科目分布を表に示す。
【表 科目別教科書数内訳 】
科目分類 |
市販総数 |
収録数 |
比率 |
化学 |
24 |
6 |
25.0% |
家庭 |
32 |
19 |
59.4% |
国語 |
85 |
31 |
36.5% |
現代社会 |
28 |
14 |
50.0% |
情報 |
43 |
10 |
23.3% |
政治・経済 |
17 |
10 |
58.8% |
生物 |
23 |
3 |
13.0% |
地学 |
7 |
0 |
0.0% |
地理 |
23 |
13 |
56.5% |
物理 |
17 |
2 |
11.8% |
保健体育 |
10 |
2 |
20.0% |
総合理科 |
53 |
1 |
1.9% |
倫理 |
11 |
7 |
63.6% |
歴史 |
58 |
39 |
67.2% |
実業校専門科目 |
218 |
3 |
1.4% |
合計 |
649 |
160 |
24.7% |
偏りがないよう各科目から一定の割合で教科書冊数を決めるのが望ましいかもしれない。収録比率を見ると,科目間のバラつきが大きく,地学のような全く収録していな科目もあることが分かる。今後コーパスデータを拡充するならば,科目構成を考慮し,最終的には各科目からより均等な比率で収録対象を考慮してもいかもしれない。
日本語教育用の文型調査を行った。教科書の中に現れる実用例を抽出するために、現在、検索式の形式に変換する作業を行っている。
6.成果物:
・日本語教科書コーパス
・日本語文型検索用データ(作成中)