Site menu:

gcoe_pamphlet_banner tufs_banner ubli_banner
日本語 Top » コーパス言語学 » 中規模・小規模言語コーパス

1. プロジェクト名:
中規模・小規模言語データのコーパス構築 

2. 内容概略:
コーパスデータと電子辞書の両者あるいは一方が存在しない言語について、一次資料の電子化、コーパス化、電子辞書、機械可読辞書の開発を行う。ミャオ語(中国)、サンタル語、ロンウォー語などのデータのコーパス化を目標とする。

3. 事業推進担当者:峰岸真琴、澤田英夫 

4. 研究協力者:
田口善久(千葉大学、ミャオ語)、高島淳(AA研、サンタル語)、Ganesh MURMU(Ranchi University、サンタル語)、Peri Bhaskararao(元AA研、トダ語)

5. 進捗状況:
ミャオ語:語彙調査結果のデータベース化が終わり、出版物として成果を公開した。

サンタル語:P. O. Bodding’s Santal Dictionary(1932-1936)のデータ(1990年以来、峰岸、高島、Ganesh が日本とインドの共同プロジェクトとしてデータベース化を進めたもの、見出し語数約40,000語、3406ページ、データ量 10MB、見出し語と英訳部分について、データ公開中)の見出し語について母音の出現環境についての計量的研究を行い、同言語が8母音体系であるとするBodding の記述に反し、6母音体系である可能性が存在することを明らかにした。2008年度には、引き続き同辞典の例文の検索を可能にするためのタグの改良と、データの校正を行った。 データはCbLLEサイトで利用可能。

ロンウォー語:語彙(SAWADA(2004)の改訂増補版)のデータベース化が終わり、CbLLEのサイト上で利用可能。

パラウン語:Japanese-Burmese Dictionary (Ono, 1995)の日本語見出しの入力し、IPA表記でパラウン語訳を行った。

トダ語:話し言葉を録音し、いくつかを精密表記により転写を行っている。トダ語テクストのサンプル分析は、公開用コーパスの表示形式の例として公開している。


6. 成果物:
ミャオ語:田口善久(2008)『羅泊河苗語語彙集』(東京:東京外国語大学)

サンタル語:
コーパス公開URL:
http://www.aa.tufs.ac.jp/~mmine/india/Bodding2k/index.html

論文:
Minegishi, Makoto, Jun TAKASHIMA and Ganesh MURMU “On the narrow and open “e” contrast in Santali”, (In Print Corpus Analysis and Diachronic Linguistics, John Benjamins Publisher Co.)

発表:
Minegishi, Makoto, Jun TAKASHIMA and Ganesh MURMU “Corpus-based Analysis based on Bodding’s Santal Dictionary”, the third International Conference of Austroasiatic Linguistics, Deccan College, Pune, India, November 28, 2007.
Minegishi, Makoto, Jun TAKASHIMA and Ganesh MURMU “On the narrow and open “o” contrast in Santali”, 32nd All India Conference of Linguists, Lucknow University, India, December 21-23, 2010.

ロンウォー語:
コーパス公開URL:
http://cblle.tufs.ac.jp/med_min_lang/lhaovo/

論文:
Sawada, Hideo (2010) "Ronwō-go no Meishiku no Sosei (Composition of noun phrase in Lhaovo)" [in Japanese]. Makoto Minegishi et al. (ed.) Working Papers in Corpus-based Linguistics and Language Education 7, Tokyo University of Foreign Studies. pp.259-283.
Sawada, Hideo (2010) "'Upward-Curling' Realization of Tone L in Lhaovo (Maru) Language". Zhaoming Dai (ed.) Forty Years of Sino-Tibetan Language Studies: Proceedings of ICSTLL-40. Heilongjiang University Press. pp.168-175.
Sawada, Hideo (2009) "Ronwō-go no Kaku-hyōji-keishiki no Taikei (Case Marking System of Lhaovo" [in Japanese]. Sawada Hideo (ed.) Grammatical Phenomena of Tibeto-Burman Languages 1: Case-marking and Related Matters. ILCAA, Tokyo University of Foreign Studies. pp.175-222.
Sawada, Hideo (2008) "20-seiki Shotō no Ronwō-go Shiryō (A Lhaovo (Maru) Material of Early 20 Century)" [in Japanese]. S.Fujishiro, M.Shogaito (ed.) Dynamics in Eurasian Languages, (Contribution to the Studies of Eurasian Languages series vol.14), Kobe City College of Nursing. pp.177-245.
Sawada, Hideo (2008) "Ronwō-go Tekisuto (II) (Lhaovo Texts (II))" [in Japanese]. Peri BHASKARARAO (ed.) Research on Minority Languages of South and South-East Asia, Report of Research Project, Grant-in-Aid for Scientific Research. ILCAA, Tokyo Univ. of Foreign Studies. pp.45-86.

発表:
Sawada, Hideo, "Case-marking of P and A in Lhaovo". Workshop on Optional Case Marking, 16th Himalayan Languages Symposium, SOAS, London, 2010.9.3.
Sawada, Hideo, "ʔă-prefixation on Verbs and Auxiliaries in Lhaovo (Maru) Language: Non-derivational Use". 39th International Conference of Sino-Tibetan Languages and Linguistics, University of Washington, Seattle, 2006.9.14-17.

トダ語:
コーパス公開URL:
https://sites.google.com/site/bhaperi/

論文:
Bhaskararao, Peri "Correlating linguistic abstractions with speech signal: Issues from continuous speech of Indian languages", 2010 - Workshop on Image and Speech Processing, International Institute of Information Technology, Hyderabad, India. December 16, 2010