The Development of the Mandarin Interlanguage Corpus (MIC)—A Preliminary Report on a Small-Scale Learner Database

Wai-lan Tsang, The University of Hong Kong; The University of Cambridge; Yuk Yeung, The University of Hong Kong


In this paper we report on the recent construction of a small-scale learner corpus with written and spoken output from pre-intermediate to intermediate Mandarin learners of different first languages—The Mandarin Interlanguage Corpus (MIC). The learners attended a 2-year certificate course on Mandarin Chinese at a tertiary institution in Hong Kong. Both their written and spoken production in the form of coursework and examinations, amounting to a total of about 50,000 characters and 60 hours of oral output, has been included in the database so far. The rationale, methodologies (i.e., collection, transcription, and annotation), and design of the database are described. Challenges in compiling the database are also addressed.
本論文は、The Mandarin Interlanguage Corpus (MIC) という、様々な母語話者から構成される初中級から中級までの中国語学習者の書きことばと話しことばの小規模学習コーパスの構築過程を報告する。学習者たちは香港の高等教育機関における2年間の中国語課程に参加しており、授業および試験において収集されたサンプルは、これまでに約50,000文字の書きことばと60時間に相当する話しことばが収録された。本コーパス構築における論理的根拠、方法論(収集、書き起こしと注釈の付記)、およびデータベース設計について紹介し、データベースを編纂する際の諸問題についても考察する。
