当前位置:主页 > 学前教育 >
学前儿童语料库建设的全球发展态势

 

  儿童语料是研究儿童行为、探索语言获得机制的重要基础。1787年,德国心理学家、哲学家迪特里希·蒂德曼出版的《婴儿行为日记》是最早记录儿童语言的著作。20世纪60年代,伴随着语料库语言学和计算机技术的发展,儿童语料库建设兴起。1969年建设的Okayama语料库等是世界首批建设的学前儿童语料库。据不完全统计,世界学前儿童语料库已达350余个。世界学前儿童语料库的建设历史和发展态势,可以从语料库技术和语料库内容两个层面来把握。

  学前儿童语料库建设技术:“三化”

  纵观世界学前儿童语料库建设技术的发展历程,尤其是近四十年来的发展变化,其特点可概括为“三化”。

  第一,语料采集技术数字化。儿童语料采集技术经历文字记录、录音、录像三个技术阶段。早期主要采用笔录、日记的方法采集儿童语料;随后开始使用录音技术,第一个使用录音技术采集儿童语料的是日本的Okayama儿童语料库;20世纪70年代,美国的Menn儿童语料库首次使用录像技术采集儿童语料。80年代至90年代,文字、录音、录像技术均得到采用。进入21世纪,传统的文字记录和磁带录音、录像方式逐渐式微,数字化音像摄录技术兴起并得到广泛应用。便携式采录设备的普及使得人们可以随时随地采集儿童语料。经统计,除未知建设年份的儿童语料库外,20世纪到21世纪,采用文字记录的儿童语料库建设比例约由10%下降为1%,采用录音的约由42%下降至30%,采用录像的由约28%上升为32%。总体而言,儿童语料采集技术逐渐形成数字化和泛在化的特点,并体现出从平面媒体、有声媒体向多媒体发展的趋势。然而相较于其他较成熟的语言资源建设,儿童语料库建设对人工智能、云计算等先进技术的应用还有差距。

  第二,语料采集方法多样化。儿童语料采集方法包括自然观察法、访谈法、实验法、网络采集法等。20世纪70年代之前,自然观察法是语料采集主要的甚至唯一的方法。此后,除自然观察法外,开始利用访谈法、实验法等采集儿童语料。21世纪,随着互联网技术的发展,CHCC儿童语料库等开始汇聚网络中的儿童语料。20世纪到21世纪,自然观察法的应用约从81%下降至68%,实验法约由16%上升为37%,访谈法的应用率也出现明显下降。采集方法直接影响调查对象语言产出的自然程度和主动程度,当代儿童语料库应当兼用多种采集方法并顺应数字时代的发展。

  第三,语料标注逐渐共识化。当前儿童语料库标注呈现三个发展特点。其一,从人工标注发展到计算机自动标注。例如,2013年,临沂大学建设的儿童多模态口语语料库使用多模态标注软件ELAN进行文本转录。其二,从单纯语言标注到兼顾话语标注。会话行为、言语行为、副语言、语用、语言事件、情绪情感等编码出现在语料标注规范中,这是语料库建设开始重视儿童话语的表现。其三,标注规则逐渐形成共识。目前,采用的最为广泛的儿童语料规范和采录工具,是美国卡内基梅隆大学国际儿童语言中心于1984年建设的CHILDES儿童语言数据交流系统。该系统同时发挥语料库汇聚的功能,世界学前儿童语料库中,约89%为CHILDES系统采录;大部分学前儿童语料库也都借鉴了CHILDES提供的语料标注规则。有些儿童语料库,如新加坡的五至六岁学前儿童华语口语语料库,采用“973当代汉语文本语料库分词、词性标注加工规范”,并将其用于新加坡华族儿童华语的语料标注。

  学前儿童语料库建设内容:“三意识”

  语料库技术是儿童语料库建设的实现途径,语料库内容则体现了建设的思路理念。考察CHILDES平台提供的300余篇官方文档,参考近千篇研究儿童语料库的文献,可以将近几十年来学前儿童语料库内容的发展总结为“三个意识”。

  融合意识。世界学前儿童语料库建设的融合意识主要体现在两方面:一是“语言结构”和“语言功能”两大范畴渐趋融合。目前,世界学前儿童语料库中,关注语言结构的有230余个,约占66%,这些语料库主要围绕儿童的语音、词汇、语法、副语言(符号)及识字能力等五个方面来建设;关注语言功能的有250余个,约占总数的72%,建设内容侧重于交际意图、语言社会化、话语、副语言(交际)、交际策略、言语行为等;既关注语言结构又关注语言功能的有近150个,代表着语言结构与语言功能两大范畴融合关注的建设方向。

  二是学术研究和社会应用逐渐融合。学前儿童语料库建设主要关注的两大社会领域,是儿童语言智能技术研发和儿童语言干预治疗。儿童语言智能技术的研发,体现在语言文字的单向识别和“人—机”双向交际互动建设,体现在将儿童语言智能技术用于儿童语言产品研发,这也是儿童语料库实现语言产业化转型的关键。儿童语言障碍研究与儿童语言干预治疗相结合,体现了语料库建设为特殊儿童提供语言服务的向善意识,这也是儿童语料库建设能够解决社会语言问题、为社会谋福利的重要领域。