“蒙古语语料库”二期工程:填补互联网上无蒙古文文献空白
中新网呼和浩特11月26日电 (记者 李爱平)内蒙古自治区社会科学院“蒙古语语料库”首席专家巴特尔26日向中新网记者介绍,正在实施的“蒙古语语料库”二期工程(简称二期工程)总字数将达到1.2亿词,目前已完成佛教重要典籍《甘珠尔经》的录入工作。其最大意义在于“填补互联网上无蒙古文文献的空白,最终能使蒙古学学者有文献可用”。
巴特尔对记者透露,二期工程“文献语料库”是“扫描文件、电子文档、拉丁文转写”三位一体的大型蒙古文文献语料库。
巴特尔表示,二期工程语料库有三大特点:第一、穷尽式收集自蒙古文第一份文献成吉思汗碑以及《蒙古秘史》等中世纪文献,好中选优《黄金史》《甘珠尔经》《御制清文鉴》等木刻板文献,均衡选录社会科学、自然科学、报纸、政治、法律、文学、医学、农牧业、应用、口语等10大类文献;第二、遵循文献学原则,即每份文献提供原图、录入文件、拉丁文标音三种形式;第三、语料库实现免费在线网络查询检索。
巴特尔告诉记者,二期工程自2015年实施近三年来,截至目前已完成13世纪—16世纪中世纪文献、17世纪—18世纪近代文献(大部分)、19世纪现代文献部分和20世纪—21世纪当代文献部分,约完成8000万字语料的录入校对工作。
“蒙古语语料库建设工程”是“一次规划,多年实施”的中国首个蒙古语、达斡尔语、鄂温克语、鄂伦春语大型综合性语料库。它涵盖言语语料和文献语料两部分,总字数将达到2亿词。
2005年“蒙古语语料库建设工程”确立为内蒙古自治区民族文化大区建设重点项目,设计20年完成。一期工程言语语料库(2005-2014)已于2014年11月验收,二期工程文献语料库(2015-2024)正在实施。
巴特尔表示,一期工程言语语料库(8000小时语料)旨在大规模搜集真实言语语料,重点在中国八省自治区、蒙古国四省一市、俄罗斯布里亚特共和国和卡尔梅克共和国境内97个点采访了6725人,搜集蒙古语、达斡尔语、鄂温克语、鄂伦春语自然口语语料4192小时(相当于4000多万词)。它是已建成的世界上最大的蒙古语自然口语语料库。同时还完成了4000多小时的书面语语料库。两项合计“蒙古语语料库建设工程”一期工程共完成了8000多小时的言语语料。
在巴特尔看来,二期工程的实施,不仅对蒙古语等少数民族语言(文字)的规范化、信息化和内蒙古语言生活的健康和谐发展,具有重要的理论意义,也对保护、传承和开发、利用民族语言文化遗产,维护中国语言文化安全具有重要的现实意义。(完)
[责任编辑:杨永青]