- 语料库(corpus):就是存放语言材料的仓库(语言数据库)。
- 语料库语言学(corpus linguistics):基于语料库进行语言学研究
按内容构成和目的划分:
- 异质的(heterogeneous)
[黄昌宁,2002]
:最简单的语料收集方法,没有事先规定和选材原则。 - 同质的(homogeneous):与“异质”正好相反,比如美国的 TIPSTER 项目只收集军事方面的文本。
- 系统的(systematic):充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。
- 专用的(specialized):如:北美的人文科学语料库。
按语言种类划分:
- 单语的
- 双语的或多语的
- 篇章对齐
- 句子对齐
- 结构对齐
是否标注
- 具有词性标注
- 句法结构信息标注(树库)
- 语义信息标注
平衡语料库
- 平衡语料库着重考虑语料的代表性与平衡性。
- 语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。
-[张普, 2003]
平行语料库,两种含义:
- 一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有 20 个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。
- 另一种平行语料库是指在两种或多种语言之间的平行采样和加工。
- 共时语料库:是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。
- 历时语料库:是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。
判断历时语料库的 4 条原则 [张普, 2003]
:
- 是否动态:语料库必须是开放的、动态的。
- 文本是否具有量化的流通度属性:所有的语料都应来源于大众传媒,具有与传媒特色相应的流通度属性。其量化的属性值也是动态的。
- 深加工是否基于动态的加工方法:随语料的动态变化采集,并进行动态地加工。
- 是否取得动态的加工结果:语料的加工结果也是动态的和历时的。