Wetts's blog

Stay Hungry, Stay Foolish.

0%

nlp-语料库.md

  • 语料库(corpus):就是存放语言材料的仓库(语言数据库)。
  • 语料库语言学(corpus linguistics):基于语料库进行语言学研究

按内容构成和目的划分:

  • 异质的(heterogeneous)[黄昌宁,2002]:最简单的语料收集方法,没有事先规定和选材原则。
  • 同质的(homogeneous):与“异质”正好相反,比如美国的 TIPSTER 项目只收集军事方面的文本。
  • 系统的(systematic):充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。
  • 专用的(specialized):如:北美的人文科学语料库。

按语言种类划分:

  • 单语的
  • 双语的或多语的
    • 篇章对齐
    • 句子对齐
    • 结构对齐

是否标注

  • 具有词性标注
  • 句法结构信息标注(树库)
  • 语义信息标注

平衡语料库

  • 平衡语料库着重考虑语料的代表性与平衡性。
  • 语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。-[张普, 2003]

平行语料库,两种含义:

  • 一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有 20 个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。
  • 另一种平行语料库是指在两种或多种语言之间的平行采样和加工。

  • 共时语料库:是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。
  • 历时语料库:是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。

判断历时语料库的 4 条原则 [张普, 2003]

  1. 是否动态:语料库必须是开放的、动态的。
  2. 文本是否具有量化的流通度属性:所有的语料都应来源于大众传媒,具有与传媒特色相应的流通度属性。其量化的属性值也是动态的。
  3. 深加工是否基于动态的加工方法:随语料的动态变化采集,并进行动态地加工。
  4. 是否取得动态的加工结果:语料的加工结果也是动态的和历时的。