Wetts's blog

Stay Hungry, Stay Foolish.

0%

nlp-基础.md

  • 语言学

  • 语音学

  • 计算语言学:更侧重于计算方法和语言学理论等方面的研究

  • 自然语言理解:更偏向于对语言认知和理解过程等方面问题的研究

  • 自然语言处理:包含的语言工程和应用系统实现方面的含义似乎更多一些

自然语言处理大致研究方向:

  • 机器翻译(machine translation, MT)
  • 自动文摘(automatic summarizing 或 automatic abstracting)
  • 信息检索(information retrieval):从海量文档中找到符合用户需要的相关文档
  • 文档分类(document categorization/classification)
  • 问答系统(question-answering system)
  • 信息过滤(information filtering):自动识别和过滤那些满足特定条件的文档信息
  • 信息抽取(information extraction)
  • 文本挖掘(text mining)
  • 舆情分析(public opinion analysis)
  • 隐喻计算(metaphorical computation):研究自然语言语句或篇章中隐喻修辞的理解方法
  • 文字编辑和自动校对(automatic proofreading)
  • 作文自动评分
  • 光读字符识别(optical character recognition, OCR)
  • 语音识别(speech recognition)
  • 文语转换(text-to-speech conversion)
  • 说话人识别/认证/验证(speaker recognition/identification/verification)

自然语言处理涉及的几个层次

  • 语音学
  • 形态学(morphology):形态学(又称“词汇形态学”或“词法”)是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征,形态学处于音位学、句法学和语义学的结合部位,所以形态学是每个语言学家都要关注的一门学科。
  • 语法学(syntax):研究句子结构成分之间的相互关系和组成句子序列的规则。其关注的中心是:为什么一句话可以这么说,也可以那么说?
  • 语义学(semantics):是一门研究意义,特别是语言意义的学科。语义学的研究对象是语言的各级单位(词素、词、词组、句子、句子群、整段整篇的话语和文章,乃至整个著作)的意义,以及语义与语音、语法、修辞、文字、语境、哲学思想、社会环 境、个人修养的关系,等等。其重点在探明符号与符号所指的对象之间的关系,从而指导人们的言语活动。它所关注的重点是:这个语言单位到底说了什么?
  • 语用学(pragmatics):是现代语言学用来指从使用者的角度研究语言,特别是使用者所作的选择、他们在社会互动中所受的制约、他们的语言使用对信递活动中其他参与者的影响。目前还缺乏一种连贯的语用学理论,主要是因为它必须说明的问题是多方面的,包括直指、会话隐含、预设、言语行为、话语结构等。部分原因是由于这一学科的范围太宽泛,因此出现多种不一致的定义。从狭隘的语言学观点看,语用学处理的是语言结构中有形式体现的那些语境。相反,__语用学最宽泛的定义是研究语义学未能涵盖的那些意义__。因此,语用学可以是集中在句子层次上的语用研究,也可以是超出句子,对语言的实际使用情况的调查研究,甚至与会话分析、语篇分析相结合,研究在不同上下文中的语句应用,以及上下文对语句理解所产生的影响。其关注的重点在于:为什么在特定的上下文中要说这句话?

自然语言处理面临的困难

  • 歧义消解(disambiguation)
  • 未知语言现象的处理问题

自然语言处理的基本方法

  • 理性主义(rationalist)方法【规则】
  • 经验主义(empiricist)方法【统计】