[关闭]
@fantaghiro 2016-10-10T11:03:04.000000Z 字数 2187 阅读 4112

《语料库应用教程》读书笔记

读书笔记 语料库


第一部分 语料库语言学基本知识与语料库基本操作

第一章 语料库语言学基本知识

语料库语言学基本概念

语料库语言学是一门实证性(empirical)学科。

语料库主要类型

生文本 vs. 标注文本

标注

词、形符、类符、类符/形符比

概率和频率

频率(frequency)是标准化了的频数(平均每百万、十万、万或千词中某个单词的频数)

索引、索引工具和索引行

索引(concordance)又称为“语境中的关键词”(key word in context, KWIC)

常见索引工具

搭配与类联接

搭配(collocation),类联接(colligation)

多词序列

多词序列(MWE/multiword expression)又称多词单位(MWU/multiword units)、复现词组(recurrent word combination),与此相关的还有词块(lexical chunks)、词簇(word clusters)、预制语块(prefabs或prefabricated chunks)、套语(formulaic sequence)、N元组(n-grams)等。

语义韵

语义韵(semantic prosody):举个例子,就是cause这个词,在concordance中就可以看出来,后面跟的总是不良的意义,这就是语义韵。

正则表达式

推荐EditPad Pro文本编辑器,全面支持正则,并可以对正则进行调试。

语料库应用的基本要素及步骤

语料库应用的基本要素

  1. 提出可回答的研究问题
  2. 拥有合适的语料库
  3. 拥有得力的语料库分析工具
    • 建库阶段
      • Sitman PC复读机(www.sitmansoft.com)
      • 文本整理器
      • PowerGREP
      • 手工标注软件AnnoTool(www.ling.sinica.edu.tw)
      • 英语自动词性赋码软件CLAWS4
      • 多语言自动词性赋码软件TreeTagger
    • 数据提取阶段
      • WordSmith Tools
      • AntConc
      • ParaConc 平行语料库检索及分析工具
      • PatCount 多文本语言特征数据提取工具
      • BFSU Collocator 搭配分析专用工具
      • BFSU Colligator 类联接分析专用工具
      • PowerGREP
    • 统计和数据分析阶段
      • SPSS
      • Chi-squre Calculator:卡方检验专用工具,Excel插件
      • Log-likelihood Calculator:对数似然率计算专用工具,Excel插件

第二章 文本采集与加工

文本采集

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注