@evilking 2019-04-25T09:48:02.000000Z 字数 1804 阅读 1583

NLP

Context-Dependent Conceptualization

关键词: 概念化，上下文依赖

翻译论文：https://www.microsoft.com/en-us/research/wp-content/uploads/2013/01/ijcai13_dongwoo_camera_ready.pdf

上下文依赖的概念化

我们提出利用单词的上下文来提升该单词的概念化效果。我们展示了我们的上下文依赖的概念化 (CDC) 方法在两个实验中优于之前的方法：预测一个没有见过的 frame 元素，测量带上下文的单词的相似度。

使用主题去提升概念化效果

CDC 方法中一个短文本的主题分布是为了作为每个实例单词概念化的指南服务的。

在我们下面说明的例子中，CDC 的工作流程如下：

给定一个短文本，比如 "apple and iPad"，LDA 输出一个高概率到电脑公司相关的主题上.
对同一个短文本，Probase 输出一个高概率在单词 'apple' 映射到概念 "fruit" 和 "firm"上.
在公司相关的主题中，"firm" 有一个高概率，而 "fruit" 有一个低概率.
在给定文本下的不同主题、以及不同主题下的概念的概率权重之和，我们能够得出对于 'apple' 这个实例来说，概念'firm' 的概率比概念'fruit' 的概率更大.

这个工作的挑战和贡献是在利用 LDA 和 Probase 使上面的流程形式化. 下面我们来详细描述.

估算主题分布

CDC 的第一步，我们使用主题模型去推断给定的短语的主题分布. 我们首先利用一个外部的语料库，使用 Gibbs 采样来训练 LDA，我们从中获取采样 $C_{wk}$ ，表示主题 $k$ 中出现单词 $w$ 的次数. 在“训练主题模型”部分我们将会详细介绍我们是如何训练主题模型的.

给定一个训练模型 $C$ ，我们能通过流采样方法推断出一个句子中的单词对应的主题. $\vec{s}$ 表示目标句子的单词序列， $\vec{z}$ 表示句子 $\vec{s}$ 对应的主题向量. 基于训练好的主题模型，我们利用 gibbs 采样推断出 $\vec{z}$ 的后验概率.

$p(z_i = k|\vec{s},z_{-i}, C) \\ \approx (n_{.k} + \alpha) \times \frac{C_{s_ik} + n_{s_ik} + \beta}{\sum_w{C_{wk} + n_{wk} + |W|\beta}}$

这里 $n_{wk}$ 表示单词 $w$ 被指定为主题 $k$ 出现的次数. |W| 是词典的大小， $\alpha$ 和 $\beta$ 是文档-主题和主题-文档分布的超参数. 我们用 $.$ 表示对索引求和， $z_{-i}$ 表示在句子中排除掉索引为 $i$ 的单词后对应的主题. 最后我们通过采样来评估句子中的每个单词 $s_i$ 的后验主题概率 $p(z_i)$ .

估算概念分布

在 CDC 的第二步中，我们基于句子的主题分布，通过计算每一个概念的概率来估算句子的概念分布。Probase 有两个特殊的词典，实体词典命名为 $I$ ，概念词典命名为 $C$ ，但是 LDA 不区分词的类型，并且使用这两个词典的联合词典作为一个词典，i.e. $W = C \bigcup I$ . 通过囊括实体词和概念词在同一个词典中，LDA 可以发现单词对应的高概率主题，这个主题是语义相关但是概念却有距离，例如 iphone 和 computers. 形式上，我们计算在给定一个带有上下文主题的实体词 $w$ 对应的概念 $c$ 的概率计算公式如下:

$p(c|w,z) \approx p(c|w) \sum_k{\pi_{wk} \phi_{ck}} , \\ \phi_{ck} = \frac{C_{ck} + \beta}{\sum_w{C_{wk}} + |W|\beta}$

这里 $c$ 是概念在词典中的索引， $\pi_{wk} = p(z_w = k)$ 是推测出的主题分布， $p(c|w)$ 被定义在 Probase 中， $\phi_{ck}$ 是给定主题 $k$ 下的概念 $c$ 的概率. 通过考虑主题分布 $\pi_{wk}$ ，求和项调整概念 $c$ 的概率在给定实体词 $w$ 的上下文的情况下。

训练一个主题模型

LDA 在一个单纯以语料驱动的方法中发现主题. 因此，为了训练一系列的主题能覆盖大多数 Probase 中重要的概念，我们用一个三百万的wiki百科文档作为语料来训练 LDA. 为了估算后验概率，我们使用 gibbs 采样，1000次迭代，500次采样. 我们设置文档主题分布的超参数为 $\alpha = 0.1$ ，设置单词-主题分布的超参数为 $\beta = 0.01$ . 设置主题数 $k$ 分别为 ${100, 200, 300}$ ，这三种主题分布去试验上下文依赖的概念化.