[关闭]
@thousfeet 2019-03-07T14:43:08.000000Z 字数 1331 阅读 1037

同样是给单词打标签,为什么SRL难?(19.3.6)

papers


对于常见NLP问题,可分类为语法和语义任务如下:

syntactic: part-of-speech tagging、chunking、parsing
semantic: word-sense disambiguation、semantic-role labeling、named entity extraction、anaphora resolution

SRL问题是在2002年提出的,但比看起来相似的问题POS难许多,因为其本质目标不同:

POS -> 语法标识(syntactic role, 如名词、副词...)
SRL -> 语义标识(semantic role, 解决"who" did "what" to "whom")

2008 ICML 的一篇论文 A Unified Architecture for Natural Language Processing Deep Neural Networks with Multitask Learning 中,作者用神经网络 jointly learning 六种NLP问题,包括 POS、chunking、NER、SRL,但作者认为 SRL 是其中最难的

论文在模型架构中提到了两个阐释SRL问题复杂之处:1. 在把句子序列化为向量时,通常采用固定长度的windows approach,这对于POS可行,但对SRL不行,因为role常依赖于windows之外的部分。2. 对POS和NER,学习时采用线性操作效果就不错,但SRL需要非线性模型。

从最终的效果也可以看出:POS准确率97.09%、chunking准确率96.2%、SRL准确率最好的只有大约85.5%。直到现在2019年的论文,仍然把SRL视作一个具有挑战性的问题。

SRL到底难以解决什么样的句子类型?2016 ACL 的一篇论文 Neural Semantic Role Labeling with Dependency Path Embeddings 就提到一个例子:He had trouble raising funds. 作为对比的四个现有的SRL系统中有两个把trouble当成“who”,还有两个检测不出哪个是“who”。

对这个句子Stanford nlp 的 parsing结果如下:

Tagging

He/PRP has/VBZ trouble/NN raising/VBG money/NN ./. 

Parse

 (ROOT
   (S
     (NP (PRP He))
     (VP (VBZ has)
       (NP
         (NP (NN trouble))
         (VP (VBG raising)
           (NP (NN money)))))
     (. .)))

Universal dependencies

 nsubj(has-2, He-1) 
 root(ROOT-0, has-2) 
 dobj(has-2, trouble-3)
 acl(trouble-3, raising-4) 
 dobj(raising-4, money-5)

(推翻之前的intuition:parsing结果的subj和obj是语法上对于该谓语的主语和宾语,不一定是语义上的who和whom,虽然通常之间是有很大联系的。所以简单句如He plays guitar.这种可以直接判断,而复杂句中没有直接指向,不能替代SRL,需要通过训练。)

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注