摘要
在关系抽取中,远程监督引起两个主要挑战:
- 错误标签
- 长尾关系(NYT数据集中,41个关系类别(共53个)只有不到1000个训练样例)
最近的工作通过“多实例学习的选择性注意力”减轻错误标签影响,
但即使引入关系的层次结构来共享知识,也不能很好地处理长尾关系。
为解决上述问题,本文提出一种新的神经网络,即协作关系增强的注意力(Collaborating Relation-augmented Attention,CoRA)。
具体如下:
- 首先提出关系增强注意力网络(relation-augmented attention network),作为 base model。
- bag级别的sentence-to-relation注意力机制,最大程度减少错误标记的影响。
- 基于 base model,引入在关系的层次结构中,各关系间共享的协同特征(collaborating relation features)
- 促进关系增强过程
- 平衡长尾关系的训练数据
主要训练目标:
- 预测句子bag的关系
辅助目标:
- 指导关系增强过程,以获得更准确的bag级特征表示
CoRA在数据集NYT上进行的实验在 $Precision@N$,$AUC$ 和 $Hits@K$ 指标上均达到SOTA。
对比实验的进一步分析也证明了CoRA在处理长尾关系方面的卓越能力。
引言
在关系抽取中,远程监督引起两个主要挑战:
- 错误标签
- 长尾关系(NYT数据集中,41个关系类别(共53个)只有不到1000个训练样例)
- 对于错误标签问题:
最近的工作大多是通过“多实例学习的选择性注意力”减轻错误标签影响
- 对于long-tail问题: