GCN-based document representation for keyphrase generation enhanced by maximizing mutual information
相关研究
KE
模型首先使用预定义的规则或模板来选择一组候选短语。然后,根据监督方法或无监督算法对候选人对其进行重新排序,模型返回前n个短语作为关键短语
KG
CopyRNN为例,提出seq2seq
一些改进:
- 语义覆盖解决关键词重叠(one2set效果不错)
- 自适应奖励函数控制关键词生成数量
出发点
远距离建模
对于社交媒体和开放域文本,当前的KG模型很难关注文本的关键部分。纯粹基于RNN的方法可以更好地建模相邻单词之间的依赖关系,但不能很好地建模那些具有距离跨越的依赖关系结构。这些信息的本质是隐性的,是言语交叉的,而不是明确的。
生成与源文档意思一致的词,而非频率最高的词
KG任务的另一个关键挑战是确保源和目标关键字之间的一致性,因为它们应该在语义上相互依赖。与基于Seq2Seq的文本摘要类似,KG模型通常通过最大化似然估计(beamsearch)进行训练。由于模型不能确保文档与其相应的关键短语之间的一致性,因此它们倾向于生成与源无关的高频短语。为了解决文档及其生成的关键字之间的一致性问题
建图
在这项工作中,我们的目标是通过将由图卷积网络(GCN)获得的依赖信息与上下文信息相结合来解决信息分散的挑战。对于每个文本,我们首先为每个句子构建一个句法图,然后根据预定义的规则构建句子之间的边,得到一个文档级图。图中的每个节点对应一个单独的单词,一对节点之间的边表示它们的依赖关系。在图构建完成后,我们将其输入到一个GCN中,在非局部单词之间传播上下文信息,并捕获文本中的依赖性结构信息。从直观地看,依赖性信息在提取显著特征中起着重要的作用。我们推测,将依赖性信息整合到由RNN获得的上下文信息中,可以缓解信息分散的问题。基于GCN的节点表示被进一步输入到一个预测器网络中,以过滤出噪声词,并为复制机制提供潜在的候选词。
RNNS和GCNS都是必要的,前者提供上下文依赖关系,后者提供远距离/语法上的依赖关系
优点
- GKG的创新之处在于,它可以建模跨越距离的文本依赖信息,而这是现有的基于RNN的方法无法获得的。
- 变分选择网络确定copy和generated各自的概率
- 使用mutual information maximization for learning the representations from documents and phrases (互信息最大化学习文档和关键词的表示)
model结构
数据采用one2one格式
模型首先执行RNN编码器来获取文档和单词的上下文表示。然后,将图编码器应用于文档级图上,预测一个单词是否会被保留,并得到文档的结构特征。最后,RNN解码器以文档表示作为输入,并生成短语。
Sequence Encoder
词嵌入
word的embedding+词性POS(低维化)组成$x_i=[w_i,d_i]$
词性标注(Part-of-Speech Tagging),HMM
Parts-of-speech(也称为词性、词类或句法类别)很有用,因为它们揭示了一个单词及其相邻词的很多信息。知道一个单词是名词还是动词可以告诉我们可能的相邻单词(名词前面有限定词和形容词,动词前面有名词)和句法结构单词(名词通常是名词短语的一部分),使词性标注成为解析的一个关键方面
然后双向GRU处理,取在t时间步的$c=h^s={h_t^s前;h_t^s后}$作为文档的表示。
Intra-sentence edge: We apply dependency parser such as
HanLP to create dependency edges for each input sentence.
https://github.com/hankcs/HanLP