TransOMCS中从语言图提取常识知识的示例分析

蜗牛互联网技术资讯 2021-12-16 266 0

今天就跟大家聊聊有关TransOMCS中从语言图提取常识知识的示例分析，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

一、背景毋庸置疑，常识在自然语言理解(NLU)中是极为重要的。以下图为例，人类可以很容易理解“踩进水坑”与“回家换鞋”这两个事件是如何关联起来的，因为我们知道踩进水坑会导致鞋湿，而湿的鞋会让人感到不舒服，自然就会想回家换掉。由此可见，常识与事件是息息相关的。

何为常识？一个较为流行的定义是“对于正常人来说，常识一般是指对周围事件的良好判断”。而在AI领域，通常将常识作为一个术语来指代“大多数人公认的百万级的基本事实和理解”。常识与事实（fact）一个很重要的区别是由于默认常识是大家所熟知的，为了交流的高效性，在社交中通常会被人们所忽略。比方说，“如果你忘掉了一个人的生日，他可能会很生气”，“鸟可以飞，但书不能”，这些是日常交流中不需要重复的。另外一个重要区别是与事实不同，常识更多的是一种倾向性，它并不总是正确的。如上述两个例子，如果你朋友知道你最近很忙，就算你忘记他生日，他不一定会生气。不是所有鸟都可以飞，比如鸵鸟。

为了帮助机器常识，现已有很多常识资源，通过人工智能的方式建立常识知识库，较为有名的是ConceptNet/OMCS(Open Mind Common Sense)。最初的OMCS包含了20种常识关系类型，最新的ConceptNet 5.0在OMCS的基础上拓展到了33种，除了常识外，还涉及WordNet相关知识.

最近推出的一个常识数据集叫ATOMIC，包含了大量生活事件的常识，利用了9种人定义的关系类型。但是这些以人工构建常识知识库的方法总存在一些局限性：（1）它只能覆盖选定的边；（2）每寻找一个新的边，都需要花费大量的金钱和时间。

想要突破以上局限性，自然的想法是能否通过自动的方式从自然语言中获取常识。为了研究这个问题，首先需要弄清常识在自然语言中是如何表达的，而这就要溯源到语义理论的下界。语言描写去掉语法就得到了语义。理解语言既需要“说话者的语言知识”，也需要“有关世界的知识”，这里的“世界知识”包括事实和常识两部分。

如下图的例子，三个句子语法一样，但描述了三个完全不同的事件。但当说“它太危险了”，句中“它”在三个选项中显然更倾向于“狮子”，因为这是常识。总结来说，当语法被困定时，我们做出的选择可以反映出我们对世界的理解。

在语言学上这被称为选择偏好(Selectional Preference)，是选择限制(Selectional Restriction)的一种泛化，通常也被用为一种非常重要的语言学特征。它最初只被运用到了WordNet中的IsA层次结构和谓语-宾语关系。通过此公式，我们可以非常容易地使用不同组合的频率/合理性得分来反映人们的偏好。例如，一个模型或知识库能够给予三元组(“Cat”-IsA-“Animal”) 的分数高于(“Cat”-IsA-“Plant”)，就可以认为这个模型或知识库具备了“猫是一种动物，而不是植物”的常识。

只有以上两种关系是不能覆盖全部常识知识的，因此学术界也尝试进行了探索，如下图所展示的。一阶关系，比如扩展到主语位。二阶关系，有时对于一个事件来说，我们对它的主语和谓语没有直接要求和倾向性，但对于主语和谓语的特征有很直接的倾向性。进一步拓展，可以得到更高阶的关系，事件之间的倾向性。如下图所示这项工作，主要研究了语言关系的选择偏好与人类定义的常识之间的联系。

二、TransOMCS模型框架

上面已经提到获取常识的常规方法通常需要费力且昂贵的人工注释，这在大规模上是不可行的。对此，张洪铭等探索出了一种新的实用方法——TransOMCS，从语言图中提取常识知识，目的是将通过语言模式获得的廉价知识转化为昂贵的常识知识。下图为这项工作的总体框架。

⑴首先对语言知识图和种子常识知识图两个数据集进行模式提取，但提取得到的模式可能存在噪音，因此在此基础上需要进一步的清洗和挑选。

⑵然后，在获取到高质量的模式后，可以迁移回原始的语言知识图，从而得到大量的常识知识。

⑶最后，对获取到的常识知识进行打分，得到最终更高质量的常识。整个过程不需要额外的标注，因此十分便宜且具有较好的拓展性。

下图为针对不同常识关系语言图和提取模式的示例，这些模式是通过种子常识元组和图中的单词匹配来提取的。给定语言图作为输入，可以将这些模式应用于提取类似OMCS的常识。提取的头部和尾部概念分别用蓝色和红色圆圈表示。

模式选择需要重新精炼自动提取的模式，在这个过程中，应综合考虑高频率和复杂性两个因素。对于每个模式，并不是简单看其本身的分数，而是需要将所有的候选模式经过对比分析，选择置信度更高的。

为了最大程度地减小模型噪声的影响，提出了一个知识排名模块，根据置信度对所有提取的知识进行排名。这里的置信度主要利用原始句子的语义和频率两方面的信息。

三、实验结果

实验部分，将ASER作为语言知识图，种子常识知识图则采用OMCS/ConceptNet。结果是输入了一个大型的常识库——TransOMCS，是由OMCS格式转换而来的。虽然TransOMCS与OMCS类似，但其规模约是OMCS的一百多倍。另外，在与人工标注的对比中发现，TransOMCS是拥有高质量的高置信度。最重要的是，这几乎没有任何成本。

下表列出了模型评估的摘要，主要对比了COMET和LAMA两个基准模型。从表中可以看出，TransOMCS在数量上胜于另外三个模型，即使是TransOMCS的最小子集也要比其他最大生成策略高出10倍。另外，TransOMCS在新颖性方面也优于COMET，尤其是新颖概念的百分比。其背后的原因在于COMET是一种纯粹的机器学习方法，它在训练集上学习生成尾部概念。模型越强大，就越可能拟合训练数据，产生的新颖概念就越少。因此，通过实验证明了确实可以将语言知识转移为常识知识，SP可以有效地表示常识。

下图为案例研究，以进一步分析不同的获取方法。COMET是唯一可以生成长概念的模型，但同时它也遭受生成无意义单词的困扰。除此之外，COMET可能会拟合训练数据，即使十个输出不完全相同，但其中四个都表示同一件事。

LAMA的最大优势在于它不受监督，但它有两个主要缺点：（1）它只能生成one-token的概念，对于常识知识来说还远远不够；（2）LAMA的质量不如其他两种方法。

与COMET相比，TransOMCS可以产生更多新颖的常识知识。同时，与LAMA不同，TransOMCS可以生成multi-token概念。但TransOMCS也有两个局限性：（1）无法提取长概念，很难找到精确的模式匹配；（2）由于提取过程严格遵循模式匹配，因此可能提取语义不完整的知识。

实验的最后，还设计了常识阅读理解和日常对话生成两个下游任务，结果显示如下图。对于阅读理解任务，TransOMCS有助于提高总体的准确性，而COMET和LAMA对于此任务的贡献很小。对于日常对话生成任务，TransOMCS在生成的响应质量上表现出显著的提高。

简单总结来说，讲者这项工作证明了从语言知识到常识的可转移性，提出了可自动获取常识的可扩展的模型。另外，还设计了TransOMCS，它比OMCS大两个数量级。

四、DISCOS: 从ASER到ATOMIC

除了TransOMCS这项工作，张洪铭博士还介绍了他参与的另一项工作DISCOS，目前已被WWW 2021所接收。同样针对先前常识获取方法的局限性，DISCOS常识获取框架也希望自动从更实惠的语言知识资源中挖掘昂贵的复杂常识知识。

下图是DISCOS的一个示例，来自ASER的最终事件通过指示相应话语关系的有向边连接起来。DISCOS旨在将ASER中的话语边转换为“如果-那么”的常识边。例如，ASER边（“我饿了”，结果是“我吃了午餐”）将被转换为（如果“ X饿了”，那么X想要“吃午饭”）常识元组。与OMCS不同，DISCOS只专注于更高阶的SP，它的头和尾通常是长且复杂的，因此需要用神经网络代替固定模式。

DISCOS的总体框架如下图，ATOMIC和ASER中的事件主体完全不同，在ATOMIC中主体是诸如“Person X”和“ Person Y”的占位符，而在ASER中则是具体人称代词“他”和“她”。为了对齐两个资源，首先将ATOMIC中的所有头和尾映射到ASER中。形式上，需要一个映射函数将输入的字符串映射到ASER中相同的节点格式。接下来，在给定节点和常识关系的情况下，利用规则选择候选话语边。最后，采用一种新颖的常识知识种群模型BERTSAGE来对候选常识元组的合理性进行评分。