中国人工智能的独角兽企业Squirrel AI Learning深入参与的研究项目

深度学习的第一个国际研讨会:方法和应用(DLG 2019)在苏州举行,阿拉斯加,美国于2019年8月5。值得一提的是,在中国人工智能的独角兽企业Squirrel AI Learning 深入参与的研究项目,在研讨会上获得了最佳论文和最佳学生论文奖。

深度学习是人工智能研究的核心。但是,这种技术不能直接应用于图形结构数据,引发学术界对图形深度学习的探索。在过去几年中,基于图形结构数据的神经网络在社交网络,生物信息学和医学信息学领域取得了显着成果。

KDD,ACM SIGKDD知识发现和数据挖掘会议,是数据挖掘领域的最高级别国际会议。自 1995年以来,KDD已连续举办20多次,年接待率不超过20%,今年的接待率不到15 %。这是值得一提的是,这也是第一年KDD采用了双盲评价它仍然分为研究跟踪和应用轨道。AC盘带的公开资料显示,KDD研究轨道已收到1179篇,其中111收到的口头论文和63,与14.8%的接收率海报论文。

申请专利已收到700多篇论文,其中45篇为口头论文,100篇为海报论文,接收率为20.7 %。在比较,在2018年,KDD研究轨道接收181吨与纸的18.4%的接收速率,并且所施加的跟踪接收到的文件112与22.5%的接收率。

作为第25届ACM SIGKDD知识发现与数据挖掘(KDD)会议的一部分,DLG 2019旨在汇集来自不同背景和不同视角的学者和从业者,共享图形神经网络领域的尖端技术。

以下是有关Yixue Group学习的Squirrel AI Learning获得的最佳论文和最佳学生论文奖的信息:

最佳论文:利用图神经网络解决基于RDF数据的文本生成问题。

在最佳论文奖被授予了“ 与RDF对文本生成上下文信息的开发利用图表神经网络由中国中部师范大学,IBM研究院,和松鼠AI共同撰写”。本文研究了基于RDF数据的文本生成,其任务是为给定的一组RDF三元组生成相应的描述性文本。

大多数先前的方法要么将此任务转换为序列到序列(Seq2Seq)问题,要么建模RDF三元组并使用基于图形的编码器解码文本序列。但是,这些方法都不能明确模拟三元组内和三元组之间的全局和局部结构信息。此外,他们无法使用目标文本作为建模复杂RDF三元组的附加上下文内容。

为了解决这些问题,本文作者提出结合图形编码器和基于图形的三重编码器来学习RDF三元组的全局和局部结构信息。此外,研究人员还使用基于Seq2Seq的自动编码器来监控图形编码器的学习,并将目标文本作为上下文。

WebNLG数据集的实验结果表明,研究团队提出的模型优于最先进的基线方法。

作者:

高汉宁,吴凌飞,胡柏,徐方利(IBM研究院的吴凌飞,松鼠AI的徐方利,华中师范大学的其他人)

为什么这项研究很重要?

资源描述框架是在结构化知识库中表达实体及其关系的通用框架。基于W3C标准,每个RDF数据是(主题,谓词,对象)形式的三个元素的三倍。

在自然语言生成(NLG)中,基于RDF数据的文本生成是一项具有挑战性的任务,由于其在行业中的广泛应用,包括基于知识的Q&A系统,实体摘要,数据驱动的新闻生成,等等

“例如,你有一个知识图,然后你需要做一个Q&A系统。你有SparQL(由RDF开发的查询语言),然后你查询这个知识图并返回一个RDF,这是非常困难的让人们了解RDF。本文旨在将返回的RDF答案转换为自然语言,以便人们可以轻松理解。“其中一位作者,IBM研究院的吴凌飞博士解释说。

有哪些挑战?

随着端到端深度学习的巨大进步,特别是在各种Seq2Seq模型中,基于RDF数据的文本生成取得了实质性进展。但是,如果简单地将RDF三元组转换为序列,则可能丢失重要的高阶信息。

由于RDF三元组可以表示为知识图,研究人员最近提出了两种基于图网络的方法,但两者都有其自身的缺点:例如,基于递归神经网络的模型不能表达实体和关系之间丰富的局部结构信息,而基于改进的图形卷积网络(GCN)的图形编码器不能在三元组内和三元组之间表达全局信息。

核心贡献:

为了解决上述问题,本文作者提出了一种新颖的神经网络体系结构,该体系结构使用基于图形的神经网络和上下文信息来提高模型基于RDF数据生成文本的能力。

研究小组提出了一种新的基于图结构的编码器模型,它结合了GCN编码器和GTR-LSTM三重编码器,对RDF三元组的多视图输入进行建模,并学习RDF三元组的局部和全局结构信息。

两个编码器都生成一组节点表示。GCN生成的节点可以更好地捕获RDF三元组中的本地结构信息,而GTR-LSTM生成的节点主要关注全局结构信息。研究小组通过组合GCN和GTR-LSTM生成的节点和均值池来获得图嵌入。

由于目标参考文本包含与三元组几乎相同的信息,因此研究团队使用基于Seq2Seq的自动编码器来监视图形编码器的学习,目标文本作为辅助上下文。

实验结果:

研究团队使用WEBNLG数据集,该数据集由资源端三元组数据集和目标端参考文本组成。每个RDF三元组表示为(主语,关系,对象)。

整个数据集包含18,102个训练对,2,495个验证对和2,269个测试对。实验采用WebNLG挑战的标准评估指标,包括BLEU和METEOR。

实验结果表明,研究小组提出的模型可以更好地编码RDF三元组的全局和局部图结构。该模型比WebNLG数据集上的其他基线模型高出约2.0 BLEU点。

此外,研究团队手动评估了不同模型的结果,发现涉及GCN编码器的模型在表达实体之间的正确关系方面表现更好,目标文本自动编码器和GTR-LSTM编码器在生成与之相关的文本方面表现更好。 RDF三元组之间的上下文信息。

在进一步的研究中,研究小组发现他们提出的模型中的四个关键因素可能会影响生成的文本的质量。它们是目标文本自动编码器,有助于整合目标端上下文信息; Ldis因子,可以最小化图形表达和文本表达之间的距离; GCN编码器和GTR-LSTM编码器,编码三元组的本地和全局信息。

最佳学生论文:基于图神经网络的语义分析实证研究

最佳学生论文奖授予南京大学,IBM研究院和Squirrel AI 基于图神经网络的语义分析主题“基于图神经网络的语义分析的实证研究” 。

现有的神经语义解析器或者仅考虑用于编码或解码的单词序列,或者忽略用于解析目的的重要语法信息。在本文中,作者提出了一种新的基于图神经网络(GNN)的神经语义分析器,即Graph2Tree,它由图形编码器和分层树解码器组成。

作者:

李树成,吴凌飞,冯世伟,徐方利,徐丰源,钟胜(IBM研究院吴凌飞,益学教育徐芳丽 - 松鼠AI,其余来自南京大学)

为什么这项研究很重要?

作为自然语言处理(NLP)中的经典任务,语义解析将自然语言中的句子转换为机器可以读取的语义表示。业界有大量基于语义解析的成熟应用,如Q&A系统,语音助手,代码生成等。

在过去两年中,随着神经编码和解码方法的引入,语义分析模型发生了巨大的变化。近年来,研究人员开始用Seq2Seq模型开发神经语义解析器,并且这些解析器取得了显着的成果。

有哪些挑战?

由于语义表示通常是结构化对象(例如树结构),研究人员投入了大量精力来开发基于结构的解码器,包括树解码器,语法约束解码器,语义图生成的动作序列,以及基于抽象语法树的模块化解码器。

尽管在这些方法中已经实现了令人印象深刻的结果,但是它们仅考虑单词序列信息并忽略编码器侧可用的其他丰富语法信息,例如依赖性树和选区树。

最近,研究人员证明了图神经网络在各种NLP任务中的重要应用,包括神经机器翻译,信息提取和基于AMR的文本生成。在语义分析中,研究人员提出了Graph2Seq模型,它将依赖树和选区树与单词序列相结合,然后创建一个句法图作为编码输入。然而,该方法仅将逻辑形式视为序列,并忽略解码器架构中的结构化对象(例如树)中的丰富信息。

核心贡献:

本文作者提出了一种新的基于图形网络的神经语义解析器,即由图形编码器和分层树解码器组成的Graph2Tree。

图编码器有效地将句法图编码为矢量表示,并且从单词序列和相应的依赖树或选区树构造句法图。具体来说,研究团队首先自然地将原始文本数据的对应语法关系与输入序列组合以形成图形数据结构,然后使用图形编码器从该图形结构中学习高质量的矢量表示。

树解码器从学习的图形级矢量表示中解码逻辑形式,并完全学习逻辑形式表示的合成属性。研究小组还建议在对应于原始单词标记和解析树节点的不同节点表示上计算单独的关注机制,以便计算解码树的结构化输出的最终上下文向量。然后,通过联合训练,给出句法图,最大化正确描述的条件对数概率。

本文的主要特征之一是自然语言的输入和逻辑形式的输出,两者都是结构化对象。输入语句转换为语法图,然后输入。逻辑形式是由树解码器解码的结构化输出,其可以在输出期间充分利用隐式结构化信息和对象的特性。

此外,研究团队还研究了不同句法图结构对GNN语义分析性能的影响,发现由于依赖树解析器或复杂选区树的不完善,图结构引入的噪声信息和结构复杂性可能会产生显着的不利影响。关于基于GNN的语义解析器的性能。

实验结果:

通过实验,研究团队希望找到以下问题的答案:I)可以使用什么语法图来使基于图的网络方法表现良好?ii)通过正确构建的图输入,Graph2Tree会比基线方法表现更好吗?

研究团队在JOBS,GEO和ATIS三个基准数据集上评估了Graph2Tree框架。JOBS是指作业数据库,GEO是指美国地理数据库,ATIS是指航班预订系统数据集。

在JOBS和GEO的比较结果中,研究小组观察到Graph2Tree模型在生成基于图输入的高质量逻辑形式方面优于Graph2Seq模型,无论使用的图形结构类型如何。

就图形架构而言,如果CoreNLP工具生成的噪声导致语义分析错误,则两个解析器的性能都会降低,甚至无法与仅具有Word Order的解析器的性能进行比较。

同样,选区树的跳跃大小或结构复杂性也会对性能产生很大影响。如果结构信息是压倒性的或最小的,则解析器的性能也会更低。

相反,当以某种方式控制或减少输入期间引起的噪声时,可以显着改善Word Order +依赖数的性能。选择正确的图层后,还可以提高Word Order +选区树的性能。例如,单层切割中Word Order +选区树的逻辑形式精度高于Word Order。

SIGKDD主席,JD.com副总裁裴健当天在研讨会上致开幕词,斯坦福大学,清华大学,加州大学洛杉矶分校,UIUC等大学的学者应邀发表演讲。

来自Squirrel AI的Cui博士也应邀参加了此次会议,介绍了适应性学习中图形深度学习和知识图的当前发展。

Yixue教育集团开发的Squirrel AI智能自适应在线学习系统可以持续监控和评估学生的个人能力,发现他们学习的弱点,使他们能够按照自己的进度取得进步,最终提高学习成绩。该系统提供优化的学习解决方案和同步咨询支持,以最大限度地提高学习效率,提高学生的知识,技能和能力。

多年来,我国高等教育资源短缺和地理问题影响了素质教育的普及。Squirrel AI希望通过AI创建超级教师,为学生提供量身定制的教学。“每个孩子都应该得到一对一的超级老师,”崔博士说。

自2014年以来,Squirrel AI一直在为中国的 K12学生自主开发智能自适应学习系统。其主要目标是准确地告诉学生掌握知识点的程度,然后推荐个性化学习内容和学习路径规划。

首先是学生对知识点的掌握。下图显示了Squirrel AI学生对物理知识的熟练程度。如图所示,蓝色部分是学生掌握的,占80%,黄色部分是学生学不好的,占20%。

如何知道学生如何准确掌握知识?Squirrel AI根据测试结果,测试持续时间,测试难度和测试中涵盖的知识点评估学生对知识的掌握程度,甚至学生选择错误的选项和他们的鼠标移动行为。

关于Squirrel AI的工作原理,崔博士说智能自适应引擎分为三层:本体层,算法层和交互系统。

本体层是基于内容的层,包括学习目标,学习内容和错误分析的本体。Squirrel AI独立开发了在超纳米水平上拆解知识点的技术,可以更准确地确定学生应该掌握的知识点。以初中数学为例。Squirrel AI可以将300个知识点拆分为30,000个。

同时,Squirrel AI基于贝叶斯网络图连接相关知识点。通过该技术,可以模拟优秀教师的教学顺序和关系,符合学生的认知规律和知识点的不同难度。

算法层包括内容推荐引擎,学生用户肖像引擎和目标管理引擎。基于用户状态评估引擎和知识推荐引擎,Squirrel AI将建立一个数据模型,准确有效地检测每个学生的知识差距,然后根据这些差距推荐相应的学习内容。

交互系统通过管理系统,检测和预警系统以及实时事件收集器收集交互数据来学习更多关于学生的知识。

崔博士强调,基于人工智能的智能自适应学习系统采用的是与传统教育完全不同的教学过程。

例如,在知识状态诊断方面,传统诊断基于高频检验,而Squirrel AI使用基于信息理论和知识空间理论提供知识状态诊断的系统,可以准确地找出知识缺陷。

传统评估基于考试中的分数或排名,传统的智能自适应评估基于IRT,DINA,BKT和DKT模型,其缺点无法实时评估。Squirrel AI的系统基于贝叶斯理论,该理论根据学生过去的记录进行连续和实时评估。

在内容推荐方面,传统的推荐算法采用协同过滤算法,不适用于教育领域,因为学生在相似的学习情境中掌握不同层次的知识点。协同过滤算法不够准确,无法保证推荐内容的有效性。

Squirrel AI利用神经网络实现基于学生学习成果的个性化推荐,并通过深度学习算法进一步提高个性化学习和推荐的准确性。

算法的优越性反映在结果中。在过去两年中,Squirrel AI在四场人机竞赛中击败了优秀教师。截至目前,Squirrel AI已在中国 400多个城市开设了近2000所离线学校,为近200万学生提供服务。

松鼠AI目前累计融资近10亿元人民币。去年,Squirrel AI向数百万贫困家庭的孩子捐赠了100万个账户,以促进教育公平。

松鼠AI将于11月12日至13日在上海中心举办第四届全球AI自适应教育(AIAED)峰会。峰会组委会主席将是CMU计算机科学学院院长Tom Mitchell教授和机器学习之神。崔博士希望相关的从业者能够齐聚一堂,共同推动人工智能教育的进步。

栏目推荐