亚马逊Alexa科学家通过全新的AI指导方法增强数据提取

最近花姐发现有诸多的小伙伴们对于亚马逊Alexa科学家通过全新的AI指导方法增强数据提取这个问题都颇为感兴趣的,大家也都想要及时了解到亚马逊Alexa科学家通过全新的AI指导方法增强数据提取相关信息,那么花姐今天就来为大家梳理下具体的关于这个问题的一些消息吧。

谷歌等搜索引擎所依赖的知识搜索模式,如果在机器学习中受过教育,则需要大量的人工注释信息。这是因为它们不仅必须处理一系列查询,而且还必须处理与这些查询相关的所有信息。令人高兴的是,亚马逊的Alexa部门科学家详细介绍了一种策略(“基于低内容的临时重新分级监管”),这可能为时尚行业提供了更少的手册监管铺平了道路。这些可能反过来将教练信息单元的规模从数十个条目增加到数十万个,这可能迟早会导致额外的环境友好方法。

由于工作人员已定义,基于AI的恢复算法通常按一个请求和两个文件进行处理:一个“相关的”文档可以满足人们对数据的追求,而一个相关但无关紧要的文档却无法完成。人们将查询中的文书工作手动标记为相关或不相关,并通过研究AI方法进行研究,以最大程度地区分他们归因于样本的相关性得分。条约。

作为区别,研究人员的技术利用了这样一个事实:许多数据检索指导信息(新闻文章和Wikipedia条目)已经与他们介绍的文章和章节中的相关文本相关。他们用不同的短语假设标题和标题可以用作教练功能的搜索字符串的替代方法。

工作人员主要在New York Instances在线存储库和Wikipedia中收集了成千上万的文档标题对。对于每一对,他们都使用问题和相应的文本内容(除了与该问题相关的文本内容之外,与相关的文本内容相比,相关性要小得多)来键入机器学习模式。然后,他们利用购物者查询和搜索结果的AOL语料库确定基线,然后他们使用一种算法为每个问题找出相关和不相关的文本。最后,他们用一组大约25,000手注释的样本以及从检查信息中算法选择的样本来完成AOL数据集。

为了确定其策略的有效性,工作人员分别在纽约州,维基百科,美国在线和美国这四个检查单位中分别构建了虚幻的情报方法。手工注释的集合–并以每次使用最有效的20个结果的累积相关性而著称,该度量称为“标准化累积累积获取”(nDCG)。他们报告说,在许多基线中,AOL数据集和人造智能结构(称为循环位置响应卷积相关社区或PACRR)的混合产生了最有效的结果。在相同的系统上,“纽约实例”数据集的nDCG改善了12%。并且,当系统在全新的目标空间中接受了难以区分的知识示例的教育时,评分提高了35%。

共同作者写道:“利用我们的策略,我们将在新的领域中成功地实践神经分类方式,而没有行为信息,并且仅对该区域内的信息进行限制。”

栏目推荐