Facebook为代码搜索AI基准测试开源数据集

2019-10-10 16:49

Facebook AI研究人员利用GitHub和Stack Overflow的信息创建了代码搜索数据集。该版本包含287个Stack Overflow问答对的评估数据集，其中包括代码段，以及来自GitHub上近25,000个Android存储库的代码段搜索语料库。

《神经密码搜索评估数据集》于8月在arXiv上发布，并于周三进行了修订。堆栈溢出数据来自堆栈溢出数据转储，而GitHub Rest API提供了其余数据。

Facebook AI在博客文章中说：“我们打算将此数据集用作评估各种代码搜索模型中搜索质量的基准。”

本文还分享了Facebook创建的两个AI模型的结果，作为对语料库和数据集的测试。

代码搜索旨在为开发人员提供一种使用自然语言来显示大量编程语言代码的方法。许多代码搜索计划正在进行中，例如GitHub的语义代码项目和机器学习计划以及像Y Combinator毕业生Metacode这样的新兴公司。

在针对软件开发人员的AI的其他发展中，今年春季Google Brain引入了AI，该AI可以基于先前的编辑来预测代码。

栏目推荐