NLP新基准！谷歌重磅发布开放问答数据集，30万自然提问+...

3dfx232 · 发表于 2019-1-25 19:33:51

开放领域问题回答(QA)是自然语言理解(NLU)中的一项基准任务，它的目的是模拟人类如何查找信息，通过阅读和理解整个文档来找到问题的答案。

比如，给定一个用自然语言表达的问题“为什么天空是蓝色的?”("Why is the sky blue?”)，QA系统应该能够阅读网页(例如“天空漫射”的维基百科页面)并返回正确的答案，即使答案有些复杂和冗长。

然而，目前还没有可以用于训练和评估QA模型的大型、公开的自然发生问题(即由寻求信息的人提出的问题)和答案数据集。

这是因为构建用于QA任务的高质量数据集需要大量的真实问题来源，并且需要大量人力来为这些问题寻找正确答案。

为了促进QA领域的研究进展，谷歌今天发布自然问题数据集(Natural Questions, NQ)，这是一个用于训练和评估开放领域问答系统的新的、大规模语料库，也是第一个复制人类查找问题答案的端到端流程的语料库。

Natural Questions数据集

NQ的规模非常庞大，包含30万个自然发生的问题，以及来自Wikipedia页面的人工注释答案，用于训练QA系统。

此外，NQ语料库还包含16000个示例，每个示例都由5位不同的注释人提供答案(针对相同的问题)，这对于评估所学习的QA系统的性能非常有用。

Natural Questions数据集中的示例

由于回答NQ中的问题比回答琐碎问题(这些问题对计算机来说已经很容易解决)需要有更深入的理解，谷歌还发起了一项基于此数据集的挑战赛，以帮助提高计算机对自然语言的理解。

目前，NQ挑战赛排行榜上只有谷歌的BERT模型和DecAtt-DocReader模型的成绩。在论文中，谷歌证明在长答案选择任务上的人类的最优成绩为87% F1，在短答案选择任务上人类的最优成绩为76%。

NQ的目的是使QA系统能够阅读和理解完整的维基百科文章，其中可能包含问题的答案，也可能不包含问题的答案。

系统首先需要确定这个问题的定义是否足够充分，是否可以回答——许多问题本身基于错误的假设，或者过于模糊，无法简明扼要地回答。

然后，系统需要确定维基百科页面中是否包含推断答案所需的所有信息。我们认为，相比在知道长答案后在寻找短答案，长答案识别任务——找到推断答案所需的所有信息——需要更深层次的语言理解。

我们希望NQ的发布以及相关的挑战赛将有助于推动更有效、更强大的QA系统的开发。我们鼓励NLU社区参与进来，并帮助缩小目前最先进方法的性能与人类上限之间的巨大差距。

帐号		自动登录	找回密码
密码			立即注册