易学智能

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2038|回复: 0

GitHub出现一个大型中文NLP资源,宣称要放出亿级语料库

[复制链接]

166

主题

616

帖子

1万

积分

xdtech

Rank: 5Rank: 5

积分
11583
发表于 2019-2-15 18:08:02 | 显示全部楼层 |阅读模式
本帖最后由 Happy清子 于 2019-2-15 18:10 编辑

中文信息很多,但要找到合适的中文语料很难。
有人看不下去了,在GitHub上开了一个项目,专门贡献中文语料资源。
他说,要为解决中文语料难找贡献一份力量。

什么样的资源?
目前,这个项目中一共有3种json版资源:
包含104万个词条的维基百科资源,包含250万篇新闻的新闻语料,以及包含150万个问答的百科类问答资源。

一般来说,这些资源可以作为通用的中文语料,用于预训练或者构建词向量等等。
不同的资源,用处也有不同,比如维基百科和问答百科,可以用来构建知识问答等等。
新闻语料资源,囊括了标题、关键词、描述和正文,也可以用来训练标题生成模型、关键词生成模型等等。
此外,在对数据集划分过的新闻语料和百科类问答资源中,只提供训练集和验证集,不提供测试集数据的下载。
是因为——

希望更多人参与
资源的贡献者表示,希望大家报告模型在验证集上的准确率,并提供模型信息、方法描述、运行方式,以及可运行的源代码(可选)。
这些信息都有的话,资源贡献者会在测试集上测试模型,并给出准确率。
他表示,项目中的语料库将会不断扩充,号召大家多多贡献资源,并给出了相应的目标:
到2019年5月1日,放出10个百万级中文语料&3个千万级中文语料。
到2019年12月31日,放出30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料。
从目前已经有的资源来看,一个语料可以是一个问答,也可以是一个词条等等。
这份资源的贡献者,名为徐亮,杭州实在智能的算法专家,主要关注文本分类、意图识别、问答和面向任务的对话。

如果你有兴趣,请收好资源传送门:
https://github.com/brightmart/nlp_chinese_corpus

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|易学智能

GMT+8, 2024-11-21 17:52 , Processed in 0.017990 second(s), 20 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表