#中文:

* https://github.com/candlewill/Dialog_Corpus
<https://github.com/candlewill/Dialog_Corpus> 这个是一个集合,包括之前答主的答案!
包含的语料包括了
1)小黄鸡 xiaohuangji50w_nofenci.conv.zip
2)dgk_shooter_min.conv.zip 中文电影对白语料,噪音比较大,许多对白问答关系没有对应好
3)smsCorpus_zh_xml_2015.03.09.zip 包含中文和英文短信息语料,据说是世界最大公开的短消息语料
4)ChatterBot中文基本聊天语料 ChatterBot聊天引擎提供的一点基本中文聊天语料,量很少,但质量比较高
5)Datasets for Natural Language Processing 这是他人收集的自然语言处理相关数据集,主要包含Question
Answering,Dialogue Systems, Goal-Oriented Dialogue
Systems三部分,都是英文文本。可以使用机器翻译为中文,供中文对话使用
6)白鹭时代中文问答语料 由白鹭时代官方论坛问答板块10,000+ 问题中,选择被标注了“最佳答案”的纪录汇总而成。人工review raw
data,给每一个问题,一个可以接受的答案。目前,语料库只包含2907个问答。
7)Chat corpus repository 包括:开放字幕、英文电影字幕、中文歌词、英文推文
8)保险行业QA语料库 通过翻译 insuranceQA产生的数据集。train_data含有问题12,889条,数据 141779条,正例:负例 =
1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据
22000条,正例:负例 = 1:10
9)https://github.com/MarkWuNLP/MultiTurnResponseSelection
<https://github.com/MarkWuNLP/MultiTurnResponseSelection> 来自豆瓣的多轮对话
10)http://jddc.jd.com/ <http://jddc.jd.com/> 京东比赛
11)http://www.shareditor.com/blogshow/?blogId=112
<http://www.shareditor.com/blogshow/?blogId=112> 自己动手做的数据
12) 贴吧对话数据 文件名:tieba.dialogues 保存在网盘中
13)https://www.jianshu.com/p/c1865d2b911c
<https://www.jianshu.com/p/c1865d2b911c> 高质量闲聊(聊天、对话)语料(数据)
14)SMP2017中文人机对话评测数据 https://github.com/HITlilingzhi/SMP2017ECDT-DATA
<https://github.com/HITlilingzhi/SMP2017ECDT-DATA>
* 新浪微博数据集,评论回复短句,下载地址:http://lwc.daanvanesch.nl/openaccess.php
<http://lwc.daanvanesch.nl/openaccess.php>
16)http://data.noahlab.com.hk/conversation/
<http://data.noahlab.com.hk/conversation/> 华为诺亚方舟实验室中文对话语料库

17http://www.mlln.cn/2018/06/02/[%E8%BD%AC]%E5%90%8A%E7%82%B8%E5%A4%A9%E7%9A%84%E4%B8%AD%E6%96%87%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%B7%A5%E5%85%B7%E5%92%8C%E8%AF%AD%E6%96%99%E5%BA%93%E4%BB%8B%E7%BB%8D/#Corpus-%E4%B8%AD%E6%96%87%E8%AF%AD%E6%96%99
corpus中文语料集
18)ubuntu对话系统数据集 保存在百度网盘中 ubuntu_dataset.zip
19)chatterbot
https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese

<https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese>
20)douban(豆瓣多轮) https://github.com/MarkWuNLP/MultiTurnResponseSelection
<https://github.com/MarkWuNLP/MultiTurnResponseSelection>
21)ptt(PTT八卦语料) https://github.com/zake7749/Gossiping-Chinese-Corpus
<https://github.com/zake7749/Gossiping-Chinese-Corpus>
22)qingyun(青云语料) 无
23)subtitle(电视剧对白语料) https://github.com/fateleak/dgk_lost_conv
<https://github.com/fateleak/dgk_lost_conv>
24)tieba(贴吧论坛回帖语料) https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ
<https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ> 密码:i4si
25)weibo(微博语料)
#英文:
1)
https://link.zhihu.com/?target=http%3A//nlp.stanford.edu/projects/kvret/kvret_dataset_public.zip

<https://link.zhihu.com/?target=http%3A//nlp.stanford.edu/projects/kvret/kvret_dataset_public.zip>
斯坦福数据集
2)Cornell Movie Dialogs:电影对话数据集,下载地址:
http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
<http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html>
3) Ubuntu Dialogue Corpus:Ubuntu日志对话数据,下载地址:https://arxiv.org/abs/1506.08909
<https://arxiv.org/abs/1506.08909>
4) OpenSubtitles:电影字幕,下载地址:http://opus.lingfil.uu.se/OpenSubtitles.php
<http://opus.lingfil.uu.se/OpenSubtitles.php>
5) Twitter:twitter数据集,下载地址:https://github.com/Marsan-Ma/twitter_scraper
<https://github.com/Marsan-Ma/twitter_scraper>
6) Papaya Conversational Data Set:基于Cornell、Reddit等数据集重新整理之后,好像挺干净的,下载链接:
https://github.com/bshao001/ChatLearner
<https://github.com/bshao001/ChatLearner>
7)https://github.com/niderhoff/nlp-datasets/blob/master/README.md
<https://github.com/niderhoff/nlp-datasets/blob/master/README.md>
自然语言处理的免费/公开数据集(https://zhuanlan.zhihu.com/p/35423943
<https://zhuanlan.zhihu.com/p/35423943> 资源比较多,可以看看)
8)https://github.com/niderhoff/nlp-datasets
<https://github.com/niderhoff/nlp-datasets> github上总结的资源

相关数据集的处理代码或者处理好的数据可以参见下面两个github项目:

DeepQA
chat_corpus

others:
电影字幕网站:https://www.zimuku.cn/ <https://www.zimuku.cn/>

##以上是我前段时间收集的语料,由于个人能力有限,如果还有没有补充上去的,希望各位大神在留言里补充,感激不尽。

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:[email protected]
QQ群:637538335
关注微信