可用于机器学习的14个汉语数据集
构建多语言机器学习模型的常见挑战之一是收集足够的相关数据。为了提供帮助,下面是一些用于机器学习的中文语言数据集列表。这些数据集可涵盖广泛的用例,从光学字符识别(OCR)到情感分析。
中文文本数据集
Chinese Treebank: (不免费)来自中国新闻专线,政府文件,杂志文章和各种广播新闻的大约150万字的注释和解析文本,现在更新到第九版了。
Mandarin Chinese News Text:https://github.com/Lab41/sunny-side-up/wiki/Chinese-Datasets
人民日报,新华社,中国国际广播电台的2.5亿汉字新闻。
【Open Weiboscope】: https://github.com/topogram/weiboscope-data
该数据集来自香港大学新闻与媒体中心的研究人员。
详细内容可以参考Mandarin Chinese News Text的连接。
腾讯AI实验室嵌入中文单词和短语语料库:https://ai.tencent.com/ailab/nlp/embedding.html
该语料库为超过800万个中文单词和短语提供200维矢量表示,即嵌入,这些单词和短语是在大规模,高质量数据上预先培训的。
大规模中文短文摘要数据集[Large Scale Chinese Short Text Summarization Dataset]:https://arxiv.org/pdf/1506.05865v3.pdf (作者论文,具体获取方法看论文里的链接)
该语料库由超过200万个真实的中文短文组成,每个文本的作者给出简短的摘要。
中文OCR和手写数据集
汉字【Chinese Characters】: http://www.iapr-tc11.org/mediawiki/index.php?title=Harbin_Institute_of_Technology_Opening_Recognition_Corpus_for_Chinese_Characters_(HIT-OR3C)
包含909,818张图像的手写汉字数据集,对应于约10篇新闻文章。
汉字生成器【Chinese Characters Generator】: https://www.kaggle.com/dylanli/chinesecharacter
可用于中文文本OCR的中文字体数据集。
中文文本【Chinese Text in the Wild】:https://ctwdataset.github.io/
中文文本数据集,大约有一百万个汉字由专家在超过30,000个街景图像中注释。对于数据集中的每个字符,注释包括其基础字符,边界框和6个属性。属性表明它是否具有复杂的背景,是否有凸起,是手写还是打印等。
中文翻译和并行文本数据集
中英文电子邮件:(原始链接--付费) http://catalog.elra.info/en-us/repository/browse/ELRA-W0113/
包含15,000个中文字符(相当于10,000个单词)和电子邮件,以及英文参考译文。
(附加链接)双语语料库: https://www.clarin.eu/resource-families/parallel-corpora
【Parallel corpora in the CLARIN infrastructure】
这个里边有很多双语的库。
新加坡国立大学语料库【NUS Corpus】:https://www.comp.nus.edu.sg/~nlp/corpora.html
这个语料库是为社交媒体文本规范化和翻译而创建的。它是通过从新加坡国立大学英语短信语料库中随机选择2,000条消息然后翻译成正式中文而构建的。
中法文本【Chinese-French Text】:https://catalog.ldc.upenn.edu/LDC2018T17
中文广播新闻中约30,000个汉字子集的法语翻译。
GALE第1阶段中文博客平行文本【GALE Phase 1 Chinese Blog Parallel Text】:https://catalog.ldc.upenn.edu/LDC2008T06
277个中文博客文章翻译成英文。
中国情绪分析数据集
Ren-CECps:http://a1-www.is.tokushima-u.ac.jp/member/ren/Ren-CECps1.0/DocumentforRen-CECps1.0.html
1,500篇博文(11k段,35k句),文档段落和句子级别带有情感和情感注释。
微博PCU:https://archive.ics.uci.edu/ml/datasets/microblogPCU#
来自西安交通大学的研究人员,与加州大学欧文分校的机器学习库共享。这个数据集有来自新浪微博的50,000个帖子,包括用户元数据,包括跟随者信息。
Reference:
https://lionbridge.ai/datasets/14-best-chinese-language-datasets-for-machine-learning/
评论