• 09月29日 星期日

可用于机器学习的14个汉语数据集

构建多语言机器学习模型的常见挑战之一是收集足够的相关数据。为了提供帮助,下面是一些用于机器学习的中文语言数据集列表。这些数据集可涵盖广泛的用例,从光学字符识别(OCR)到情感分析。

可用于机器学习的14个汉语数据集

中文文本数据集

Chinese Treebank: (不免费)来自中国新闻专线,政府文件,杂志文章和各种广播新闻的大约150万字的注释和解析文本,现在更新到第九版了。

Mandarin Chinese News Text:https://github.com/Lab41/sunny-side-up/wiki/Chinese-Datasets

人民日报,新华社,中国国际广播电台的2.5亿汉字新闻。

【Open Weiboscope】: https://github.com/topogram/weiboscope-data

该数据集来自香港大学新闻与媒体中心的研究人员。

详细内容可以参考Mandarin Chinese News Text的连接。

腾讯AI实验室嵌入中文单词和短语语料库:https://ai.tencent.com/ailab/nlp/embedding.html

该语料库为超过800万个中文单词和短语提供200维矢量表示,即嵌入,这些单词和短语是在大规模,高质量数据上预先培训的。

大规模中文短文摘要数据集[Large Scale Chinese Short Text Summarization Dataset]:https://arxiv.org/pdf/1506.05865v3.pdf (作者论文,具体获取方法看论文里的链接)

该语料库由超过200万个真实的中文短文组成,每个文本的作者给出简短的摘要。

中文OCR和手写数据集

汉字【Chinese Characters】: http://www.iapr-tc11.org/mediawiki/index.php?title=Harbin_Institute_of_Technology_Opening_Recognition_Corpus_for_Chinese_Characters_(HIT-OR3C)

包含909,818张图像的手写汉字数据集,对应于约10篇新闻文章。

汉字生成器【Chinese Characters Generator】: https://www.kaggle.com/dylanli/chinesecharacter

可用于中文文本OCR的中文字体数据集。

中文文本【Chinese Text in the Wild】:https://ctwdataset.github.io/

中文文本数据集,大约有一百万个汉字由专家在超过30,000个街景图像中注释。对于数据集中的每个字符,注释包括其基础字符,边界框和6个属性。属性表明它是否具有复杂的背景,是否有凸起,是手写还是打印等。

中文翻译和并行文本数据集

中英文电子邮件:(原始链接--付费) http://catalog.elra.info/en-us/repository/browse/ELRA-W0113/

包含15,000个中文字符(相当于10,000个单词)和电子邮件,以及英文参考译文。

(附加链接)双语语料库: https://www.clarin.eu/resource-families/parallel-corpora

【Parallel corpora in the CLARIN infrastructure】

这个里边有很多双语的库。

新加坡国立大学语料库【NUS Corpus】:https://www.comp.nus.edu.sg/~nlp/corpora.html

这个语料库是为社交媒体文本规范化和翻译而创建的。它是通过从新加坡国立大学英语短信语料库中随机选择2,000条消息然后翻译成正式中文而构建的。

中法文本【Chinese-French Text】:https://catalog.ldc.upenn.edu/LDC2018T17

中文广播新闻中约30,000个汉字子集的法语翻译。

GALE第1阶段中文博客平行文本【GALE Phase 1 Chinese Blog Parallel Text】:https://catalog.ldc.upenn.edu/LDC2008T06

277个中文博客文章翻译成英文。

中国情绪分析数据集

Ren-CECps:http://a1-www.is.tokushima-u.ac.jp/member/ren/Ren-CECps1.0/DocumentforRen-CECps1.0.html

1,500篇博文(11k段,35k句),文档段落和句子级别带有情感和情感注释。

微博PCU:https://archive.ics.uci.edu/ml/datasets/microblogPCU#

来自西安交通大学的研究人员,与加州大学欧文分校的机器学习库共享。这个数据集有来自新浪微博的50,000个帖子,包括用户元数据,包括跟随者信息。

Reference:

https://lionbridge.ai/datasets/14-best-chinese-language-datasets-for-machine-learning/

上一篇新闻

星球日报 | NYDIG完成2亿美元融资;PayPal或以近2亿美元收购托管服务商Curv(3月9日)

下一篇新闻

船长们看过来,这是亚洲PSC船长方面缺陷100项

评论

订阅每日新闻

订阅每日新闻以免错过最新最热门的新加坡新闻。