其他

可用于机器学习的14个汉语数据集

构建多语言机器学习模型的常见挑战之一是收集足够的相关数据。为了提供帮助，下面是一些用于机器学习的中文语言数据集列表。这些数据集可涵盖广泛的用例，从光学字符识别（OCR）到情感分析。

可用于机器学习的14个汉语数据集

中文文本数据集

Chinese Treebank: （不免费）来自中国新闻专线，政府文件，杂志文章和各种广播新闻的大约150万字的注释和解析文本，现在更新到第九版了。

Mandarin Chinese News Text：https://github.com/Lab41/sunny-side-up/wiki/Chinese-Datasets

人民日报，新华社，中国国际广播电台的2.5亿汉字新闻。

【Open Weiboscope】： https://github.com/topogram/weiboscope-data

该数据集来自香港大学新闻与媒体中心的研究人员。

详细内容可以参考Mandarin Chinese News Text的连接。

腾讯AI实验室嵌入中文单词和短语语料库：https://ai.tencent.com/ailab/nlp/embedding.html

该语料库为超过800万个中文单词和短语提供200维矢量表示，即嵌入，这些单词和短语是在大规模，高质量数据上预先培训的。

大规模中文短文摘要数据集[Large Scale Chinese Short Text Summarization Dataset]：https://arxiv.org/pdf/1506.05865v3.pdf (作者论文，具体获取方法看论文里的链接)

该语料库由超过200万个真实的中文短文组成，每个文本的作者给出简短的摘要。

中文OCR和手写数据集

汉字【Chinese Characters】： http://www.iapr-tc11.org/mediawiki/index.php?title=Harbin_Institute_of_Technology_Opening_Recognition_Corpus_for_Chinese_Characters_(HIT-OR3C)

包含909,818张图像的手写汉字数据集，对应于约10篇新闻文章。

汉字生成器【Chinese Characters Generator】： https://www.kaggle.com/dylanli/chinesecharacter

可用于中文文本OCR的中文字体数据集。

中文文本【Chinese Text in the Wild】：https://ctwdataset.github.io/

中文文本数据集，大约有一百万个汉字由专家在超过30,000个街景图像中注释。对于数据集中的每个字符，注释包括其基础字符，边界框和6个属性。属性表明它是否具有复杂的背景，是否有凸起，是手写还是打印等。

中文翻译和并行文本数据集

中英文电子邮件：(原始链接--付费) http://catalog.elra.info/en-us/repository/browse/ELRA-W0113/

包含15,000个中文字符（相当于10,000个单词）和电子邮件，以及英文参考译文。

（附加链接）双语语料库： https://www.clarin.eu/resource-families/parallel-corpora

【Parallel corpora in the CLARIN infrastructure】

这个里边有很多双语的库。

新加坡国立大学语料库【NUS Corpus】：https://www.comp.nus.edu.sg/~nlp/corpora.html

这个语料库是为社交媒体文本规范化和翻译而创建的。它是通过从新加坡国立大学英语短信语料库中随机选择2,000条消息然后翻译成正式中文而构建的。

中法文本【Chinese-French Text】：https://catalog.ldc.upenn.edu/LDC2018T17

中文广播新闻中约30,000个汉字子集的法语翻译。

GALE第1阶段中文博客平行文本【GALE Phase 1 Chinese Blog Parallel Text】：https://catalog.ldc.upenn.edu/LDC2008T06

277个中文博客文章翻译成英文。

中国情绪分析数据集

Ren-CECps：http://a1-www.is.tokushima-u.ac.jp/member/ren/Ren-CECps1.0/DocumentforRen-CECps1.0.html

1,500篇博文（11k段，35k句），文档段落和句子级别带有情感和情感注释。

微博PCU：https://archive.ics.uci.edu/ml/datasets/microblogPCU#

来自西安交通大学的研究人员，与加州大学欧文分校的机器学习库共享。这个数据集有来自新浪微博的50,000个帖子，包括用户元数据，包括跟随者信息。

Reference:

https://lionbridge.ai/datasets/14-best-chinese-language-datasets-for-machine-learning/

相关新闻

八卦

《北京仲裁》专题｜2020年关于中国仲裁的英文文献评述

《北京仲裁》专题｜2020年关于中国仲裁的英文文献评述

2022年04月22日

娱乐

文章解读：动态定价策略下的网约车共乘用户均衡

文章解读：动态定价策略下的网约车共乘用户均衡

2021年02月25日

政治

3分钟学术视频演讲大赛 | 初赛 · 期待您的一票

3分钟学术视频演讲大赛 | 初赛 · 期待您的一票

2020年11月11日

财经

空中客车在新加坡航展上推出混合机翼飞机演示器

空中客车在新加坡航展上推出混合机翼飞机演示器

2020年02月11日

国际

数据中心服务器基础知识大全

2019年10月16日

体育

首发 |新加坡最低调男神 0932Consultants新作「Design首发03期」

首发 |新加坡最低调男神 0932Consultants新作「Design首发03期」

2019年07月27日

政治

征稿延期丨2019年第六届IEEE云计算与智能系统国际会议

征稿延期丨2019年第六届IEEE云计算与智能系统国际会议

2019年07月16日

政策

CCF ADL92：自然语言理解：新学习方法及知识

CCF ADL92：自然语言理解：新学习方法及知识

2018年08月21日

犯罪

西卡&少时各自携新专庆出道10年 Markson变身画报小王子

西卡&少时各自携新专庆出道10年 Markson变身画报小王子

2017年08月04日

评论

登录/注册

订阅每日新闻

订阅每日新闻以免错过最新最热门的新加坡新闻。