机器学习资料（不定时更新）

整理了一些机器学习的学习资料，会不定期更新。

源码

数据集

图像处理数据集

mnist
此处输入图片的描述
MNIST 是最流行的深度学习数据集之一。这是一个手写数字数据集，包含一个有着 60000 样本的训练集和一个有着 10000 样本的测试集。对于在现实世界数据上尝试学习技术和深度识别模式而言，这是一个非常好的数据库，且无需花费过多时间和精力进行数据预处理。
大小：约 50 MB
数量：70000 张图像，共分为 10 个类别。
应用论文：《Dynamic Routing Between Capsules》

MS-COCO
此处输入图片的描述
COCO 是一个大型数据集，用于目标检测、分割和标题生成。它有以下几个特征：

目标分割
在语境中识别
超像素物品分割
33 万张图像（其中超过 20 万张是标注图像）
150 万个目标实例
80 个目标类别
91 个物品分类
每张图像有 5 个标题
25 万张带有关键点的人像

大小：约 25 GB（压缩后）
数量：33 万张图像、80 个目标类别、每张图像 5 个标题、25 万张带有关键点的人像
应用论文：《Mask R-CNN》

ImageNet
此处输入图片的描述
ImageNet 是根据 WordNet 层次来组织的图像数据集。WordNet 包含大约 10 万个短语，而 ImageNet 为每个短语提供平均约 1000 张描述图像。
大小：约 150 GB
数量：图像的总数约为 1,500,000；每一张图像都具备多个边界框和各自的类别标签。
应用论文：《Aggregated Residual Transformations for Deep Neural Networks》

Open Images
此处输入图片的描述
Open Images 是一个包含近 900 万个图像 URL 的数据集。这些图像使用包含数千个类别的图像级标签边界框进行了标注。该数据集的训练集包含 9,011,219 张图像，验证集包含 41,260 张图像，测试集包含 125,436 张图像。
大小：500GB（压缩后）
数量：9,011,219 张图像，带有超过 5000 个标签

VisualQA
此处输入图片的描述
VQA 是一个包含图像开放式问题的数据集。这些问题的解答需要视觉和语言的理解。该数据集拥有下列有趣的特征：

265,016 张图像（COCO 和抽象场景）
每张图像至少包含 3 个问题（平均有 5.4 个问题）
每个问题有 10 个正确答案
每个问题有 3 个看似合理（却不太正确）的答案
自动评估指标

大小：25GB（压缩后）
数量：265,016 张图像，每张图像至少 3 个问题，每个问题 10 个正确答案
应用论文：《Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge》

街景门牌号数据集（SVHN）
此处输入图片的描述
这是一个现实世界数据集，用于开发目标检测算法。它需要最少的数据预处理过程。它与 MNIST 数据集有些类似，但是有着更多的标注数据（超过 600,000 张图像）。这些数据是从谷歌街景中的房屋门牌号中收集而来的。
大小：2.5GB
数量：6,30,420 张图像，共 10 类
应用论文：《Distributional Smoothing With Virtual Adversarial Training》

CIFAR-10
此处输入图片的描述
该数据集也用于图像分类。它由 10 个类别共计 60,000 张图像组成（每个类在上图中表示为一行）。该数据集共有 50,000 张训练集图像和 10,000 个测试集图像。数据集分为 6 个部分——5 个训练批和 1 个测试批。每批含有 10,000 张图像。
大小：170MB
数量：60,000 张图像，共 10 类
应用论文：《ShakeDrop regularization》

Fashion-MNIST
此处输入图片的描述
Fashion-MNIST 包含 60,000 个训练集图像和 10,000 个测试集图像。它是一个类似 MNIST 的时尚产品数据库。开发人员认为 MNIST 的使用次数太多了，因此他们把这个数据集用作 MNIST 的直接替代品。每张图像都以灰度显示，并具备一个标签（10 个类别之一）。
大小：30MB
数量：70,000 张图像，共 10 类
应用论文：《Random Erasing Data Augmentation》

自然语言处理数据集

IMDB 电影评论数据集
该数据集对于电影爱好者而言非常赞。它用于二元情感分类，目前所含数据超过该领域其他数据集。除了训练集评论样本和测试集评论样本之外，还有一些未标注数据可供使用。此外，该数据集还包括原始文本和预处理词袋格式。
大小：80 MB
数量：训练集和测试集各包含 25,000 个高度两极化的电影评论
应用论文：《Learning Structured Text Representations》

Twenty Newsgroups 数据集
顾名思义，该数据集涵盖新闻组相关信息，包含从 20 个不同新闻组获取的 20000 篇新闻组文档汇编（每个新闻组选取 1000 篇）。这些文章有着典型的特征，例如标题、导语。
大小：20MB
数量：来自 20 个新闻组的 20,000 篇报道
应用论文：《Very Deep Convolutional Networks for Text Classification》

Sentiment140
Sentiment140 是一个用于情感分析的数据集。这个流行的数据集能让你完美地开启自然语言处理之旅。数据中的情绪已经被预先清空。最终的数据集具备以下六个特征：

推文的情绪极性
推文的 ID
推文的日期
查询
推特的用户名
推文的文本

大小：80MB（压缩后）
数量： 1,60,000 篇推文
应用论文：《Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets》

WordNet
上文介绍 ImageNet 数据集时提到，WordNet 是一个大型英语 synset 数据库。Synset 也就是同义词组，每组描述的概念不同。WordNet 的结构让它成为 NLP 中非常有用的工具。
大小：10 MB
数量：117,000 个同义词集，它们通过少量的「概念关系」与其他同义词集相互关联
应用论文：《Wordnets: State of the Art and Perspectives》

Yelp 数据集
这是 Yelp 出于学习目的而发布的开放数据集。它包含数百万个用户评论、商业属性（businesses attribute）和来自多个大都市地区的超过 20 万张照片。该数据集是全球范围内非常常用的 NLP 挑战赛数据集。
大小：2.66 GB JSON、2.9 GB SQL 和 7.5 GB 的照片（全部压缩后）
数量：5,200,000 个评论、174,000 份商业属性、200,000 张照片和 11 个大都市地区
应用论文：《Attentive Convolution》

Wikipedia Corpus
该数据集是维基百科全文的集合，包含来自超过 400 万篇文章的将近 19 亿单词。你能逐单词、逐短语、逐段地对其进行检索，这使它成为强大的 NLP 数据集。
大小：20 MB
数量：4,400,000 篇文章，包含 19 亿单词
应用论文：《Breaking The Softmax Bottelneck: A High-Rank RNN language Model》

Blog Authorship Corpus
该数据集包含从数千名博主那里收集到的博客文章，这些数据从 blogger.com 中收集而来。每篇博客都以一个单独的文件形式提供。每篇博客至少出现 200 个常用的英语单词。
大小：300 MB
数量：681,288 篇博文，共计超过 1.4 亿单词。
应用论文：《Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution》

欧洲语言机器翻译数据集
该数据集包含四种欧洲语言的训练数据，旨在改进当前的翻译方法。你可以使用以下任意语言对：
法语 - 英语
西班牙语 - 英语
德语 - 英语
捷克语 - 英语

大小：约 15 GB
数量：约 30,000,000 个句子及对应的译文
应用论文：《Attention Is All You Need》

音频/语音处理数据集

Free Spoken Digit 数据集
这是本文又一个受 MNIST 数据集启发而创建的数据集！该数据集旨在解决识别音频样本中口述数字的任务。这是一个公开数据集，所以希望随着人们继续提供数据，它会不断发展。目前，它具备以下特点：

3 种人声
1500 段录音（每个人口述 0- 9 各 50 次）
英语发音

大小： 10 MB
数量： 1500 个音频样本
应用论文：《Raw Waveform-based Audio Classification Using Sample-level CNN Architectures》

Free Music Archive (FMA)
FMA 是音乐分析数据集，由整首 HQ 音频、预计算的特征，以及音轨和用户级元数据组成。它是一个公开数据集，用于评估 MIR 中的多项任务。以下是该数据集包含的 csv 文件及其内容：

tracks.csv：记录每首歌每个音轨的元数据，例如 ID、歌名、演唱者、流派、标签和播放次数，共计 106,574 首歌。
genres.csv：记录所有 163 种流派的 ID 与名称及上层风格名（用于推断流派层次和上层流派）。
features.csv：记录用 librosa 提取的常见特征。
echonest.csv：由 Echonest（现在的 Spotify）为 13,129 首音轨的子集提供的音频功能。

大小：约 1000 GB
数量：约 100,000 个音轨
应用论文：《Learning to Recognize Musical Genre from Audio》

Ballroom

该数据集包含舞厅的舞曲音频文件。它以真实音频格式提供了许多舞蹈风格的一些特征片段。以下是该数据集的一些特点：

实例总数：698
单段时长：约 30 秒
总时长：约 20940 秒

大小：14 GB（压缩后）
数量：约 700 个音频样本
应用论文：《A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles》

Million Song 数据集
Million Song 数据集包含一百万首当代流行音乐的音频特征和元数据，可免费获取。其目的是：

鼓励研究商业规模的算法
为评估研究提供参考数据集
作为使用 API 创建大型数据集的捷径（例如 The Echo Nest API）
帮助入门级研究人员在 MIR 领域展开工作

数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频，只包含导出要素。示例音频可通过哥伦比亚大学提供的代码从 7digital 等服务中获取。

大小：280 GB
数量：一百万首歌曲！
应用论文：《Preliminary Study on a Recommender System for the Million Songs Dataset Challenge》

LibriSpeech
该数据集是一个包含约 1000 小时英语语音的大型语料库。数据来源为 LibriVox 项目的音频书籍。该数据集已经得到了合理地分割和对齐。如果你还在寻找起始点，那么点击 http://www.kaldi-asr.org/downloads/build/6/trunk/egs/查看在该数据集上训练好的声学模型，点击 http://www.openslr.org/11/查看适合评估的语言模型。

大小：约 60 GB
数量：1000 小时的语音
应用论文：《Letter-Based Speech Recognition with Gated ConvNets》

VoxCeleb

VoxCeleb 是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的（男性占 55％）。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。对大明星所说的话进行分类并识别——这是一项有趣的工作。

大小：150 MB
数量：1251 位名人的 100,000 条语音
应用论文：《VoxCeleb: a large-scale speaker identification dataset》