机器学习资料(不定时更新)

整理了一些机器学习的学习资料,会不定期更新。

源码

机器学习实战(python3)

数据集

图像处理数据集

mnist
此处输入图片的描述
MNIST 是最流行的深度学习数据集之一。这是一个手写数字数据集,包含一个有着 60000 样本的训练集和一个有着 10000 样本的测试集。对于在现实世界数据上尝试学习技术和深度识别模式而言,这是一个非常好的数据库,且无需花费过多时间和精力进行数据预处理。
大小:约 50 MB
数量:70000 张图像,共分为 10 个类别。
应用论文:《Dynamic Routing Between Capsules》

MS-COCO
此处输入图片的描述
COCO 是一个大型数据集,用于目标检测、分割和标题生成。它有以下几个特征:

  • 目标分割
  • 在语境中识别
  • 超像素物品分割
  • 33 万张图像(其中超过 20 万张是标注图像)
  • 150 万个目标实例
  • 80 个目标类别
  • 91 个物品分类
  • 每张图像有 5 个标题
  • 25 万张带有关键点的人像

大小:约 25 GB(压缩后)
数量:33 万张图像、80 个目标类别、每张图像 5 个标题、25 万张带有关键点的人像
应用论文:《Mask R-CNN》

ImageNet
此处输入图片的描述
ImageNet 是根据 WordNet 层次来组织的图像数据集。WordNet 包含大约 10 万个短语,而 ImageNet 为每个短语提供平均约 1000 张描述图像。
大小:约 150 GB
数量:图像的总数约为 1,500,000;每一张图像都具备多个边界框和各自的类别标签。
应用论文:《Aggregated Residual Transformations for Deep Neural Networks》

Open Images
此处输入图片的描述
Open Images 是一个包含近 900 万个图像 URL 的数据集。这些图像使用包含数千个类别的图像级标签边界框进行了标注。该数据集的训练集包含 9,011,219 张图像,验证集包含 41,260 张图像,测试集包含 125,436 张图像。
大小:500GB(压缩后)
数量:9,011,219 张图像,带有超过 5000 个标签

VisualQA
此处输入图片的描述
VQA 是一个包含图像开放式问题的数据集。这些问题的解答需要视觉和语言的理解。该数据集拥有下列有趣的特征:

  • 265,016 张图像(COCO 和抽象场景)
  • 每张图像至少包含 3 个问题(平均有 5.4 个问题)
  • 每个问题有 10 个正确答案
  • 每个问题有 3 个看似合理(却不太正确)的答案
  • 自动评估指标

大小:25GB(压缩后)
数量:265,016 张图像,每张图像至少 3 个问题,每个问题 10 个正确答案
应用论文:《Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge》

街景门牌号数据集(SVHN)
此处输入图片的描述
这是一个现实世界数据集,用于开发目标检测算法。它需要最少的数据预处理过程。它与 MNIST 数据集有些类似,但是有着更多的标注数据(超过 600,000 张图像)。这些数据是从谷歌街景中的房屋门牌号中收集而来的。
大小:2.5GB
数量:6,30,420 张图像,共 10 类
应用论文:《Distributional Smoothing With Virtual Adversarial Training》

CIFAR-10
此处输入图片的描述
该数据集也用于图像分类。它由 10 个类别共计 60,000 张图像组成(每个类在上图中表示为一行)。该数据集共有 50,000 张训练集图像和 10,000 个测试集图像。数据集分为 6 个部分——5 个训练批和 1 个测试批。每批含有 10,000 张图像。
大小:170MB
数量:60,000 张图像,共 10 类
应用论文:《ShakeDrop regularization》

Fashion-MNIST
此处输入图片的描述
Fashion-MNIST 包含 60,000 个训练集图像和 10,000 个测试集图像。它是一个类似 MNIST 的时尚产品数据库。开发人员认为 MNIST 的使用次数太多了,因此他们把这个数据集用作 MNIST 的直接替代品。每张图像都以灰度显示,并具备一个标签(10 个类别之一)。
大小:30MB
数量:70,000 张图像,共 10 类
应用论文:《Random Erasing Data Augmentation》

自然语言处理数据集

IMDB 电影评论数据集
该数据集对于电影爱好者而言非常赞。它用于二元情感分类,目前所含数据超过该领域其他数据集。除了训练集评论样本和测试集评论样本之外,还有一些未标注数据可供使用。此外,该数据集还包括原始文本和预处理词袋格式。
大小:80 MB
数量:训练集和测试集各包含 25,000 个高度两极化的电影评论
应用论文:《Learning Structured Text Representations》

Twenty Newsgroups 数据集
顾名思义,该数据集涵盖新闻组相关信息,包含从 20 个不同新闻组获取的 20000 篇新闻组文档汇编(每个新闻组选取 1000 篇)。这些文章有着典型的特征,例如标题、导语。
大小:20MB
数量:来自 20 个新闻组的 20,000 篇报道
应用论文:《Very Deep Convolutional Networks for Text Classification》

Sentiment140
Sentiment140 是一个用于情感分析的数据集。这个流行的数据集能让你完美地开启自然语言处理之旅。数据中的情绪已经被预先清空。最终的数据集具备以下六个特征:

  • 推文的情绪极性
  • 推文的 ID
  • 推文的日期
  • 查询
  • 推特的用户名
  • 推文的文本

大小:80MB(压缩后)
数量: 1,60,000 篇推文
应用论文:《Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets》

WordNet
上文介绍 ImageNet 数据集时提到,WordNet 是一个大型英语 synset 数据库。Synset 也就是同义词组,每组描述的概念不同。WordNet 的结构让它成为 NLP 中非常有用的工具。
大小:10 MB
数量:117,000 个同义词集,它们通过少量的「概念关系」与其他同义词集相互关联
应用论文:《Wordnets: State of the Art and Perspectives》

Yelp 数据集
这是 Yelp 出于学习目的而发布的开放数据集。它包含数百万个用户评论、商业属性(businesses attribute)和来自多个大都市地区的超过 20 万张照片。该数据集是全球范围内非常常用的 NLP 挑战赛数据集。
大小:2.66 GB JSON、2.9 GB SQL 和 7.5 GB 的照片(全部压缩后)
数量:5,200,000 个评论、174,000 份商业属性、200,000 张照片和 11 个大都市地区
应用论文:《Attentive Convolution》

Wikipedia Corpus
该数据集是维基百科全文的集合,包含来自超过 400 万篇文章的将近 19 亿单词。你能逐单词、逐短语、逐段地对其进行检索,这使它成为强大的 NLP 数据集。
大小:20 MB
数量:4,400,000 篇文章,包含 19 亿单词
应用论文:《Breaking The Softmax Bottelneck: A High-Rank RNN language Model》

Blog Authorship Corpus
该数据集包含从数千名博主那里收集到的博客文章,这些数据从 blogger.com 中收集而来。每篇博客都以一个单独的文件形式提供。每篇博客至少出现 200 个常用的英语单词。
大小:300 MB
数量:681,288 篇博文,共计超过 1.4 亿单词。
应用论文:《Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution》

欧洲语言机器翻译数据集
该数据集包含四种欧洲语言的训练数据,旨在改进当前的翻译方法。你可以使用以下任意语言对:
法语 - 英语
西班牙语 - 英语
德语 - 英语
捷克语 - 英语

大小: 约 15 GB
数量:约 30,000,000 个句子及对应的译文
应用论文:《Attention Is All You Need》

音频/语音处理数据集

Free Spoken Digit 数据集
这是本文又一个受 MNIST 数据集启发而创建的数据集!该数据集旨在解决识别音频样本中口述数字的任务。这是一个公开数据集,所以希望随着人们继续提供数据,它会不断发展。目前,它具备以下特点:

  • 3 种人声
  • 1500 段录音(每个人口述 0- 9 各 50 次)
  • 英语发音

大小: 10 MB
数量: 1500 个音频样本
应用论文:《Raw Waveform-based Audio Classification Using Sample-level CNN Architectures》

Free Music Archive (FMA)
FMA 是音乐分析数据集,由整首 HQ 音频、预计算的特征,以及音轨和用户级元数据组成。它是一个公开数据集,用于评估 MIR 中的多项任务。以下是该数据集包含的 csv 文件及其内容:

tracks.csv:记录每首歌每个音轨的元数据,例如 ID、歌名、演唱者、流派、标签和播放次数,共计 106,574 首歌。
genres.csv:记录所有 163 种流派的 ID 与名称及上层风格名(用于推断流派层次和上层流派)。
features.csv:记录用 librosa 提取的常见特征。
echonest.csv:由 Echonest(现在的 Spotify)为 13,129 首音轨的子集提供的音频功能。

大小:约 1000 GB
数量:约 100,000 个音轨
应用论文:《Learning to Recognize Musical Genre from Audio》

Ballroom

该数据集包含舞厅的舞曲音频文件。它以真实音频格式提供了许多舞蹈风格的一些特征片段。以下是该数据集的一些特点:

  • 实例总数:698
  • 单段时长:约 30 秒
  • 总时长:约 20940 秒

大小:14 GB(压缩后)
数量:约 700 个音频样本
应用论文:《A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles》

Million Song 数据集
Million Song 数据集包含一百万首当代流行音乐的音频特征和元数据,可免费获取。其目的是:

鼓励研究商业规模的算法
为评估研究提供参考数据集
作为使用 API 创建大型数据集的捷径(例如 The Echo Nest API)
帮助入门级研究人员在 MIR 领域展开工作

数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含导出要素。示例音频可通过哥伦比亚大学提供的代码从 7digital 等服务中获取。

大小:280 GB
数量:一百万首歌曲!
应用论文:《Preliminary Study on a Recommender System for the Million Songs Dataset Challenge》

LibriSpeech
该数据集是一个包含约 1000 小时英语语音的大型语料库。数据来源为 LibriVox 项目的音频书籍。该数据集已经得到了合理地分割和对齐。如果你还在寻找起始点,那么点击 http://www.kaldi-asr.org/downloads/build/6/trunk/egs/查看在该数据集上训练好的声学模型,点击 http://www.openslr.org/11/查看适合评估的语言模型。

大小:约 60 GB
数量:1000 小时的语音
应用论文:《Letter-Based Speech Recognition with Gated ConvNets》

VoxCeleb

VoxCeleb 是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的(男性占 55%)。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。对大明星所说的话进行分类并识别——这是一项有趣的工作。

大小:150 MB
数量:1251 位名人的 100,000 条语音
应用论文:《VoxCeleb: a large-scale speaker identification dataset》