区块链技术博客
www.b2bchain.cn

机器学习数据集求职学习资料

本文介绍了机器学习数据集求职学习资料,有助于帮助完成毕业设计以及求职,是一篇很好的资料。

对技术面试,学习经验等有一些体会,在此分享。

  • 前言
  • 数据集
    • 分类
    • 划分
  • 常用数据集
    • Fashion-MNIST
    • CIFAR-10
    • ImageNet
  • 数据收集
    • 下载图片
  • 数据清洗
    • gif
    • 内容出错
    • 有干扰信息
    • 其他处理
  • 训练模型
  • 部署模型
  • 小结

前言

上一篇 笔者以 MNIST 为例介绍了机器学习开发流程,相信大家对机器学习开发已经有一个大致的了解。

但是,MNIST 这个例子与真实的项目比起来,显得太简单了,流程也不全。一般地,真实项目的图片是 RGB 三通道的,训练的数据集也是自己采集的。

因此,本篇开始,笔者带大家做一个王者荣耀英雄识别的案例,效果如下图:

机器学习数据集

问题构建(识别王者荣耀英雄)环节接下来就是获取数据,也就是采集数据集

数据集

机器学习关键是训练,训练的“材料”是数据。在这个数据为王的时代,数据即价值

分类

数据集一般分为训练集、验证集、测试集

  • 训练集:上课学知识
  • 验证集:课后练习题,用来纠正和强化所学知识
  • 测试集:考试,评估学习效果

划分

数据集的划分方法并没有明确的规定,不过可以参考以下原则:

  • 规模样本集(几万量级),常用的分配比例是 60% 训练集、20% 验证集、20% 测试集
  • 大规模样本集(百万级以上),只要验证集和测试集的数量足够即可,例如有 100w 条数据,那么留 1w 验证集,1w 测试集即可。1000w 的数据,同样留 1w 验证集和 1w 测试集。
  • 超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集

注:超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。比如:学习率、深层神经网络隐藏层数、树的数量或树的深度。

常用数据集

Fashion-MNIST

机器学习数据集

Fashion-MNIST 包含 60,000 个训练图像和 10,000 个测试图像,它是一个类似 MNIST 的时尚产品数据库。开发人员认为 MNIST 已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与 10 个类别的标签相关联。

CIFAR-10

机器学习数据集

CIFAR-10 数据集是图像分类的另一个数据集,它由 10 个类的 60,000 个图像组成(每个类在上面的图像中表示为一行)。总共有 50,000 个训练图像和 10,000 个测试图像。数据集分为 6 个部分:5 个训练批次和 1个测试批次,每批有 10,000 个图像。

ImageNet

机器学习数据集

ImageNet 是根据 WordNet 层次结构组织的图像数据集。WordNet 包含大约 100,000 个单词,ImageNet平均提供了大约 1000 个图像来说明每个单词。

注:本文重点不在介绍常用数据集,这里不再赘述,更多请参考 keras 提供的可直接加载的数据集 https://www.tensorflow.org/api_docs/python/tf/keras/datasets 。

数据收集

不是所有数据集都是可以通过 keras API 直接加载的。比如,王者荣耀英雄识别这个案例的数据集,就是需要自己收集的。

但是,应该怎么收集呢?手动整理慢,成本也高。为了解决这个问题,笔者做了一个便捷的工具 bing_images 用于从 Bing.com 获取图像 URL 并下载。

下面,介绍如何使用 bing_images 收集王者荣耀数据集。

注:bing_images 的安装和使用方法,可以参考 https://makeoptim.com/deep-learning/collect-image-dataset ,这里不再赘述。

下载图片

download.py

from bing_images import bing from file import rename_files  heros = {     "铠": "kai",     "后羿": "houyi",     "王昭君": "wangzhaojun" }  if __name__ == '__main__':     for (key, value) in heros.items():         query = f'王者荣耀 {key}'         output_dir = f'../dataset/{value}'         bing.download_images(query,                         150,                         output_dir= output_dir,                         pool_size=5,                         force_replace=True)      for value in heros.values():         output_dir = f'../dataset/{value}'         rename_files(output_dir,value,1)
python download.py

数据清洗

由于下载的图片有些是 gif、图片内容出错、有干扰信息等问题,因此,还需要手动整理下。

gif

  • 前言
  • 数据集
    • 分类
    • 划分
  • 常用数据集
    • Fashion-MNIST
    • CIFAR-10
    • ImageNet
  • 数据收集
    • 下载图片
  • 数据清洗
    • gif
    • 内容出错
    • 有干扰信息
    • 其他处理
  • 训练模型
  • 部署模型
  • 小结

前言

上一篇 笔者以 MNIST 为例介绍了机器学习开发流程,相信大家对机器学习开发已经有一个大致的了解。

但是,MNIST 这个例子与真实的项目比起来,显得太简单了,流程也不全。一般地,真实项目的图片是 RGB 三通道的,训练的数据集也是自己采集的。

因此,本篇开始,笔者带大家做一个王者荣耀英雄识别的案例,效果如下图:

机器学习数据集

问题构建(识别王者荣耀英雄)环节接下来就是获取数据,也就是采集数据集

数据集

机器学习关键是训练,训练的“材料”是数据。在这个数据为王的时代,数据即价值

分类

数据集一般分为训练集、验证集、测试集

  • 训练集:上课学知识
  • 验证集:课后练习题,用来纠正和强化所学知识
  • 测试集:考试,评估学习效果

划分

数据集的划分方法并没有明确的规定,不过可以参考以下原则:

  • 规模样本集(几万量级),常用的分配比例是 60% 训练集、20% 验证集、20% 测试集
  • 大规模样本集(百万级以上),只要验证集和测试集的数量足够即可,例如有 100w 条数据,那么留 1w 验证集,1w 测试集即可。1000w 的数据,同样留 1w 验证集和 1w 测试集。
  • 超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集

注:超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。比如:学习率、深层神经网络隐藏层数、树的数量或树的深度。

常用数据集

Fashion-MNIST

机器学习数据集

Fashion-MNIST 包含 60,000 个训练图像和 10,000 个测试图像,它是一个类似 MNIST 的时尚产品数据库。开发人员认为 MNIST 已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与 10 个类别的标签相关联。

CIFAR-10

机器学习数据集

CIFAR-10 数据集是图像分类的另一个数据集,它由 10 个类的 60,000 个图像组成(每个类在上面的图像中表示为一行)。总共有 50,000 个训练图像和 10,000 个测试图像。数据集分为 6 个部分:5 个训练批次和 1个测试批次,每批有 10,000 个图像。

ImageNet

机器学习数据集

ImageNet 是根据 WordNet 层次结构组织的图像数据集。WordNet 包含大约 100,000 个单词,ImageNet平均提供了大约 1000 个图像来说明每个单词。

注:本文重点不在介绍常用数据集,这里不再赘述,更多请参考 keras 提供的可直接加载的数据集 https://www.tensorflow.org/api_docs/python/tf/keras/datasets 。

数据收集

不是所有数据集都是可以通过 keras API 直接加载的。比如,王者荣耀英雄识别这个案例的数据集,就是需要自己收集的。

但是,应该怎么收集呢?手动整理慢,成本也高。为了解决这个问题,笔者做了一个便捷的工具 bing_images 用于从 Bing.com 获取图像 URL 并下载。

下面,介绍如何使用 bing_images 收集王者荣耀数据集。

注:bing_images 的安装和使用方法,可以参考 https://makeoptim.com/deep-learning/collect-image-dataset ,这里不再赘述。

下载图片

download.py

from bing_images import bing from file import rename_files  heros = {     "铠": "kai",     "后羿": "houyi",     "王昭君": "wangzhaojun" }  if __name__ == '__main__':     for (key, value) in heros.items():         query = f'王者荣耀 {key}'         output_dir = f'../dataset/{value}'         bing.download_images(query,                         150,                         output_dir= output_dir,                         pool_size=5,                         force_replace=True)      for value in heros.values():         output_dir = f'../dataset/{value}'         rename_files(output_dir,value,1)
python download.py

数据清洗

由于下载的图片有些是 gif、图片内容出错、有干扰信息等问题,因此,还需要手动整理下。

gif

  • 前言
  • 数据集
    • 分类
    • 划分
  • 常用数据集
    • Fashion-MNIST
    • CIFAR-10
    • ImageNet
  • 数据收集
    • 下载图片
  • 数据清洗
    • gif
    • 内容出错
    • 有干扰信息
    • 其他处理
  • 训练模型
  • 部署模型
  • 小结

前言

上一篇 笔者以 MNIST 为例介绍了机器学习开发流程,相信大家对机器学习开发已经有一个大致的了解。

但是,MNIST 这个例子与真实的项目比起来,显得太简单了,流程也不全。一般地,真实项目的图片是 RGB 三通道的,训练的数据集也是自己采集的。

因此,本篇开始,笔者带大家做一个王者荣耀英雄识别的案例,效果如下图:

机器学习数据集

问题构建(识别王者荣耀英雄)环节接下来就是获取数据,也就是采集数据集

数据集

机器学习关键是训练,训练的“材料”是数据。在这个数据为王的时代,数据即价值

分类

数据集一般分为训练集、验证集、测试集

  • 训练集:上课学知识
  • 验证集:课后练习题,用来纠正和强化所学知识
  • 测试集:考试,评估学习效果

划分

数据集的划分方法并没有明确的规定,不过可以参考以下原则:

  • 规模样本集(几万量级),常用的分配比例是 60% 训练集、20% 验证集、20% 测试集
  • 大规模样本集(百万级以上),只要验证集和测试集的数量足够即可,例如有 100w 条数据,那么留 1w 验证集,1w 测试集即可。1000w 的数据,同样留 1w 验证集和 1w 测试集。
  • 超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集

注:超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。比如:学习率、深层神经网络隐藏层数、树的数量或树的深度。

常用数据集

Fashion-MNIST

机器学习数据集

Fashion-MNIST 包含 60,000 个训练图像和 10,000 个测试图像,它是一个类似 MNIST 的时尚产品数据库。开发人员认为 MNIST 已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与 10 个类别的标签相关联。

CIFAR-10

机器学习数据集

CIFAR-10 数据集是图像分类的另一个数据集,它由 10 个类的 60,000 个图像组成(每个类在上面的图像中表示为一行)。总共有 50,000 个训练图像和 10,000 个测试图像。数据集分为 6 个部分:5 个训练批次和 1个测试批次,每批有 10,000 个图像。

ImageNet

机器学习数据集

ImageNet 是根据 WordNet 层次结构组织的图像数据集。WordNet 包含大约 100,000 个单词,ImageNet平均提供了大约 1000 个图像来说明每个单词。

注:本文重点不在介绍常用数据集,这里不再赘述,更多请参考 keras 提供的可直接加载的数据集 https://www.tensorflow.org/api_docs/python/tf/keras/datasets 。

数据收集

不是所有数据集都是可以通过 keras API 直接加载的。比如,王者荣耀英雄识别这个案例的数据集,就是需要自己收集的。

但是,应该怎么收集呢?手动整理慢,成本也高。为了解决这个问题,笔者做了一个便捷的工具 bing_images 用于从 Bing.com 获取图像 URL 并下载。

下面,介绍如何使用 bing_images 收集王者荣耀数据集。

注:bing_images 的安装和使用方法,可以参考 https://makeoptim.com/deep-learning/collect-image-dataset ,这里不再赘述。

下载图片

download.py

from bing_images import bing from file import rename_files  heros = {     "铠": "kai",     "后羿": "houyi",     "王昭君": "wangzhaojun" }  if __name__ == '__main__':     for (key, value) in heros.items():         query = f'王者荣耀 {key}'         output_dir = f'../dataset/{value}'         bing.download_images(query,                         150,                         output_dir= output_dir,                         pool_size=5,                         force_replace=True)      for value in heros.values():         output_dir = f'../dataset/{value}'         rename_files(output_dir,value,1)
python download.py

数据清洗

由于下载的图片有些是 gif、图片内容出错、有干扰信息等问题,因此,还需要手动整理下。

gif

部分转自互联网,侵权删除联系

赞(0) 打赏
部分文章转自网络,侵权联系删除b2bchain区块链学习技术社区 » 机器学习数据集求职学习资料
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

b2b链

联系我们联系我们