图像分类:核心任务是从给定的分类集合中给图像分配一个标签任务。

输入:图片
输出:类别。
MNIST数据集是用来识别手写数字,由0~9共10类别组成。
从MNIST数据集的SD-1和SD-3构建的,其中包含手写数字的二进制图像:

MNIST数据集将SD-3作为训练集,将SD-1作为测试集,但SD-3比SD-1更容易识别,原因在于SD-3来源于人工调查局雇员,
SD-1来源于高中生,以上表明分类结果要独立于完整样本集中训练集和测试集的选择,因此,通过混合MNIST数据集来建立新
的数据集很有必要,SD-1有58537幅图像,由500位作者书写,排列混乱,SSD-3的图像是顺序的,新的训练集共有60000幅图像,
一部分来源于SD-1的前250位作家书写,剩余部分来源于SD-3.新的测试集有60000幅图像,部分来源于SD-1剩余250位作家所书写,一部分来源于SD-3。
新数据集成为MNIST数据集,共10个类别:
train-images-idx3-ubyte:训练集图像 train-labels-idx1-ubyte:训练集标签 t10k-images-idx3-ubyte:测试集图像 t10k-labels-idx1-ubyte:测试集标签
图像像素28*28.

ImageNet数据集是具有超过1500万幅带标签的高分辨率图像数据库,这些图像大约属于22000个类别,这些图像由互联网收集,并由人工使用亚马逊的机械土耳其众包工具贴上标签。

从2010年开始,每年举行一次名为ImnageNet的大规模视觉识别挑战赛,ILSVRC使用ImageNet的子集
深度卷积网络模型在ImageNet数据集上进行训练和测试,衡量模型优劣的指标为top−1和top−5top-1和top-5top−1和top−5错误率。
对每幅图像同时预测5个标签类别,若预测的五个类别任意之一为该图像的正确标签,则视为预测正确,那么预测错误的概率为top-5错误率。
若对图像预测一次,预测错误的概率为top-1错误率。

• 类别:共100个类别
• 数量:共60000幅图像。其中,每个类别包含600幅图像
• 训练集:每个类别有500幅
• 测试集:每个类别有100幅
CIFAR-100中的100个类被分成20个大类别。每个图像都带有一个“精细”标签(它所属的类)和一个“粗糙”标签(它所属的超类)
该数据集用来检测和识别街景图像中的门牌号,从大量街景图像的剪裁门牌号图像中收集,包含600000幅小图像。

这些图像以两种格式呈现
根据分类时预测与实际的情况,做出如下表格。
https://mp.weixin.qq.com/s/kAEZP20U0iRikuVKzeSe3w
准确率 = 正确预测的正反例数/总数
ACC=(TP+TN)/(TP+TN+FP+FN)=(A+D)/(A+B+C+D)ACC = (TP + TN)/(TP + TN + FP + FN) = (A + D)/(A + B + C + D)ACC=(TP+TN)/(TP+TN+FP+FN)=(A+D)/(A+B+C+D)
误分类率 = 错误预测的正反例数/总数
误分类率 = 1 - ACC
查准率、精确率 = 正确预测到的正例数/预测正例总数。
查全率、召回率 = 正确预测到正例数/实际正例总数
精确率与召回的调和平均值。

输入:图像image
图像特征提取
方法1: 传统算法(手工提取特征) - HOG、SIFT等
方法2:**深度学习(自动提取特征)- 卷神经网络(CNN)、自注意机制(Transformer)**等
分类器
方法1: 机器学习-SVM,随机树等。
方法2:图片特征进行全连接层即MLP。 加上softmax
输出:类别(label)
)、自注意机制(Transformer)**等
分类器
方法1: 机器学习-SVM,随机树等。
方法2:图片特征进行全连接层即MLP。 加上softmax
输出:类别(label)