技术标签: deep learning
转自:https://www.jianshu.com/p/639f9ecc1328
CutMix:就是将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值,分类结果按一定的比例分配
区别
上述三种数据增强的区别:cutout和cutmix就是填充区域像素值的区别;mixup和cutmix是混合两种样本方式上的区别:mixup是将两张图按比例进行插值来混合样本,cutmix是采用cut部分区域再补丁的形式去混合图像,不会有图像混合后不自然的情形。
优点
(1)在训练过程中不会出现非信息像素,从而能够提高训练效率;
(2)保留了regional dropout的优势,能够关注目标的non-discriminative parts;
(3)通过要求模型从局部视图识别对象,对cut区域中添加其他样本的信息,能够进一步增强模型的定位能力;
(4)不会有图像混合后不自然的情形,能够提升模型分类的表现;
(5)训练和推理代价保持不变。
作者通过热力图,给出了结果。CutMix的操作使得模型能够从一幅图像上的局部视图上识别出两个目标,提高训练的效率。由图可以看出,Cutout能够使得模型专注于目标较难区分的区域(腹部),但是有一部分区域是没有任何信息的,会影响训练效率;Mixup的话会充分利用所有的像素信息,但是会引入一些非常不自然的伪像素信息。
代码地址:https://github.com/clovaai/CutMix-PyTorch
生成裁剪区域
"""输入为:样本的size和生成的随机lamda值"""
def rand_bbox(size, lam):
W = size[2]
H = size[3]
"""1.论文里的公式2,求出B的rw,rh"""
cut_rat = np.sqrt(1. - lam)
cut_w = np.int(W * cut_rat)
cut_h = np.int(H * cut_rat)
# uniform
"""2.论文里的公式2,求出B的rx,ry(bbox的中心点)"""
cx = np.random.randint(W)
cy = np.random.randint(H)
#限制坐标区域不超过样本大小
bbx1 = np.clip(cx - cut_w // 2, 0, W)
bby1 = np.clip(cy - cut_h // 2, 0, H)
bbx2 = np.clip(cx + cut_w // 2, 0, W)
bby2 = np.clip(cy + cut_h // 2, 0, H)
"""3.返回剪裁B区域的坐标值"""
return bbx1, bby1, bbx2, bby2
整体流程
"""train.py 220-244行"""
for i, (input, target) in enumerate(train_loader):
# measure data loading time
data_time.update(time.time() - end)
input = input.cuda()
target = target.cuda()
r = np.random.rand(1)
if args.beta > 0 and r < args.cutmix_prob:
# generate mixed sample
"""1.设定lamda的值,服从beta分布"""
lam = np.random.beta(args.beta, args.beta)
"""2.找到两个随机样本"""
rand_index = torch.randperm(input.size()[0]).cuda()
target_a = target#一个batch
target_b = target[rand_index] #batch中的某一张
"""3.生成剪裁区域B"""
bbx1, bby1, bbx2, bby2 = rand_bbox(input.size(), lam)
"""4.将原有的样本A中的B区域,替换成样本B中的B区域"""
input[:, :, bbx1:bbx2, bby1:bby2] = input[rand_index, :, bbx1:bbx2, bby1:bby2]
# adjust lambda to exactly match pixel ratio
"""5.根据剪裁区域坐标框的值调整lam的值"""
lam = 1 - ((bbx2 - bbx1) * (bby2 - bby1) / (input.size()[-1] * input.size()[-2]))
# compute output
"""6.将生成的新的训练样本丢到模型中进行训练"""
output = model(input)
"""7.按lamda值分配权重"""
loss = criterion(output, target_a) * lam + criterion(output, target_b) * (1. - lam)
else:
# compute output
output = model(input)
loss = criterion(output, target)
import torch
import numpy as np
class Cutout(object):
"""Randomly mask out one or more patches from an image.
Args:
n_holes (int): Number of patches to cut out of each image.
length (int): The length (in pixels) of each square patch.
"""
def __init__(self, n_holes, length):
self.n_holes = n_holes
self.length = length
def __call__(self, img):
"""
Args:
img (Tensor): Tensor image of size (C, H, W).
Returns:
Tensor: Image with n_holes of dimension length x length cut out of it.
"""
h = img.size(1)
w = img.size(2)
mask = np.ones((h, w), np.float32)
for n in range(self.n_holes):
y = np.random.randint(h)
x = np.random.randint(w)
y1 = np.clip(y - self.length // 2, 0, h)
y2 = np.clip(y + self.length // 2, 0, h)
x1 = np.clip(x - self.length // 2, 0, w)
x2 = np.clip(x + self.length // 2, 0, w)
mask[y1: y2, x1: x2] = 0.
mask = torch.from_numpy(mask)
mask = mask.expand_as(img)
img = img * mask
return img
Yolov4的mosaic数据增强参考了CutMix数据增强方式,理论上具有一定的相似性。CutMix数据增强方式利用两张图片进行拼接,但是mosaic利用了四张图片,根据论文所说其拥有一个巨大的优点是丰富检测物体的背景,且在BN计算的时候一下子会计算四张图片的数据。
实现思路
1.每次读取四张图片
2.分别对四张图片进行翻转、缩放、色域变化等,并且按照四个方向位置摆好。
3.进行图片的组合和框的组合
作者:毛十三_
链接:https://www.jianshu.com/p/639f9ecc1328
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
python:实现Mosaic Augmentation马赛克增强算法...
1.题目链接。二维线段树维护的使用。每一个节点都是一段区间,给这个区间建一颗线段树维护区间的信息。操作基本是类似的。 ...
http://acm.timus.ru/problem.aspx?space=1&num=1124 连通分量 Tarjan 大体题意: n个箱子 每个里面有m个物品 但对应编号有可能错误 要求把所以物品归位 求最少move 一次move 有两种情况 1,把一个物品从一个箱子里拿到里一个箱子了(回来,不会来都可以) 2,空手从一个箱子到另一个箱子 思路: ...
Mystical Mosaic 题意:n*m的棋盘, 每次选一个行集合R和一个列集合C, 将行与列的交点染成黑色, 每次操作不能选择已选过的行或列, 问能否将白色棋盘染成给出状态; 记录每一行的状态(二进制表示),然后枚举状态;...
【题目链接】 点击打开链接 【算法】 二维线段树(树套树) 【代码】 ...
mixup mixup是基于邻域风险最小化(Vicinal Risk Minimization, VRM)原则的数据增强方法,使用线性插值得到新样本数据。 在邻域风险最小化原则下,根据特征向量线性插值将导致相关目标线性插值的先验知识,可得出简单且与数据无关的mixup公式: 其中(xn,yn)是插值生成的新数据,(xi,yi) 和 (xj,yj)是训练集中随机选取的两个数据,λ的取值...
文章目录 mosaic PAN 训练结果 所有代码已上传到本人github repository:https://github.com/zgcr/pytorch-ImageNet-CIFAR-COCO-VOC-training 如果觉得有用,请点个star哟! 下列代码均在pytorch1.4版本中测试过,确认正确无误。 mosaic与PAN都是yolov4(https://arxiv.org/p...
数据增强之cutout变体,添加噪声 生成框 随机选择一个batch中的图片将指定区域填充噪声 同样也可以将此方法应用在特征中,对特征进行添加噪声块 其他增强方法,图像重压缩,模糊度,...
仅用于windows下的评测器...
栈的定义 栈(stack)是限定仅在表尾进行插入和删除的线性表 栈又称先进后出(Last In First Out)的线性表,简称LIFO结构 进栈和出栈 栈的插入操作,叫做进栈,也叫压栈,入栈,类似子弹入弹夹 栈的删除操作,叫做出栈,也有叫弹栈 栈的抽象数据类型 由于与线性表类似,所以栈也是存在顺序存储和链式存储的 他们的主要 区别,仅限于数据元素在实际物理空间上存放的相对位置,顺序栈底层采用的...