您当前的位置:都市生活圈资讯正文

张航李沐等人提出ResNet最强改进版功能进步3%参数不增

放大字体  缩小字体 2020-04-18 15:34:30  阅读:5336 作者:责任编辑NO。蔡彩根0465

机器之心报导

机器之心编辑部

功能明显进步,参数量却没有明显添加。最新的 Split-Attention Networks 承继了 ResNet 简练通用的特性。

2015 年,ResNet 横空出世,一举斩获 CVPR 2016 最佳论文奖,并且在 Imagenet 竞赛的三个使命以及 COCO 竞赛的检测和切割使命上都取得了第一名。四年曩昔,这一论文的被引量已超 40000 次,也连续呈现了许多变体。最近,来自亚马逊、加州大学戴维斯分校的张航、李沐、Alexander Smola 等研讨者进一步改进了 ResNet,功能明显进步,但参数量并没有明显添加,逾越了之前的 ResNeXt、SENet 等模型。

该研讨的一作,亚马逊运用科学家张航标明:「分类网络一般作为下流运用的中心,可是最近许多分类问题的作业没有坚持之前 ResNet 那样的模块化的规划,导致方针检测等干流运用的研讨还在运用 ResNet。所以咱们规划了新的 ResNet 变体 ResNeSt,可以直接运用到已有的干流模型中,明显进步 Mask R-CNN,Cascade R-CNN 等模型的成果(~3%)。」

论文地址:https://hangzhang.org/files/resnest.pdf

项目地址:https://github.com/zhanghang1989/ResNeSt

虽然图画分类模型不断进化,但方针检测、语义切割等大都下流使命仍在运用 ResNet 变体作为其主干网络,由于后者具有简略而模块化的结构。

在这份论文中,研讨者提出了一种模块化 Split-Attention 块,可以将注意力涣散到若干特征图组中。依照 ResNet 的风格堆叠这些 Split-Attention 块,研讨者得到了一个 ResNet 的新变体,称为 ResNeSt。它保留了全体的 ResNet 结构,可直接用于下流使命,但没有添加额定的核算量。

研讨者致力于对 ResNet 进行简略的架构修正。具体地说,每个块都将特征图分为几组(依据通道维数)和更细粒度的子组或 splits,其间,每个组的特征标明是经过它的 splits 标明的加权组合确认的(依据大局上下文信息挑选权重)。研讨者将得到的成果单元称为 Split-Attention 块,它简略且模块化。

试验标明,ResNeSt 优于其他具有相似模型复杂度的网络。ResNeSt-50 在 ImageNet 上完成了 81.13% 的 top 1 精确率,比此前最好的 ResNet 变体高 1% 以上。这一进步关于方针检测、实例切割、语义切割等下流使命来说很有含义。此外,将 ResNet-50 的主干网络替换为 ResNeSt-50,MS-COCO 上 FasterRCNN 的 mAP 从 39.25% 进步至 42.33%,ADE20K 上 DeeplabV3 的 mIoU 从 42.1% 进步至 45.1%。

表 1:如左图所示,在速度与精确率的平衡方面,ResNeSt 达到了 SOTA 水平;右上图为 ResNeSt 在 ImageNet 上的 Top-1 精确率;右下图为搬迁学习成果:MS-COCO 上的方针检测 mAP 以及 ADE20K 上的语义切割 mIoU。

Split-Attention 网络

Split-Attention 块

Split-Attention 块是一个由特征图组和 split attention 运算组成的核算单元,下图展现了 Split-Attention 块的全体思路:

特征图组(Feature-map Group)

与 ResNeXt 块相同,输入的特征图可以精确的经过通道维数被分为几组,特征图组的数量由一个基数超参数 K 给出,得到的特征图组被称为基数组(cardinal group)。研讨者引进了一个新的底数超参数 R,该参数规则了基数组的 split 数量。

然后将块输入 X 依据通道维数 X = {X1, X2, ...XG} 分为 G = KR 个组。在每个独自的组中运用不同的改换 {F_1, F_2, ...F_G},则每个组的中心表征为 Ui = Fi(Xi), i ∈ {1, 2, ...G}。

基数组中的 Split Attention

依据 [30,38],每个基数组的组合表征可以终究靠跨多个 split 的元素求和交融来取得。第 k 个基数组的表征为:

,k ∈ 1, 2, ...K。带有嵌入 channel-wise 统计数据的大局上下文信息可以经过大局池化来取得。第 c 个重量的核算公式为:

基数组表征 V^k ∈ R^{H×W×C/K} 的加权交融经过运用 channel-wise 软注意力来聚合。其间,每个特征图通道都是在若干 split 上运用一个加权组合取得的。第 c 个通道的核算公式如下:

ResNeSt 块

随后,将基数组表征依据通道维数进行级联:V = Concat{V^1 , V^2 , ...V^K}。和规范残差块中相同,假如输入和输出特征图同享相同的形状,则运用方便衔接生成 Split-Attention 块的终究输出 Y,Y = V +X。关于步幅较大的块,将恰当的改换 T 运用于方便衔接以对齐输出形状:Y = V + T(X)。T 可以是跨步卷积或带有池化的组合卷积。

图 1 右为 Split-Attention 块的实例,组改换 F_i 是 1×1 卷积,然后是 3×3 卷积,注意力权重函数 G 运用两个带有 ReLU 激活函数的全衔接层进行参数化。

与现有注意力办法的联系

squeeze-and-attention(原论文叫 excitation)是 SE-Net 论文中首要引进的,中心主意是运用大局上下文猜测 channel-wise 的注意力要素。若 radix=1,Split-Attention 块可将 squeeze-and-attention 操作运用于每个基数组,而 SE-Net 则在整个块的顶部运转,与多个组无关。此前 SK-Net 等模型引进了两个网络分支之间的特征注意力,但这些操作没有针对练习功率及扩展到大规模神经网络进行优化。新的办法扩展了之前的特征图注意力相关研讨,但其完成在核算上仍然是高效的。

图 1 展现了 ResNeSt 块与 SE-Net 和 SK-Net 块的全体比照。

Split-Attention 的细节可参阅图 2。

试验

第一个试验研讨了 ResNeSt 在 ImageNet 2012 数据集上的图画分类功能,成果如表 3 所示。ResNeSt50 达到了 81.13% 的 top-1 精确度。

表 3:ImageNet 上的图画分类成果。

表 5 和表 6 显现了 ResNeSt 在方针检测和实例切割使命中的体现。

表 5:在 MS-COCO 验证集上的方针检测功能成果。

在方针检测使命中,与运用规范 ResNet 的基线比较,ResNeSt 主干网络可以将模型在 Faster-RCNN 和 CascadeRCNN 上的 mAP(均匀精度均值)进步大约 3%。

表 6:在 MS-COCO 验证集上的实例切割成果。

如表 6 所示,ResNeSt 主干网络具有更好的功能,关于 Mask-RCNN,ResNeSt50 的功能优于基线,在 box/mask 使命中的功能别离进步了 2.85%/2.09%。而 ResNeSt101 的进步更多,为 4.03%/3.14%。关于 Cascade-Mask-RCNN,切换到 ResNeSt50 或 ResNeSt101 所发生的功能进步别离为 3.13%/2.36% 或 3.51%/3.04%。

下表 7 展现了 ResNeSt 在 ADE20K、Citscapes 语义切割使命上的体现。

表 7:在 ADE20K(左)、Citscapes(右)语义切割使命中的功能。

与之前的成果相似,运用 ResNeSt-50 主干网络的 DeepLabv3 模型现已优于运用更深层 ResNet-101 主干网络的 DeepLabv3 模型。具有 ResNeSt-101 主干网络的 DeepLabV3 模型达到了 82.07% 的 pixAcc 和 46.91% 的 mIoU,据了解,这是为 ADE20K 提出的最佳单一模型。

机器之心 CVPR 2020 线上共享的第一期,咱们邀请到北京大学智能科学系陈汉亭(论文一作)为咱们共享主题《加法神经网络:在深度学习中咱们是否真的需求乘法?》,欢迎读者报名学习。

【免责声明】:本文仅代表作者本人观点,与本网站无关。本网站对文中陈述、观点判断保持中立,不对所包含内容的原创性、准确性、真实性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,本站不承担任何直接责任及连带责任。