一句话总结

本文提出Video K-Net:一个简单、强大且通用的系统,用于完全端到端的视频全景分割,在视频语义/实例/全景分割任务上表现SOTA!代码即将开源!

想看更多CVPR 2022论文和开源项目可以点击:

点击关注@CVer计算机视觉,第一时间看到最优质、最前沿的CV、AI工作~

注:文末附【Transformer】和【图像分割】交流群

Video K-Net

Video K-Net: A Simple, Strong, and Unified Baseline for Video Segmentation

CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图1

单位:北大, 南洋理工, 港中文, 商汤, 上海AI Lab
代码:https://github.com/lxtGH/Video-K-Net
论文:https://arxiv.org/abs/2204.04656

本文介绍了 Video K-Net,这是一个简单、强大且统一的框架,用于完全端到端的视频全景分割。

CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图2CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图3

该方法建立在 K-Net 之上,K-Net 是一种通过一组可学习内核统一图像分割的方法。我们观察到这些来自 K-Net 的可学习内核,它们对对象外观和上下文进行编码,可以自然地将视频帧中的相同实例关联起来。

CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图4CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图5

受此观察的启发,Video K-Net 通过简单的基于内核的外观建模和跨时间内核交互来学习同时分割和跟踪视频中的k things and stuf。尽管简单,但它在 Citscapes-VPS 和 KITTI-STEP 上实现了最先进的视频全景分割结果,没有花里胡哨。特别是在 KITTI-STEP 上,简单的方法可以比以前的方法提高近 12% 的相对改进。

CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图6CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图7
CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图8CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图9
CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图10CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图11

我们还验证了它在视频语义分割上的泛化性,我们在 VSPW 数据集上将各种基线提高了 2%。

CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图12CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图13

此外,我们将 K-Net 扩展到用于视频实例分割的clip级视频框架,在 YouTube-2019 验证集上,我们获得了 ResNet50 主干的 40.5% 和 Swin-base 的 51.5% mAP。我们希望这种简单而有效的方法可以作为视频分割中新的灵活基线。

CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图14CVPR2022OralVideoK-Net:简单强大且通用的视频分割基线插图15

CVer-Transformer交流群

建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer6666。加的时候备注一下:Transformer+学校/公司+昵称+知乎,即可。然后就可以拉你进群了。

CVer-图像分割交流群

建了CVer-图像分割交流群!想要进去图像分割学习交流群的同学,可以直接加微信号:CVer6666。加的时候备注一下:图像分割+学校/公司+昵称+知乎,即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。

推荐阅读

旷视提出NAFNet:图像恢复的简单基线

DehazeFormer:用于单图像去雾的视觉Transformer

CVPR 2022 | SwinTextSpotter:通过文本检测和文本识别之间更好的协同作用进行场景文本Spotting

90.4% 准确率!DaViT:双注意力视觉Transformer

CVPR 2022 Oral | 视觉Transformer新工作!MixFormer:跨窗口和维度的混合特征

CVPR 2022 Oral | 全新视觉Transformer主干!NUS&字节跳动提出Shunted Transformer

CVPR 2022 | 谷歌大脑提出:重用图像分类特征可提高目标检测性能

CVPR 2022 | FAIR提出DVT:可变形视频Transformer

何恺明团队新作ViTDet:探索用于目标检测的视觉Transformer骨干网

刷新纪录!SCUNet:通过Swin-Conv-UNet和数据合成的实用盲去噪

CVPR 2022 | UniDet:通用的多数据集目标检测

复旦&亚马逊开源BigDetection:改进目标检测器预训练的大规模基准

替代微调!Meta AI提出VPT:视觉Prompt Tuning

CVPR 2022 | Transformer再屠榜!南大提出MixFormer:端到端目标跟踪新网络

CVPR 2022 | DW:一种用于目标检测的双重加权标签分配方案

UNeXt:第一个基于卷积和MLP的快速医学图像分割网络

CVPR 2022 | 即插即用!助力自监督涨点的ContrastiveCrop开源了!

Transformer-UNet:基于Transformer的可变形医学图像配准网络

FreeSOLO:学习在没有注释的情况下分割对象

新注意力!新主干!VAN:视觉注意力网络

FAIR提出ConvNeXt:2020 年代的卷积网络

清华提出:最新的计算机视觉注意力机制(Attention)综述!

Swin Transformer夺得ICCV 2021最佳论文!中国学者拿下半壁江山!

为何Transformer在计算机视觉中如此受欢迎?

Transformer一脚踹进医学图像分割!看5篇MICCAI 2021有感

深度学习中的 Attention 机制总结与代码实现(2017-2021年