您好、欢迎来到现金彩票网!
当前位置:湖南福彩网 > 分割使用 >

重磅开源人工智能视频分割YouTube-VOS大规模视频对象分割基准

发布时间:2019-12-02 17:08 来源:未知 编辑:admin

  摘要:学习长期时空特征对于许多视频分析任务至关重要。然而,现有的视频分割方法主要依赖于静态图像分割技术,捕获分割的时间依赖性的方法必须依赖于预训练的光流模型,导致问题的次优解决方案。用于探索视频分割的空间 - 时间特征的端到端顺序学习在很大程度上受到可用视频分割数据集的规模的限制,即,即使最大的视频分割数据集也仅包含90个短视频剪辑。为了解决这个问题,我们构建了一个名为YouTube视频对象分割数据集(YouTube-VOS)的新的大型视频对象分割数据集。我们的数据集包含4,453个YouTube视频剪辑和94个对象类别。这是迄今为止我们所知的最大视频对象分割数据集,已在youtube-vos上发布。我们进一步评估了该数据集上几种现有的最先进的视频对象分割算法,该算法旨在为未来新算法的开发建立基线。

  介绍:学习有效的时空特征已被证明对许多视频分析任务非常重要。例如,Donahue等人。 [1]提出了用于活动识别和视频字幕的长期反复卷积网络。 Srivastava等人。 [2]建议使用LSTM自动编码器进行无监督的视频表示学习。 Tran等人。 [3]开发一个3D卷积网络,从视频中共同提取空间和时间信息。其他工作包括学习降水预测[4],物理相互作用[5]和自动驾驶[6]的时空信息。

  视频分割在视频理解中起着重要作用,它可以促进许多应用,例如精确的对象分割和跟踪,交互式视频编辑和增强现实。视频对象分割,其目标是在整个视频序列中对特定对象实例进行分割,仅给出第一帧上的对象掩模,最近引起了视觉界的广泛关注[7,8,9,10,11,12,13] ,14]。然而,现有的最先进的视频对象分割方法主要依赖于单个图像分割框架[7,8,9]。例如,Caelles等人。 [7]建议在静态图像上训练对象分割网络,然后在数百次迭代中对测试视频的第一帧上的模型进行微调,以便记住对象外观。然后将经过微调的模型应用于所有后续的单个帧,以在不使用任何时间信息的情况下对对象进行分割。尽管简单,但这种在线学习或一次性学习方案在视频对象分割基准上取得了最佳表现[15,16]。虽然已经提出了一些最近的方法[11,10,13]来利用时间一致性,但它们依赖于预先训练其他任务的模型,如光流[17,18]或运动分割[19],以提取时间信息。这些预训练模型是从单独的任务中学习的,因此对于视频分割问题来说是次优的。

  然而,直接为视频对象分割任务学习长期时空特征在很大程度上受到现有视频对象分割数据集的规模的限制。例如,流行的基准数据集DAVIS [20]只有90个短视频片段,这几乎不足以像其他视频分析任务一样从头开始学习序列到序列网络。即使我们将来自可用数据集的所有视频组合起来[16,21,22,23,24,25],它的规模仍远小于许多其他视频分析数据集,如YouTube-8M [26]和ActivityNet [27]。 ]。为了解决这个问题,我们在这项工作中提出了第一个名为YouTube-VOS(YouTube视频对象分割数据集)的大型视频对象分割数据集。我们的数据集包含4,453个YouTube视频剪辑,其中包含94个类别,涵盖人类,常见动物,车辆和附件。每个视频剪辑长约3 6秒,通常包含多个对象,这些对象由专业注释器手动分段。与现有数据集相比,我们的数据集包含更多视频,对象类别,对象实例和注释,以及更长的注释视频总持续时间。表1提供了我们的新数据集与现有数据集的定量比例。该数据集已在youtube-vos上发布。我们在第3节中详细说明了数据集的收集过程。

  在本报告中,我们还重播了YouTube-VOS上最先进的视频对象分割算法,并在包含474个视频的验证集上对其性能进行了基准测试。此外,我们的验证集包含26个独特的类别,这些类别在培训集中不存在,用于评估现有方法对看不见的类别的一般化能力。我们在第4节中提供了详细的结果。

  相关工作:在过去的几十年中,已经为视频对象分割创建了几个数据集[16,21,22,23,24,25]。所有这些都是小规模的,通常只包含几十个视频。另外,它们的视频内容相对简单(例如,没有重遮挡,相机运动或照明改变),并且有时视频分辨率低。最近,出版了一个名为DAVIS [15,20]的新数据集,并成为该领域的基准数据集。其2016版包含50个视频,每个视频包含一个前景对象,而2017版则包含90个视频,每个视频包含多个对象。与以前的数据集[16,21,22,23,24,25]相比,DAVIS具有更高质量的视频分辨率和注释。此外,他们的视频内容更复杂,包括多对象交互,相机移动和遮挡。

  用于视频对象分割的早期方法[16,28,29,30,31]通常用手工制作的能量项来解决一些时空图形结构,这些能量项通常与外观,边界,运动和光学流动等特征相关联。最近,由于其在图像分割任务中的巨大成功,提出了基于深度学习的方法[32,33]。大多数这些方法[7,8,10,11,9]基于图像分割网络构建其模型,并且不涉及顺序建模。在线]通常用于提高他们的表现。为了使模型在时间上一致,前一帧的预测掩模用作[8,9,14]中的指导。其他方法已经

  提出利用时空信息。 Jampani等人。 [12]使用空间 - 时间一致性来随时间传播对象掩模。托马科夫等人。 [13]使用双流网络来模拟物体的外观和运动并使用a

  重复层来捕捉进化。然而,由于缺乏训练视频,他们使用预训练运动分割模型[19]和光流模型[17],这导致次优结果,因为模型未经端到端训练以最佳捕获空间 - 时间特征。最近,徐等人。 [34]提出了序列到序列学习算法来学习用于分割的长期时空信息。他们的模型是在YouTube-VOS的初步版本上进行训练的,并不依赖于现有的光流或运动分割模型。

  YouTube-VOS:为了创建我们的数据集,我们首先仔细选择一组视频类别,包括动物(例如蚂蚁,鹰,金鱼,人),车辆(例如飞机,自行车,船,轿车),配件(例如眼镜,帽子,包),共同物体(例如盆栽植物,刀,标志,伞)和人类在各种活动中(例如网球,滑板,摩托车,冲浪)。包含人类活动的视频具有多样化的外观和动作,因此我们使用活动标签列表收集与人类相关的视频,以增加人体运动和行为的多样性。这些视频中的大多数包含人与相应对象之间的交互,例如网球拍,滑板,摩托车等。整个类别集包括78个类别,涵盖不同的对象和动作,并且应该代表日常场景。

  然后,我们使用来自大型视频分类数据集YouTube-8M [26]的所选类别标签收集许多高分辨率视频。此数据集包含数百万与超过4,700个可视实体相关联的YouTube视频。我们利用其类别注释来检索我们感兴趣的候选视频。具体而言,我们的细分类别集中的每个类别最多可检索100个视频。使用YouTube视频创建分段数据集有几个优点。首先,YouTube视频具有非常多样化的对象外观和动作。 YouTube视频中通常存在视频对象分割的具有挑战性的案例,例如遮挡,快速对象运动和外观变化。其次,YouTube视频由专业人士和业余爱好者拍摄,因此在抓取的视频中会显示不同级别的相机动作。在这些数据上训练的算法可能更好地处理相机运动,因此更实用。最后但并非最不重要的是,许多YouTube视频都是由今天的智能手机设备拍摄的,并且需要将这些视频中的对象细分为视频编辑和增强现实等应用。

  由于检索到的视频通常较长(几分钟)并且具有镜头过渡,因此我们使用现成的视频镜头检测算法4将每个视频自动分割为多个视频片段。我们首先从视频的第一个和最后一个10%中删除剪辑,因为这些剪辑很有可能包含介绍性字幕和信用列表。然后,我们为每个视频采样最多五个具有适当长度(3 6秒)的剪辑,并手动验证这些剪辑包含正确的对象类别,并且对我们的任务非常有用(例如,没有场景转换,不会太暗,不稳定或模糊)。在收集视频剪辑后,我们要求人类注释器为每个视频剪辑选择最多五个适当大小和类别的对象,并在30fps帧中每隔五帧仔细注释它们(通过跟踪它们的边界而不是粗糙的多边形)速率,导致6fps的采样率。给定视频及其类别,首先需要注释器注释属于该类别的对象。如果视频包含其他显着对象,我们也会要求注释者标记它们,以便每个视频都有多个注释对象,并且对象类别不限于我们最初的78个类别。在人类活动视频中,人类主体和他/她与之交互的对象都被标记,例如,人员和滑板都需要在“滑板”视频中进行标记。此外,为每个带注释的对象标记实例级别类别,不仅包括视频级别类别,还包括贴标人已标记的其他类别,从而产生总共94个对象类别。活动类别将被删除,因为它们不代表单个对象。请注意,在早期版本的数据集[34]中,只有视频级别类别可用。一些注释示例如图1所示。与先前数据集[21,15,20]中的密集每帧注释不同,我们认为五个连续帧之间的时间相关性足够强,可以省略中间帧的注释以减少注释工作。这种跳帧注释策略允许我们在相同的注释预算下扩大视频和对象的数量,这是提高性能的重要因素。我们从经验上发现我们的数据集在训练不同的分割算法方面是有效的。

  视频剪辑比YouTube对象[16]大50倍,这是现有的视频对象分割数据集,视频数量最多。我们的数据集总共有197,272个对象注释,比DAVIS 2017 [15]大15倍。有94种不同的对象类别,包括人物,动物,车辆,家具和其他常见物体。表2中列出了完整的对象类别列表。因此,YouTube-VOS是迄今为止最大,最全面的视频对象分割数据集。

  实验:在本节中,我们将重新培训YouTube-VOS培训集上最先进的视频对象分割方法,并评估其在YouTube-VOS验证集上的性能。所有算法都在相同的设置下进行训练和测试。我们希望实验结果可以为将来开发新算法设定基线个视频组成的整个数据集分为训练(3,471),验证(474)和测试(508)组。由于数据集已用于研讨会竞赛(即第一次大规模视频对象分割挑战)5,因此测试集仅在竞赛期间可用,而验证集将始终公开。因此,我们仅使用验证集进行评估。在训练集中,有65个唯一对象类别被视为可见类别。在验证集中,有91个唯一对象类别,包括所有看到的类别和26个看不见的类别。如上所述,看不见的类别用于评估不同算法的泛化能力。为了训练最先进的算法,我们首先将训练帧的大小调整为固定大小(即256 448),然后使用他们公开发布的代码来训练他们的模型。我们还评估了其他图像分辨率的算法,如480p,但差别可以忽略不计。所有模型都经过充分训练,直到收敛。为了评估,我们遵循研讨会使用的评估方法,该方法计算区域相似性和轮廓精度,如[15]。最终结果是四个指标的平均值:对于看到的类别,对于看到的类别,对于看不见的类别和对于看不见的类别。

  方法:我们比较了几个最近提出的算法,这些算法在以前的小规模基准测试中获得了最先进的结果。这些算法是OSVOS [7],MaskTrack [8],OSMN [9],OnAVOS [35]和S2S [34]。有关这些算法的更多详细信息,请参阅他们的论文。

  结果:结果如表3所示。前四种方法使用静态图像分割模型,其中三种(即OSVOS,MaskTrack和OnAVOS)需要在线S通过递归神经网络(RNN)利用长期时空相干性,其无需在线中的第二行)与在线学习方法的最佳结果相比,实现了相当的性能视频对象分割的长期时空信息的重要性。通过在线S得到了进一步改进,与最佳在线学习方法OSVOS相比,在整体精度方面实现了大约6%的绝对改进。令人惊讶的是,OnAVOS是DAVIS上性能最佳的方法,但在我们的数据集上并没有取得良好的效果。我们认为,在我们的数据集中,剧烈的外观变化和复杂的运动模式使得在线适应在许多情况下失败。

  接下来,我们将现有方法的泛化能力与表3中看不见的类别进行比较。所有方法对看到的类别都有明显更好的结果,而不是看不见的类别。其中,OSVOS具有最小的差异,可能是由于大规模图像分割数据集的预训练。值得注意的是,在线学习的方法也存在这个问题,这表明虽然在线学习有助于提高看不见的类别的准确性,但对一些大型对象分割数据集进行预训练仍然很重要。一般对象特征表示。总的来说,结果表明,与[34]相比,看见和看不见的类别之间的性能差距要大得多。我们认为这是因为实例类别用于在当前设置中拆分看到和看不见的子集,与使用视频级别类别拆分子集的[34]相比较。目前的设置使得看到和看不见的类别之间更加清晰,并且更具挑战性。

  最后,我们比较每帧平均所有方法的推理速度。 OSMN和S2S(没有OL)不使用在线学习,因此具有非常快的推理速度,可以实时应用。与在线学习方法相比,这是一个很大的优势,特别是对于移动应用。虽然表现仍然不如在线学习。

  结论:在本报告中,我们介绍了迄今为止最大的视频对象分割数据集。名为YouTube-VOS的新数据集在视频和注释数量方面比现有数据集大得多,使我们能够更全面地评估现有的最先进的视频对象分割方法。我们相信新数据集将促进对基于视频的计算机视觉的研究。

http://hostalblau.com/fengeshiyong/918.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有