2023年,电信AI公司在人工智能领域掀起了一股科技旋风,连续在21项国内外顶级AI竞赛中获奖,申请了超过100项专利,同时在CVPR、ACM MM、ICCV等顶级会议和期刊上发表论文30余篇,推动了人工智能理论研究的深入发展。此外,电信AI公司立足于人工智能的核心技术,致力于推动其在工业、医疗、能源、教育、交通、农业等各行各业的落地应用,凭借深厚的技术积累和持续的创新力,为行业注入了新动力,助力提升效率,解决棘手问题。这份以实际应用为焦点的“成绩单”,无疑为电信AI公司赢得了更多的尊重和认可,也再次证明了央企在科技浪潮中不仅是技术的领航者,更是创新的先驱。
电信AI公司,一家在2023年11月以30亿元注册资本成立的科技巨头,其前身是中国电信数字智能科技分公司。作为中国电信开展大数据及人工智能业务的科技型、能力型、平台型专业公司,电信AI公司自成立以来,一直致力于人工智能领域核心技术攻坚、前沿技术研发和产业空间拓展。在中国电信集团全面深入实施云改数转战略的大背景下,电信AI公司成功自主研发了超大规模视频解析能力、数字人智能客服、星辰系列大模型等一系列创新应用成果。
通过与各行业和国家级合作伙伴的全面合作,电信AI公司正扩大在行业内和国家层面的占位与影响力,持续为人工智能创新提供引擎动力。电信AI公司的成功背后,是一支约800人的精英团队的支持。这支团队中,研发人员的占比高达75%,平均年龄为31岁,他们既有来自国内外一流高校的应届生,也有来自全球顶尖科技公司的资深工程师。他们的才华和创新精神共同构成了电信AI公司强大的技术研发力量,为公司的持续发展提供了源源不断的人才支持。
接下来,我们将对电信AI公司在2023年的一些重要科研成果进行系列回顾和分享。本期是针对电信AI公司CV团队(以下简称“CTCV团队”)在ICCV 2023 The Perception Test Challenge-Action Localisation顶会上获得了Action Localisation赛道的冠军技术进行介绍。ICCV在计算机视觉领域的三大顶会之一,每两年召开一次,在业内具有极高的评价。本文将介绍该团队在本次挑战中采用的算法思路和方案。
ICCV 2023 The Perception Test Challenge-Action Localisation 冠军技术分享
【赛事概览与团队背景】
随着大型多模态模型如Flamingo、BeIT-3、GPT-4的发展,人类水平的集成感知系统正逐渐成为可能。为了实现这一目标,需要全面评估这些模型的性能,包括揭示它们的优势和劣势。现有的多模态基准在某些方面存在局限,如图像基准通常不涉及时间方面,而视觉问答主要关注图像级语义理解。DeepMind发布的ICCV 2023 The First Perception Test Challenge旨在通过探索模型在视频、音频和文本模态中的能力,克服这些局限。竞赛覆盖了四个技能领域、四种推理类型和六个计算任务,旨在更全面地评估多模态感知模型的能力。
其中Action Localisation赛道是对参赛团队在细粒度视频理解方面的一次考验,该赛道的核心是对未剪辑的视频内容进行深入理解和准确的动作定位,所展示出的技术对于自动驾驶系统、视频监控分析等多种实际应用场景至关重要。
由中国电信交通算法方向的成员组成CTCV团队,参加了本次比赛。该团队持续在计算机视觉技术这个研究方向深耕,沉淀的技术已在城市治理、交通治安等业务中广泛应用,持续服务海量的用户。他们利用长期打磨明星产品所积累的经验和技术,以本次ICCV 2023的The First Perception Test Challenge – Action Localisation赛道为契机,实现在视频理解领域技术的自我突破。
1引言
在视频中定位和分类动作的任务,即时序动作定位[8](Temporal Action Localisation, TAL),仍然是视频理解中的一个挑战性问题。
TAL的深度模型方面已经取得了显著进展。例如,TadTR[7]和ReAct[9]使用类似DETR的基于Transformer[2]的解码器进行动作检测,将动作实例建模为一组可学习的集合。TallFormer[3]使用基于Transformer的编码器提取视频表征。
目前,这些方法在动作定位方面已经实现了显著的进度,然而仍有许多问题亟待挖掘。例如,部分方法在视频感知能力方面存在局限。为解决该问题,CTCV团队意识到想要更好地定位动作实例,可靠的视频特征表达是关键所在。
TAL作为一种高度精细的视频理解任务,且在本次挑战的数据集包含了假装动作类别,动作更为复杂,直接借用现有预训练模型提取特征效果并不理想。为了解决这一问题,CTCV团队采用了近期的VideoMAE-v2框架[12],并加入自有的adapter+linear层,同时,利用原始预训练模型权重作为模型部分的初始化权重,训练具有两种不同主干网络的动作类别预测模型。接下来,利用改进的ActionFormer框架[13]训练TAL任务,并对改进了WBF方法[10]适配TAL任务。经过这一系列的技术创新与优化,CTCV团队的方法在测试集上实现了0.50的mAP,排名第一,领先第二名的团队3个百分点,比Google DeepMind提供的baseline高出34个百分点。
2 竞赛解决方案
图1 算法概览
2.1 数据增强
在Perception Test Challenge的Action Localisation赛道,采用的数据集是一组用于动作定位的视频(RGB+音频),这些视频具有高分辨率,并包含多个动作片段的标注。通过分析数据集,CTCV团队发现训练集相较于验证集缺少了三个类别的标签。为保证模型验证的充分性以及竞赛的要求,采集了少量的视频数据,并将其添加到训练数据集中,以丰富训练样本。同时,为简化标注,CTCV团队预设了每个视频只包含一个动作。
图2 自采视频样例
2.2 动作识别与特征提取
近年来,使用大规模数据进行训练的基础模型喷涌而出,通过zero-shot recognition、linear probe、prompt finetune、fine-tuning等手段,将基础模型较强的泛化能力应用到多种下游任务中,有效地推动了AI领域多个方面的进步。
TAL作为一种精细的视频理解任务,并且本次挑战的数据集包含了假装动作类别,例如
‘假装将某物插入某物’,‘假装将某物撕成碎片’等。这类动作和'将某物插入某物',‘将某物撕成碎片’等动作极为相似,这无疑给特征层面带来了更大的挑战。因此直接借用现有预训练模型提取特征(如VideoMAE-v2),效果不理想。
为了让模型更好地学到特征表示,CTCV团队选择了近期发布的VideoMAE-v2框架,自主训练一个域适应的动作分类模型,在该框架后面增加了adapter层以及用于分类的linear层,训练同数据域下的动作分类器[11]。CTCV团队通过解析JSON标注文件,将TAL数据集转换为动作识别数据集。最后,为了增加视频片段表征的多样性,同时考虑实验的效率,以Vit-B和Vit-L为主干[4]的特征提取器。
对于每个视频,使用了16帧的不重叠剪辑,以每秒15帧的帧率捕获,并以16帧的步幅。VitB模型的特征维度为768,而ViTL模型的特征维度为1024。当组合这两种特征时,生成了一个新的维度为1792的特征。该特征是CTCV团队训练时序动作定位模型的备选之一。在训练初期阶段,团队分析了音频特征,观察到mAP指标有所下降。因此,在随后的实验中没有考虑音频特征。
2.3 时序动作定位
Actionformer[13] 是一个为时序动作定位设计的anchor-free模型,它集成了多尺度特征和时间维度的局部自注意力。它在各种相关数据集上都展现了令人印象深刻的性能。
本次竞赛,CTCV团队使用Actionformer作为动作定位的baseline模型,以预测动作发生的边界(起止时间)及类别。
在获得视频特征后,CTCV团队follow ActionFormer的方法,将动作边界回归和动作分类结合在一个统一的框架内。通过级联的视频特征被编码到一个多尺度的Transformer中,做进一步处理。接着,在模型的回归和分类的head分支引入feature pyramid layer,增强特征表达,这些头部在每个time step会产生一个action candidate。同时通过将head的数量增加到32,并引入fpn1D结构,相比基线训练架构,提高了模型的识别能力。
2.4 WBF for 1-D
Weighted Boxes Fusion(WBF)[10]是一种新型的加权检测框融合方法,该方法利用所有检测框的置信度来构造最终的预测框,并在图像目标检测中取得了较好地效果,与NMS[6]和soft-NMS[1]方法不同,它们会丢弃某些预测,WBF利用所有提出的边界框的置信度分数来构造平均盒子。这种方法极大地提高了结合预测矩形的准确性。
受WBF在物体检测中应用的启发,CTCV团队运用了类比的思想,将动作的一维边界框类比为一维线段,并对WBF方法进行了修改,以适用于TAL任务,如图3所示。实验结果表明了该方法的有效性。
图3 改进的1维WBF 示意图
3 实验结果
3.1 评估指标
本次挑战赛使用的评估指标是mAP[5]。它是通过计算不同动作类别和IoU阈值的平均精确度来确定的。CTCV团队以0.1的增量评估IoU阈值,范围从0.1到0.5。
3.2 实验细节
CTCV团队模型训练结合了Vit-B、Vit-L以及两者的混合组合提取的特征。为了获得更多样化的模型,一共进行了5次重复采样训练数据集的80%。每种特征提取方法产生了5个模型,最后拥有了15个模型。团第将这些模型的评估结果分别输入WBF模块,并为每个模型结果分配了等量的融合权重,即[1,1,1,1,1]。
3.3 实验结果
表1展示了不同特征的性能对比。第1行和第2行分别展示了使用ViT-B和ViT-L特征特征的结果。第3行是ViT-B和ViT-L特征级联的结果。
在过程中CTCV团队发现级联特征的mAP略低于ViT-L,但仍优于ViT-B。尽管如此,基于各种方法在验证集上的表现,选择在测试集上将以上特征应用WBF得到结果并提交。最终提交到系统的结果mAP为0.50。
4 结论
在本次竞赛中,CTCV团队最初通过数据收集增强相对验证集中缺失类别的训练数据。借助VideoMAE-v2框架加入适配层训练基于不同主干网络的动作类别预测模型。并利用修改的ActionFormer框架训练TAL任务,同时修改了WBF方法以便有效地融合测试结果。最终,CTCV团队在测试集上实现了0.50的mAP,排名第一。
这一优异成绩证明了团队方法的有效性,将实际业务中沉淀下来的算法、trick及算法逻辑应用于国际公平公正的竞争舞台,实现了电信AI公司在视频理解领域的自我突破。电信AI公司一直秉持着“技术从业务中来,到业务中去”的路线,将竞赛视为检验和提升技术能力的重要平台,通过参与竞赛,不断优化和完善技术方案,为客户提供更高质量的服务,同时也为团队提供了宝贵的学习和成长机会。
References
[1] Navaneeth Bodla, Bharat Singh, Rama Chellappa, and Larry S Davis. Soft-nms–improving object detection with one line of code. InProceedings of the IEEE international conference on computer vision, pages 5561–5569, 2017.
[2] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. InEuropean conference on computer vision, pages 213–229. Springer, 2020.
[3] Feng Cheng and Gedas Bertasius. Tallformer: Temporal action localization with a long-memory transformer. InEuropean Conference on Computer Vision, pages 503–521. Springer, 2022.
[4] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16×16 words: Transformers for image recognition at scale.arXiv preprint arXiv:2010.11929, 2020.
[5] Mark Everingham, Luc Van Gool, Christopher KI Williams, John Winn, and Andrew Zisserman. The pascal visual object classes (voc) challenge.International journal of computer vision, 88:303– 338, 2010.
[6] Jan Hosang, Rodrigo Benenson, and Bernt Schiele. Learning non-maximum suppression. InProceedings of the IEEE conference on computer vision and pattern recognition, pages 4507–4515, 2017.
[7] Xiaolong Liu, Qimeng Wang, Yao Hu, Xu Tang, Shiwei Zhang, Song Bai, and Xiang Bai. End- to-end temporal action detection with transformer.IEEE Transactions on Image Processing, 31:5427–5441, 2022.
[8] Viorica P ̆atr ̆aucean, Lucas Smaira, Ankush Gupta, Adri`a Recasens Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward, Mateusz Malinowski, Yi Yang, et al. Percep- tion test: A diagnostic benchmark for multimodal video models.arXiv preprint arXiv:2305.13786, 2023.
[9] Dingfeng Shi, Yujie Zhong, Qiong Cao, Jing Zhang, Lin Ma, Jia Li, and Dacheng Tao. React: Temporal action detection with relational queries. InEuropean conference on computer vision, pages 105–121. Springer, 2022.
[10] Roman Solovyev, Weimin Wang, and Tatiana Gabruseva. Weighted boxes fusion: Ensembling boxes from different object detection models.Image and Vision Computing, 107:104117, 2021.
[11] Anwaar Ulhaq, Naveed Akhtar, Ganna Pogrebna, and Ajmal Mian. Vision transformers for action recognition: A survey.arXiv preprint arXiv:2209.05700, 2022.
[12] Limin Wang, Bingkun Huang, Zhiyu Zhao, Zhan Tong, Yinan He, Yi Wang, Yali Wang, and Yu Qiao. Videomae v2: Scaling video masked autoencoders with dual masking. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14549–14560, 2023.
[13] Chen-Lin Zhang, Jianxin Wu, and Yin Li. Actionformer: Localizing moments of actions with transformers. InEuropean Conference on Computer Vision, pages 492–510. Springer, 2022.
免责声明:此文内容为本网站转载企业资讯,仅代表作者个人观点,与本网无关。所涉内容不构成投资、消费建议,仅供读者参考,并请自行核实相关内容。
原文转自:咸宁新闻网
免责声明:本文来自网络收录或投稿,观点仅代表作者本人,不代表芒果财经赞同其观点或证实其描述,版权归原作者所有。转载请注明出处:https://www.mgcj.net/1083776.html
温馨提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。