摘要:
problems:Video question answering (VideoQA) is challenging as it requires modeling capacity to distill dynamic visual artifacts and distant relations and to associate them with linguistic concepts(Video QA任务具有挑战性,因为他需要模型能力来提取动态的视觉对象和距离关系并且和语言概念联系起来)
作者提出了一种general-purpose的的单元叫做Conditional Relation Network (CRN),可以作为building block来创建更加复杂的模型。输入为一组对象的向量(frames 或者 clips)+条件特征,输出也为一组对象向量(包含高阶关系)。
使用这个CRN单元可以使构建网络模型变得简单,可以为不同的方式和上下文关系来通过简单的复制,重组和堆叠构建网络模型。这个设计因此支持高层的信息联系和多步推理。
简介:
CRN结构如下:
具体的算法流程如下:
使用 CRN unit 组建的网络 Hierarchical Conditional Relation Networks ( HCRN )架构如下:
一个 video 有 L 个 frames,等分为 N 个 clip,每个 clip 有 L/N 个 frames 总共 4 层的 CRN。 第一层:输入为 clip 级别的 video frames,整合 clip motion 作为上下文,处理 clip 中 frame appearance 之间的关系,输出作为第二层的输入。 第二层:使用第一层的输出,整合问题的语义作为上下文,输出作为第三层输入 第三层:使用第二层的输出,整合 video motion 作为上下文,输出作为第四层输入 第四层:使用第三层的输出,整合问题的语义作为上下文,
优点: 1、这种网络(HCRN)在三个数据集 TGIF-QA,MSVD-QA,MSRVTT-QA 上都表现出很好 的性能:
2、对于长视频的处理具有更高的计算效率
3-level 的 HCRN 比 2-level 的 HCRN 理论计算上节约的时间同视频长度 L 的平方成正比。
3、使用CRN易于构建复杂的video QA模型网络。