联合时空SIFT特征的同源视频检测-AET-电子技术应用

联合时空SIFT特征的同源视频检测

来源：电子技术应用2012年第3期

张瑞年，于洪涛，李邵梅

国家数字交换系统工程技术研究中心，河南郑州 450002

摘要： 通过对视频帧序列时空特性的分析，采用“局部趋同，全局异化”的策略，提出了一种联合时域和空域SIFT点特征的特征提取方法。实验表明，基于该特征的同源视频检测方法对于一定的视频变化具有较好的鲁棒性和检测精度。

关键词： 软件同源视频检测视频帧序列时空特性联合时空SIFT特征

中图分类号： TN915
文献标识码： A
文章编号： 0258-7998(2012)03-0130-04

Detection of coderivative video based on spatiotemporal SIFT

Zhang Ruinian, Yu Hongtao, Li Shaomei

National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002, China

Abstract： Video features extraction is the important part of detection of coderivative video .SIFT features are local features with excellent performance. By anglicizing the temporal and spatial characteristics of video frames sequences SIFT feature, this paper takes the "local convergence, global alienation" strategy, and proposes a feature extraction method of spatiotemporal SIFT characteristics. Experiments of detection of coderivative video based on the method show that the proposed co-features has better robustness against certain changes of video sequences ,and also has a better detection accuracy than some existing methods.

Key words : detection of coderivative video; spatiotemporal characteristics of video frames sequences ；spatiotemporal SIFT characteristics

近年来，随着网络技术和多媒体技术的快速发展，数字视频的产生、复制、修改和传播变得越来越容易。视频信息在版权保护、广播监测、内容跟踪和管理等方面的问题日益突出，同源视频检测技术作为应对此类问题的一个有效手段受到广泛关注。

   同源视频检测的实质是判定两段视频是否具有相同的内容。现有的同源视频检测方法通常采用基于帧匹配框架，且一些图像匹配方法被广泛使用，如基于颜色直方图的方法、基于边缘的方法以及基于运动信息的方法[1]等，但这些方法都存在对视频色彩、格式、尺度变化鲁棒性差以及难以准确表征视频信息等问题。基于分块亮度顺序OM（Ordinal Measures）[2]的方法相比于现有其他方法性能更优。该方法通过发现图像块间相对关系来构造不变视觉特征，但是局部变化通常会打乱图像块间的相对关系，导致这类方法失效[3]，且该方法受限于OM分块的数量，对视频内容的区分能力较弱[1]。
    上述方法的核心问题是所选取特征的鲁棒性及区分性较差，采用鲁棒性及区分性更好的视频图像特征将有利于视频的准确表征，能进一步改善同源视频检测效果。近年来，在计算机视觉领域成熟的图像局部关键点检测算子和描述算子[4]受到广泛关注，并被应用于视频检测中[5，11]。其中SIFT特征在对象识别方面具有较好的性能[6-7]。但是基于单帧SIFT特征的视频检测方法没有充分利用视频特征的时空相关性，不利于视频的表征及检测效果。本文对视频帧序列的SIFT特征进行了时空特性分析，提出了一种视频联合时空SIFT特征。
1 视频序列的SIFT特征分析
1.1 SIFT特征提取算法
　   SIFT[8]（Scale-Invariant Feature Transform）是一种图像特征提取与匹配算法，该算法能处理两幅图像之间发生平移、旋转、尺度变化、光照变化情况下的特征匹配问题，且在一定程度上对视角变化、仿射变化也具备较为稳定的特征匹配能力。该算法已被证实在同类特征中健壮性最强[4，6]，能在不同图像中检测识别出相同的物体。SIFT特征在稳定性、独特性方面的优良性能，使得SIFT特征非常适合在连续视频帧中提取稳定性、区分性强的事物特征来表征视频信息，并能够准确地在特征数据库中予以匹配。
1.2 视频序列的SIFT特征时空特性分析
    连续视频帧的视觉信息在时域和空域都是不断变化的，其中会有稳定相同的以及新出现的事物和特征。本文以视频帧图像的SIFT特征进行实验分析，对一段运动视频在空域上对每帧图像进行SIFT特征提取，在时域上统计帧与帧之间的SIFT特征匹配数量。实验结果如图1(a)所示，虚线表示每帧图像中SIFT特征的数量，实线表示相邻前后两帧图像相匹配的SIFT特征数量，‘*’线表示后续帧分别与首帧(也可认为是某一固定帧)特征相匹配的数量。该数据表明本实验视频具有以下特性：

    (1)相邻的前后帧存在大量相匹配的SIFT特征，即帧间存在特征冗余。
　(2)后续帧与首帧之间存在一定数量相匹配的SIFT特征，即后续画面中稳定出现的一些特征，如图1(b)所示。视频中可能会有台标、徽标等长时间出现且未发生变化的物体画面区域。
　 (3)序列帧间存在特征更新。虽然相邻帧相匹配的特征数量较多，但对于运动等画面内容变动较大的视频，随着帧间隔的扩大，帧间特征匹配数量会减少，即新的特征在增加。
　 (4)随着后续帧与首帧（或者某一固定帧）相匹配的特征数量的减少，其所占每帧特征总数的比例递减。进一步分析可知，当其减少到一定比例时，可以认为是大量新的视频信息取代了首帧（或者某一固定帧）信息，即新的代表帧甚至是新场景镜头的开始。
　通过以上分析容易得出，本实验视频的上述特点具有一定的普遍性。
2 视频序列的联合时空SIFT特征表征及其度量
　   对于一段视频，仅提取单帧或者关键帧图像的特征会造成一定的视频信息损失，无法充分准确地表征视频。结合1.2节视频序列SIFT特征的时空特性分析，本文进行了视频联合时空SIFT特征构造。
2.1 联合时空SIFT特征的构造
　　视频联合时空SIFT特征有以下三种构造方法：
   (1)对视频帧序列范围内的SIFT特征进行“趋同”处理。由1.2节实验视频特性(2)可知，视频帧序列中会重复、稳定出现一些事物特征，特别是对于镜头固定、画面内容变动不大的视频，此类特征能较准确地表达视频信息。于是以一定序列帧内某一帧为基准，按照式(1)提取帧间稳定出现的、即“趋同”的SIFT特征对视频进行表征。

表示没有检测到的参考视频数量，FlasePositive表示错误检测到的非参考视频数量，Ntarget表示查询视频中参考视频的数量，Tqueries表示查询视频的总长度，β[10]为统一量纲和加权。NDCR的数值越低，表明视频检测的精度越高。
(2)平均检测时间：由一个查询遍历完所有参考视频所消耗的时间来衡量。
本文将联合时空SIFT方法与目前常用的分块亮度顺序(OM)方法进行同源视频检测的对比实验。如图3(a)中所示的联合时空SIFT特征方法的NDCR总体平均值为0.192 9,远低于OM方法的NDCR总体平均值0.872 1，即前者的检测精度高于后者。图3(b)中联合时空SIFT方法的时间消耗平均为1 000.46 s，远大于OM方法的122.75 s。

    由实验可以得出，联合时空SIFT方法对亮度、尺寸、帧率、分辨率、画中画等视频变化都有较好的检测精度，明显好于OM方法。由于SIFT算法本身具有较大的计算量，而联合时空SIFT方法是在提取了SIFT局部点特征的基础上进行了一定的时域及空域的压缩，所以导致了检测时间明显高于OM方法。
   SIFT特征具有良好的尺度、旋转、光照和仿射等不变性，是性能优良的特征匹配算子。视频帧序列中，单个图像帧的特征匹配并不能很好地解决所选特征存在的鲁棒性和区分性较弱的问题。本文对视频帧序列进行了SIFT特征时空特性分析，并采用“局部趋同，全局异化”的策略，提出了一种联合时空SIFT特征的视频表征方法。实验表明，使用本文所提出的联合特征进行同源视频检测，能应对如亮度、尺寸、分辨率等视频变化，且较现有的OM方法具有更好的检测精度。但基于该特征的方法也有些不足，如计算量较大等问题，且当参考视频数据库规模较大时，会导致检测时间较长。在进一步的工作中，将继续对本文所提出的方法进行优化研究，以提高处理速度及改善在大容量视频数据库中的应用。
参考文献
[1] 潘雪峰,李锦涛,张勇东,等. 基于视觉感知的时空联合视频拷贝检测方法[J].计算机学报,2009,32(1):107-114.
[2] LAW T J, CHEN L, JOLY A,et al. Video copy detection: A Comparative Study[C].Proceedings of CIVR.Amsterdam:The Netherlands,2007.
[3] 吴潇,李锦涛,唐胜,等. 基于时空轨迹行为特征的视频拷贝检测方法[J].计算机研究与发展,2010,47(11):1871-1877.
[4] MIKOLAJCZYK K, TUYTELAARS T, SCHMID C, et al. A comparsion of affine region detectors[J].International Journal of Computer Vision, 2005,65(1):43-72.
[5] 孙晶,褚金奎.图像局部不变特征提取技术研究及其应用[D].大连:大连理工大学,2009.
[6] MIKOLAJCZYK K, SCHMID C. A performance evaluation of local descriptors[J]. IEEE Trans.on Pat.Analysis and Machine Intelligence,2005,27(10):1615-1630.
[7] DOUZE M, JEGOU H, SCHMID C. An image-based approach to video copy detection with spatio-temporal post-filtering[J].IEEE Transactions on Multimedia,2008,12(4):257-266
[8] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision,2004,60(2):91-110
[9] 徐波,孙军.基于视频印记的同源视频检测[D].上海:上交通大学,2008
[10]   TREC Video Retrieval Evaluation Home Page[Z].(2011-4-15).http://www-nlpir.nist.gov/projects/trecvid/.
[11]   Guo Junbo, Li Jintao, Zhang Yongdong, et al. Video copy detection based on trajectory behavior pattern[J]. Journal of Computer Aided Design and Computer Graphics, 2010,22(6):943-948.

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容