引言
随着HDTV 的普及,以LCD-TV 为主的高清数字电视逐渐进入蓬勃发展时期。与传统CRT 电视不同的是,这些高清数字电视需要较复杂的视频处理电路来驱动,比如:模数转换(A/D Converter)、去隔行(De-interlacer)、视频缩放(Scaler)和视频图像增强(Video Enhancement)等等。由于HDTV 的带宽较高,720p 信号(1280×720Hz)的像素速率达到74MHz,因此针对HDTV 的视频处理算法需要更高性能的器件。采用大规模高工艺的ASIC 芯片是目前这个问题的主要解决方案,Pixelworks、Genesis 等公司均推出了基于大规模ASIC 的解决方案。但是,随着FPGA 工艺的不断改善,其性价比与日俱增,尤其是Xilinx、Altera 等厂商纷纷采用90nm 工艺量产后,其价格不断降低,Xilinx 最新推出的Spartan-3E系列FPGA 120 万门的售价只有9 美元,已经在小量产品的IC 设计中开始替代结构化ASIC,在数字高清电视这类价格敏感型消费类电子产品中也开始大量采用。
本文介绍了如何在FPGA 中利用Block RAM 的特殊结构实现HDTV 视频增强算法中灰度直方图统计。
灰度直方图统计
灰度直方图统计是图像处理过程中很常用的一个步骤,简单来讲,就是对一幅图像各个灰度的像素进行计数,得到一张灰度分布表。例如,8 位量化的灰度图像统计结果就是256个值,分别代表0-255 每个灰度像素的数量,如图1 所示为Lena 图像的灰度直方图统计结果。直方图是分析一幅图像亮度分布特性有力的工具,根据它的结果可以进行诸如灰度拉伸、自动对比度、动态伽马调整等操作。
图1 Lena 图像的灰度直方图统计
FPGA算法统计
在计算机或者DSP 上实现直方图统计时,我们通常会使用数组结构,即在内存中开辟一个整数数组来进行计数,但是在FPGA 中定义数组是非常消耗资源的,尤其是当数组成员的位宽很大时。例如用触发器来统计256 灰度的720p 图像的直方图,将消耗4000 个逻辑单元(每个逻辑单元是一个四输入查找表),这几乎消耗了一个Spartan-3E 25 万门器件(XC3S250E)80%的逻辑资源。
幸运的是,FPGA 器件提供了一个很好的结构可以处理这类问题,这就是Block RAM。在Altera 和Xilinx 的各型号FPGA 器件上都集成了一种称为Block RAM 的片上内存,它们以若干Kbits 为一块,不同型号集成不同数量的块,例如在Spartan-3E 系列中以18Kbits 为一块,在规模最小的型号XC3S100E 上集成了4 块这样的内存,如图2 所示:
图2 Spartan-3E 系列FPGA 集成的Block RAM
这种内存很容易实现数组类型的结构,而且这种内存被设计成双端口方式,即可以用两组独立的地址数据总线来读写,因此可以用不到一块的Block RAM 就实现256×24 这样的高位宽计数器阵列来进行HDTV 视频图像的直方图统计,如图3 所示:
图3 用Block RAM 实现计数器阵列
以Block RAM 的结构为核心,按照以下几点来设计直方图统计算法:
1. Block RAM 使用双端口方式,端口A 用来将内存单元计数值读出,端口B 将计数值加一后写回该内存单元。
2. 内存的地址在像素有效时由像素灰度值选择,在行同步期间不计数,在场同步期间使用一个递增计数器在前256 个时钟将统计结果输出,在之后的256 个时钟将RAM 块清零。 3. 双端口读写时钟相位相差180 度,以避免双端口读写冲突。
4. 数据的读出、加一和写入采用了流水线结构以提高性能,所以在地址控制上要进行适当暂存以保证数据同步。
图4 为256 级灰度720p 视频图像直方图统计的算法实现功能框图:
图4 用FPGA 的Block RAM 实现直方图统计
结语
该算法借助FPGA 片上的高性能Block RAM(读写速度可以到200 兆以上),可以实现SMPTE 定义的从720p 到1080p 的各种HDTV 视频图像的实时直方图统计,仅占用FPGA不到一百个逻辑单元和一块Block RAM,是一种性价比较高的FPGA 实现直方图统计的算法,而且该算法具有很好的通用性,可以应用到各
种需要大量高位宽计数器的高速FPGA设计中。
参考文献:
1. Xilinx,Spartan-3E FPGA datasheet,2005.3
2. Xilinx,Using Block RAM in Spartan-3 Generation FPGAs,2005.3