摘 要: 结合C程序,将预处理后的单个汉字图像与原图像进行逐个像素对比以判断读写,描写出原汉字字形。对经过预处理的单个汉字图像进行分析,提出了运用最小二乘法对二值化笔画点进行分组拟合的方法,从分布散乱的像素点中拟合出直线或曲线,画出汉字笔画,并计算相关系数、相关指数、残差及其平方和等参数,评估相关性、回归特性等拟合效果。最后,采用计算坐标平均的方法平整左右上下线,将其矫正成左右边竖直、上下边水平的口字形。
关键词: 图像分析;最小二乘法;拟合;像素对比;汉字笔画
由于数字图像的复杂性,至今仍没有一种通用的处理检测算法。在处理时,对被处理的图像有相当的依赖性,不同的算法都有其优点,同时也存在各自的不足[1]。
将原图像与预处理后的图像进行像素对比读写,从而描绘出与原图像相仿的汉字字形。该方法以C程序来实现,简单而实用。
通过预处理操作,单个汉字图像的笔画会变成一些看似有规律分布的像素点,其中,不少的像素点已经被处理掉,笔画变得断断续续、参差不齐,不好判断其原字形。应用最小二乘法进行拟合能将这些点按照某种规律连续起来,可以很大程度地还原笔画,为进一步的识别打下基础[2]。
曲线拟合中最基本和最常用的是直线拟合[3]。设x和y之间的函数关系为:
计算结果与拟合效果评定如下:
斜率b=1.326 167 238 195 73;截距a=16.116 855 710 894 2;回归方程为y=1.326 167 238 195 73x+16.116 855 710 894 2;相关系数:r=0.929 217 368 156 058,正相关很强;相关指数R2=0.863 444 917 282 872,回归效果很好;残差平方和为527.222 104 985 4。
2.3 “口”字形笔画点
采用最小二乘法进行拟合的方法进行口字分组拟合直线,以提取“苦”中的“口”字形。鉴于像素点数量过大不便于进行拟合实验,本文先进行二值化处理减少笔画点,再进行直线拟合。图3为选取各组不同阈值进行二值化得到的结果,可以看出,当阈值变小时,笔画点的数量也将减少。
从图3可以看出,当阈值取60时,笔画的数量合适,便于进行拟合分析,因此选取图3(d)图进行坐标点赋值和拟合实验。
将X右、Y底、X左、Y上作为笔画的四边,得到矫正后的口字形,同时4个对角点位置由所得4个平均坐标组合得到,确定笔画的边界。坐标平均矫正的结果如图5(b)所示。
本文对最小二乘法拟合原理计算公式进行了阐述,提出的像素点对比方法达到了提出汉字整体轮廓的目的。同时也提出将最小二乘法直线拟合运用到单个汉字笔画点字形提取当中,得到了与原字形相符的“口”字形笔画,拟合效果好,达到了预期的目的,同时为汉字的自动识别提取研究打下基础。
另外,对以下几个方面作进一步说明:(1)对于弯曲曲线的字形笔画,可以尝试用最小二乘法进行曲线拟合,同时,其他高等数学拟合方法也可以用来对笔画点进行分析;(2)汉字笔画点自动识别提取,实现对笔画点自动拟合;(3)笔画点二值化处理的阈值选择与笔画点数量的确定需要进行更客观的规律分析,达到阈值的优化选择,笔画点数量范围更大。
参考文献
[1] 朱辉,杨扬,颉斌,等.SVM在小字符集手写体汉字识别中的应用研究[J].微计算机信息,2004(8-1):21-23.
[2] 樊钧,王润生.从图像中提取文字[J].国防科技大学学报,2002(01):59-62.
[3] 党兴菊,吴文良.最小二乘法拟合直线公式的推导[J].重庆科技学院学报(自然科学版),2010,12(4):185-187.
[4] 薛鹏涛,雷金山,肖立.土工直剪试验的最小二乘法拟合[J].中外公路,2007,27(5):41-44.
[5] 丁克良,沈云中,欧吉坤.整体最小二乘法直线拟合[J].辽宁工程技术大学学报(自然科学版),2010,29(1):44-47.
[6] 马建波.C语言图像处理程序集[M].北京:海洋出版社,1992.