摘 要: 随着互联网的普及和发展, 传统的文本摘要的提取方法已无法适应绿色网络提供优质内容并过滤不良文本的社会需求。提出通过条件随机场模拟对句子进行注解的方法提取文本摘要。实验证明新方法提取文本的效果有效并可提供更好的过滤不良文本的服务。
关键词: 绿色网络; 提取信息; 不良文本; 过滤; 条件随机场
目前尚未发现“绿色网络”权威定义,现阶段只能将其理解为可预防网民患上网瘾流行病的计算机网络[1-2]。基于行为分析的绿色网络系统软件的设计目的是为了预防青少年感染不良的网瘾行为。基于行为分析的绿色网络系统中提取文本摘要子系统(下文称绿网摘要提取系统)采用智能的方法浓缩文本信息,从而使基于行为分析的绿色网络系统能快速有效地识别过滤对青少年有不良影响的文本,保留青少年获得感兴趣并对他们身心有益的文本。
在如何快速准确提取文本摘要这个问题上,不少学者进行了大量有价值的研究。Baxendale提出引入句子位置判断句子重要性的方法提取文本摘要[3]。Luhn列出高频词并打分,分数高的句子被认定为文本摘要句[4]。AONE C等提出基于TF-IDF朴素贝叶斯模型的算法提取文本摘要[5-7]。KUPIE C J等通过增加句长方法改进朴素贝叶斯模型的算法提取文本摘要[8]。金立左等提取文本摘要使用基于最大熵模型,增加了先验概率,从而优于所有基于朴素贝叶斯模型的方法[9-11]。
针对文本摘要更新较快和多样性的特点,本文提出通过条件随机场模拟对句子进行注解来达到提取文本摘要的方法。实验表明该方法可有效地提取文本摘要,为绿色网络系统是否过滤该文本提供依据。
1 绿网摘要提取系统摘要主要特征
文本摘要具有三个基本的特征:源自文件、保留文本重要信息、长度短。因此要满足以上特点,很多因素会影响一个句子是否被认为是文本摘要句。影响分为两大类,第一类是句子自身因素,也称单句特征;第二类是文本上下文信息因素,称为关联特征。
1.1 句子自身特征
句子自身特征是指不涉及文本上下文信息也能体现出句子本身的特征。下文列举出几种句子自身因素。
(1)长度特征,由于文本摘要基本不会出现过短或过长的句子,先过滤掉句子中的停用词,然后以词为单位计算目标句子的长度,最终本文算法选取最短和最长的阀值分别为38和6。
(2)位置特征,位置因素是文本预料的重要特征因素,首句、尾句、段首和段尾是最重要的影响提取文本摘要的几个特征,本文采用了首段、尾句、段首和段尾的位置特征因素。标记词语特征,判断摘要句的标记词语,例如“表示”等,统计表明,约有30%句子含有标记词语,本文算法利用这些词语判断摘要句。
(3)高频词特征,高频词是指出现在目标文本频率较高的句子,词频越高,证明该词语的重要程度越大,所在的句子代表性越强,本文算法在停用词被过滤后,再度量使用高频词。
(4)时间、数字及专有名词特征,文章的焦点基本是命名实体,算法选择句子时决定使用时间、数字以及专有名词。
1.2 上下文关联特征
一个句子是否被绿网摘要提取系统选择为摘要句,除了句子自身的特征影响外,受到上下文关联特征的影响也是很大的。绿网摘要提取系统选择两种基本的关联特征。
(1)与文本标题相似度的关联特征。文本信息包含在标题中,研究发现句子与标题相似度越大,则出现在摘要的可能性越大。
(2)与文本其他句子的相似度的关联特征。实际开发中绿网摘要提取系统把使用该特征看作寻找“高频句”的相似过程,原理与高频词原理相似,建模公式为:
其中,x为绿网摘要提取系统目标文本;Length(x)为绿网摘要提取系统目标文本的长度,即系统目标文本所包含的句子数。
3 实验测试结果及分析
3.1 实验测试预料
本文实验的测试数据来源于广西软件测试中心,从搜狐、新浪、网易以及凤凰网4个网站上采集了35 220篇文本,其中既有不宜青少年阅读的文本,也有适合青少年阅读的文本,将这些平均分为5等份,4份用于训练,1份用于测试,测试使用交叉验证方法。
3.2 实验测试评测方法
为了更好地评价绿网摘要提取系统测试实验效果,采用准确率、召回率和F值3个标准指标来衡量,其中F值是本次测试最重要的评价指标。绿网摘要提取系统测试实验结果的计算公式为:
从表1的实验结果可以看出,绿网摘要提取系统使用基本条件随机场模型的综合效果(即F值)好于系统使用其他两种模型,召回率不如系统使用朴素贝叶斯模型。算法设计小组观察标注的结果发现,当系统选取目标文本过长时,使用条件随机场提取摘要句子分布会过于分散,位于文本中部的句子其位置特征相对分散,导致误判,从而绿网摘要提取系统使用基本条件随机模型提取目标文本的摘要的召回率低一些。算法设计小组对本次测试统计发现,有54%的文本超过10句,24%的文本超过20句,文本越长,绿网摘要提取系统使用基本条件随机模型提取目标文本的摘要的效果越差。
表2 列出了第二组测试的实验结果。
从表2实验结果可以看出,绿网摘要提取系统使用合适的修正因子条件随机场模型后,召回率提高了15.4%,综合效果(F值)也提高了1.6%,在一定程度上提高了F值,取得更好的效果。
绿网摘要提取系统采用增加修正因子的方法改进条件随机模型可以克服目标文本因文本过长所造成的影响。从实验效果来看,使用修正因子可以提高提取摘要的效果,今后可重点考虑在算法模型中增加更多因素的修正因子,以提高模型算法的提取效果。
参考文献
[1] 宁葵,龙珑,覃晓,等.绿色网络不良内容语义分析方法研究[J].计算机应用研究,2010,27(12):4643-4645.
[2] 龙珑,邓伟.绿色网络智能文摘算法研究[J].计算机应用, 2012,32(7):2030-2032.
[3] BAXENDALE P. Machine-made index for technical literature-an experiment[J]. IBM Journal of Research Development, 1958,2(4):354-361.
[4] LUHN H P. The automatic creation of literature abstracts[J]. IBM Journal of Research Development,1958,2(2):159-165.
[5] AONE C, OKUROWSKI M E, GORLINSKY J, et al. A trainable summarize with knowledge acquired from robust NLP techniques[C].In Mani, I.and Maybury,M. T., editors, Advances in Automatic Text Summarization, 71-80. MIT Press. 1999.
[6] PANG B,LEE L,VAITHYANTHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]. Processdings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2002:79-86.
[7] 何凤英.基于语义理解的中文博文倾向性分析[J].计算机应用,2011,31(8):2130-2137.
[8] KUPIEC J, PENDERSEN J, CHEN F. A trainable document summarizer[C]. Proceedings of SIGIR‘95, 68-73,New York, NY,USA,1995.
[9] 金立左,袁晓辉,赵一凡,等.二维模糊划分最大熵图像分割算法[J].电子与信息学院,2002,2(8):1040-1048.
[10] 张龙凯, 王厚峰. 文本摘要问题中的句子抽取方法研究[J].中文信息学报,2012,26(2):97-101.
[11] 屈志毅,李一伟,张延堂,等.一种基于关键重复语义的最大熵文本分类[J].广西师范大学学报(自然科学版), 2007,25(4):204-207.