文献标识码: A
DOI:10.16157/j.issn.0258-7998.2018.S1.071
0 引言
配电网工程在国家稳增长、调结构、惠民生中发挥重要作用。近年来,公司不断加大配电网等基础性建设的投资力度,配电网新建、改建和扩建,有效得提高了供电可靠性和稳定性。但是由于配电网工程具有投资规模大、结构复杂、多方参与等特点,在项目投资决策中缺少对于项目与线路台区的关联分析,不能全面反映资源投入转换成应有产出结果的效益,出现了部分项目与实际需求有差异、项目投产后设备利用率不足、投资不合理等现象。
目前,针对配电网投资效益如何最优化的研究仍较少。文献[1]分析了配电网投资后得到的经济效益,但其只是从财务角度出发,没有考虑其他影响因素;文献[2]在配电网评估模型和技术方法层面进行了研究,但太侧重于技术实现的介绍,而没有把投资的经济效益考虑在内;文献[3]介绍了十分全面的评价指标体系的构建,但太多的评价指标反而容易干扰评价结果,导致评价结果失真;文献[4]构建了辅助电网基建项目决策的模型,但没有充分考虑投资限额的问题,因此存在某些地区的投资金额大于投资限额的问题;文献[5]构建了激励监管环境下多周期优化潮流和监管约束模型;文献[6]提出了一种可随机优化的配网投资决策模型;文献[7]建立了配电自动化系统成本效益综合分析模型。
基于上述研究成果现状,本文针对线路运营数据的关键指标构建了综合评价指标体系,利用熵权法与层次分析法结合的组合赋权法确定指标权重,进而得到线路投资迫切程度的得分情况,然后通过基于条件随机场的文本挖掘技术对在建项目进行线路主体名称提取后,对配电网项目投资情况与线路打分结果进行关联分析,最后用实例验证了该方法的合理性。
1 研究方法
1.1 熵权法
熵权法的核心是根据指标变异性的大小来确定权重。一般地,指标的信息熵越小,其变异程度就越大,那么该指标提供的信息量就越多,其权重就越大[8],从而在综合评价中所起的作用也就越大。
1.2 层次分析(AHP)法
AHP通过分析复杂系统所包含的因素及相关关系,构造一个层次分析结构模型[9],然后按照标度规则将各指标进行两两比较,得到指标判断矩阵,最后计算得到判断矩阵的最大特征值以及最大特征值对应的特征向量,从而得出权重向量。其主要步骤如下:
(1)依据标度规则,构造两两比较判断矩阵A:
如果CR<0.1,则判断矩阵A通过了一致性检验,否则对A进行重新修正。
1.3 基于单位化约束条件的组合赋权法
组合主客观指标权重的综合赋权法是理想的指标权重确定方法,目前,组合集成赋权法已存在多种形式,本文选用的是基于单位化约束条件的综合赋权法[10]。
假设主观赋权AHP法得到的指标权重向量为:w=(w1,w2,…,wn),客观赋权熵权法得到的指标权重向量为:v=(v1,v2,…,vn),且主客观权重和分别均为1,令R=αw+βv,其中R为组合主客观权重后的最终权重向量,α、β分别为主客观权重向量的系数,且α、β满足约束条件:α2+β2=1。
令各评价对象的最终得分值为di,依据多属性决策的加法原则有:
最后将系数α、β代入式(8)即可得到各评价对象的得分情况。
1.4 基于条件随机场(CRF)的文本挖掘算法
CRF是指在给定一组输入随机变量条件下,得出另一组输出随机变量的条件概率分布的模型,条件随机场可以用于不同的预测问题,尤其是在中文文本提取问题上的应用[11]。
设X与Y是随机变量,P(Y|X)是在给定X条件下Y的条件概率分布。若随机变量Y构成一个无向图,G=(V,E)表示的马尔科夫随机场,即:P(YV│X,YW,W≠V)=P(YV│X,YW,W~V),对任意结点V成立,则称条件概率分布P(Y|X)为条件随机场,式中W~V表示在图G=(V,E)中与结点V有边连接的所有结点W,W≠V表示结点V以外的所有结点。
在定义中,并没有要求X和Y具有相同的结构。现实中,一般假设X和Y具有相同的图结构。本文主要考虑无向图为如图1和2所示的线性链的情况,即:
G=(V={1,2,3,…,n},E={(i,i+1)}),i=1,2,3,…,(n-1)
在此情况下,X=(X1,X2,…,Xn),Y=C(Y1,Y2,…,Yn),称(X,Y)是一个条件随机场。
CRF++工具是著名的使用命令行进行控制的条件随机向量场的训练和测试工具,本文的研究实现了Python和工具的联调,使得该算法的训练和测试命令更加简单明了,根据用具自选参数设定显示内容,同时根据需求定制特征模板。虽然CRF++工具占用内存较大,但是它的结果准确率较高,总的来说,CRF++是综合性能最佳的工具。
2 配电网项目投资与线路的关联分析
2.1 综合评价指标体系构建
配电网对项目的投资旨在满足用户不断增加的用电负荷需要,在此基础上再尽可能较多地获得企业收益,因此本文从配电网运营数据层面构建指标体系,对线路运营指标进行综合评价,从而验证在建项目投资的合理情况。综合评价的关键在于确定评价指标的选取,本文从线路供电可靠性、负荷水平、电压质量以及三相不平衡这4个维度出发构建的指标体系如表1所示,指标能从信息系统直接提取,避免了主观因素的参与。
2.2 项目线路主体名称提取
由于在建项目绝大部分是针对10 kV线路进行的,而且项目名称的命名也存在不规范的情况,因此,本文对项目中10 kV线路主体名称的提取采用基于CRF的文本挖掘算法。整个提取流程如图3所示,具体步骤如下:
(1)对项目名称进行预处理,主要包括对字母大小写转换、罗马数字规范化以及统一某些汉字的书写等工作。
(2)对预处理后的文本进行分词,这个过程除了采用第三方算法包自带的分词规则外,还需要添加自定义词典,本文加入了电力行业专业词汇、城市信息词汇、设备台账表抽取的线路名称词汇等。
(3)识别命名实体(线路主体),基于条件随机场的命名实体识别需要手动对分词后的文本进行标注,预先根据文本句式特点建立命名实体标注集对每个词进行手动标注。
(4)手动标注结束后,需要建立相应的几种特征模板来指定训练时涉及的特征值,从这几种模板中选择准确率最高的一种作为最终的特征模板加入模型定义中,本文中,特征模板选用了CRF++的标准范例模板Template_NER_01、Template_NER_02。Template_NER_01模板中设定窗口大小为1,即认为当前词与前后一个词之间在语义上关联度最高;Template_NER_02模板中设定窗口大小为2,即认为当前词与前后两个词之间在语义上关联度最高。
(5)采用条件随机场CRF工具,利用之前标注后的训练集分别加入两种特征模板训练模型,随后在此基础上输入测试数据进行不断测试,找出测试集准确率较高的模型,最后输入要预测的文本到该模型中便可返回相应的线路主体。
2.3 分析流程
本文基于配电网线路的重过载、超载、过电压、低电压、三相不平衡、停电等方面指标,从业务系统中提取多维度信息,通过综合评价法对线路指标情况进行打分,然后通过基于条件随机场的文本挖掘技术对在建项目进行线路主体名称提取后,关联分析所有线路的得分情况与在建项目对于线路的投资情况,进而验证在建项目的投资必要性和合理性,最终为电网企业科学合理地进行配电网投资提供借鉴,发挥运监中心在企业闭塞环节优化、风险防控、管理提升工作中的积极作用。图4为本文分析的技术流程。
3 实例分析
3.1 数据来源
提取配电网运营监测平台某供电公司2017年全年的配变运营数据,包括电压质量、负荷、三相不平衡以及停电数据,对其中配变所属线路利用正则表达式进行统一规范化后,得到10 kV线路的各指标数据。例如,线路停电指标的计算采用停电类别为“电网故障停限电”、停电时间在2017年内、线路所属电压质量为10 kV后的某线路下所有配变的停电时长总和、停电次数总和作为该线路的停电指标计算结果,同理计算得到线路的其他运营指标计算结果。然后将线路供电可靠性、负荷水平、电压质量、三相不平衡4个维度的指标数据进行关联,汇总得到记录数为19 082条线路指标数据宽表。样例结构如表2所示。
3.2 线路综合评价
线路指标数据的综合评价采用AHP法与熵权法相结合的组合赋权法确定指标权重。首先分别计算主、客观法确定的指标权重值,然后利用基于单位化约束条件的组合集成算法将二者进行组合得到最终的指标权重。具体步骤如下:
(1)针对前面的指标体系,构建一级指标专家打分判断矩阵,结果如表3所示。
经计算,CI= 0.074,CR= 0.082<0.1,通过一致性检验,得到的一级指标权重为(0.546,0.211,0.078,0.165)。
(2)构建二级指标专家打分判断矩阵。以供电可靠性维度为例,构建故障停电时长及故障停电次数的判断矩阵如表4所示。同理,构建其他维度下的二级指标判断矩阵。
经计算,得到的各维度下二级指标权重分别为(0.333,0.667)、(0.167,0.833)、(0.167,0.833)、(0.667,0.333)
(3)将得到的一级、二级权重值对应元素相乘便可得出AHP指标权重值,结果为w=(0.182,0.364,0.035, 0.176,0.013,0.065,0.11,0.055)。
(4)按照前面熵权法的介绍,得出熵权法确定的指标权重结果为v=(0.108,0.101,0.139,0.234,0.182,0.161, 0.0367,0.038)。
(5)利用基于单位化约束条件的组合集成赋权法组合主客观权重w、v,得到指标:故障停电时长、故障停电次数、重载时长、超载时长、低电压时长、过电压时长、三相不平衡次数、三相不平衡时长对应的权重结果为:R=(0.156,0.273,0.071,0.196, 0.072,0.098,0.084,0.049)。
(6)计算线路得分结果。利用线路实际指标值与最终的指标权重向量R进行加权求和可以计算出19 082条10 kV线路的最终得分,样例如表5所示。
3.3 项目名称文本挖掘
本文选用2018年1月~3月共17 881个在建项目,剔除110 kV和20 kV的工程项目后剩余项目记录数17 533个,由于项目基础信息中并没有针对具体的线路名称字段,因此只能从项目名称中利用文本挖掘的技术提取项目主体。
在对项目名称字段进行数据预处理的基础上,引入自定义词典及停用词词典,利用R中的jieba分词算法包对项目名称短文本进行了分词,基于CRF的实体识别首先需要对分词后的文本进行手动标注,其中标注符号的说明如表6所示。一部分分词后的样本标注样例如表7所示。
本文特征模板选用了CRF++的标准范例模板Template_NER_01、Template_NER_02,采用条件随机场CRF工具反复训练模型,得到两种特征模板及其测试集对应的准确率和召回率统计结果如表8所示。
因此选用准确率和召回率都较高的Template_NER_2作为最终的特征模板。将2018年的17 553个项目经过以上预处理、分词、标注等一系列操作后输入训练好的最佳模型中,可得到如表9所示的样例结果。
3.4 实验结果分析
从配变运营数据整理、计算得到10 kV线路19 082条,通过上面综合评价算法相应得到19 082条线路的得分值。同时,2018年在建10 kV项目共17 533个,通过基于CRF的文本挖掘算法能提取出线路名称的项目共15 743个,由于存在多个项目投资一条线路的情况,因此从这15 743个项目中整理得到8 218条10 kV线路,能与19 082条有得分值的线路关联起来的项目有14 457个,相应地,能关联起来的线路有7 329条。即,从全省2018年1~3月对项目/线路的投资情况看,未关联到线路运营数据却存在投资行为的线路有889条,可能原因一是从项目名称中提取的线路名称与运营数据的线路无法匹配,二是存在一部分已投资线路的运营指标并未出现异常,因此无法与运营数据中的线路关联。能关联起来的线路有7 329条,达到7 329/8 218=89%的线路投资覆盖率,但是从线路运营指标层面看,这89%的线路投资是否合理,是否存在得分很高但投资金额很低或者得分很低但投资金额高的情况还需进一步分析。
结合2018年前3个月对项目投资金额的考虑,得出线路得分与线路总投资的关系如图5所示,横轴代表项目得分,纵轴代表项目投资情况。对于成本类项目,投资金额基本都在200万元以下,不存在得分很低但投资金额大于200万元的情况;而对于资本类项目,有不少20分以下的项目投资金额却在2 000万元以上,并且不存在得分大于70分以上的项目。具体的线路得分分布与投资金额的分布详细情况如表10、表11所示。
从表10成本类项目的投资情况看出,存在1条线路的投资超过1 000万元,但其综合评价得分小于20分;并且存在4条线路的得分在50分以上,但其投资金额却小于100万元的情况。从表11资本类项目的投资情况看出,有5条线路的综合评价得分小于20分,但其投资金额在3 000万元以上;有7条线路的得分在50分以上但其投资金额却在100万元以下。
综上,从运营数据层面来说,通过对在建项目所投资的线路进行综合评价并结合其投资总金额的分析发现,绝大多数的项目投资相对合理,但也确实存在某些项目有投资不合理的情况:得分低但实际投资金额大或者得分高但实际投资金额少的线路数17条,占总线路数的比例为0.24%,针对这些项目仍需要结合其他方面的参考因素(比如社会因素、经济因素、气象因素等)衡量是否投资合理。
4 结论
配电网工程在国家稳增长、调结构、惠民生中发挥重要作用。随着近年来不断加大配电网等基础性建设的投资力度,配电网新建、改建和扩建,有效地提高了供电可靠性和稳定性。本文针对线路运营数据的关键指标构建了综合评价指标体系,利用组合赋权法确定指标权重,进而得到线路投资迫切程度的得分情况,然后通过基于条件随机场的文本挖掘技术对在建项目进行线路主体名称提取后,对配电网项目投资情况与线路打分结果进行关联分析,得到不同项目分类下线路得分与投资金额的具体分布情况。通过本文的研究,可以从线路运营数据层面发现投资分配的合理性,为电网企业科学合理地进行配电网投资提供借鉴,从而有效发挥运监中心在企业闭塞环节优化、风险防控、管理提升工作中的积极作用。
参考文献
[1] 吴鸿亮. 配电网投资经济效益计算分析[J]. 电网与清洁能源, 2010,26(9):13-16.
[2] 卢建昌,王伟. 基于熵权密切值法的配电网评估模型[J].华东电力,2013,41(5):1047-1050.
[3] 王敬敏,施婷. 智能配电网评估指标体系的构建[J]. 华北电力大学学报,2012,39(6):65-70.
[4] 宋伶俐, 杨军, 周博文, 等.一种电网基建项目辅助决策方法[J].电力自动化设备,2013,33(6):64-69.
[5] HUANG Y,SODER L.Assessing the impact of incentive regulationon distribution network investment considering distributedgeneration integration[J].International Journal of Electrical Power& Energy Systems,2017,89:126-135.
[6] KONSTANTELOS I,GIANNELOS S,STRBAC G.Strategic valuationof smart grid technology options in distribution networks[J]. IEEE Transactions on Power Systems,2017,32(2):1293-1303.
[7] 王宗耀,苏浩益. 配网自动化系统可靠性成本效益分析[J]. 电力系统保护与控制,2014,42(6):98-103.
[8] 沈世镒,吴忠华.信息论基础与应用[M]. 北京: 高等教育出版社,2004.
[9] 吴泽宁, 张超, 越仁荣, 等. 工程项目系统评价(第一版)[M]. 郑州: 黄河水利出版社, 2002.
[10] 郭亚军. 综合评价理论与方法[M]. 北京: 科学出版社,2002.
[11] LEE S, LEE G G. Heuristic methods for reducing errors of geographic named entities learned by bootstrapping[C]. LNCS 3651: Proceedings of the Second International Joint Conference on Natural Language Processing, Jeju Island, Korea, October 11-13, 2005. Berlin, Heidelberg: Springer, 2005:658-669.
作者信息:
胡 宏1,彭 涛2
(1.国网江苏省电力有限公司,江苏 南京 210000;2. 国网江苏省电力有限公司,江苏 南京 210000)