摘 要: 在编写优化算法软件时,用户输入的表达式通常是字符串类型,如何实现用户与计算机的交互,即怎样让计算机读懂用户输入的字符串类型的数学表达式,是计算机优化计算所要面临的首要问题。在VS中调用DEELX正则语言库,采用匹配、替换的方法实现对用户输入函数表达式的判别、计算,并在实现计算表达式的基础上计算表达式导数和求解极值。
关键词: 正则表达式; 优化算法软件; DEELX
传统的优化程序一般都是针对某个具体的待优化问题进行编写的,缺乏通用性,用户还需要花费一段时间来学习如何使用软件。优化软件若具有良好的交互性,用户只需要输入目标函数、约束条件、自变量、初始点就可以求得最优解和此时的函数值。要实现对用户输入问题的求解,首先面对的问题就是如何让计算机读懂用户所输入的待求解问题。由于用户所输入的目标函数、约束条件、自变量都是字符串类型的,所以要通过对字符串进行处理来实现计算机对函数表达式的理解。而正则表达式通常用检索和替换那些符合某个模式的文本内容,本文采用正则表达式进行字符串的匹配、替换来实现计算机对用户输入表达式的读入[1-2]。
1 优化程序结构
用户通过一个问题输入对话框与计算机进行交互,在对话框中用户需要输入待优化问题的目标函数,约束条件,计算精度等参数,点击求解按钮进行运算。若用户有非法输入则提示用户重新输入,如果求解失败则弹出求解失败对话框。例如用户需要求解问题min f (t,s)=0.5t2+s2/4,s.t ts=1,则需要在目标函数栏输入0.5*t^2+s^2/4,在约束条件栏输入t*s-1=0。
程序主要由COptimize、CFunctionCaluclate、CNumericalCaluclate三个类构成。CFunctionCaluclate用于实现对用户输入表达式的校验,将表达式中的变量替换为数值并计算结果,获取表达式在指定点的一、二阶导数等功能。CNumericalCalculation用于实现对替换后只包含数字项的表达式进行基础运算,包括基本的四则运算以及幂函数运算。COptimize通过实例化CFunctionCaluclate,在实现表达式求值、求导的基础上完成对用户输入函数的求解极值。在交互界面上,用户需要输入函数表达式,以及表达式中所包含的变量和变量的初始值大小。程序的对象模型如图1所示。
2 正则表达式运用于函数表达式的计算
正则表达式在很多文本编辑器或其他工具里,用来检索和替换符合某个模式的文本内容,目前许多程序设计语言都支持利用正则表达式进行字符串操作[3]。由于用户输入的目标函数和约束条件都是字符串类型的,所以正则表达式可以应用于函数表达式的计算。
DEELX 是一个在C++环境下的正则表达式引擎[4],全部采用模板 template 编写,可将 DEELX 用于char、 wchar_t 以及其他基类型,比如unsigned char、int等。但只能是简单数据类型,不可以是 struct 或者 union 等复合类型。DEELX全部代码位于一个头文件(deelx.h)中,使用时只需要简单地添加一个 #include"deelx.h"就可以了。
在本文中,采用匹配、替换的方法实现对用户输入函数表达式的判别、计算。首先,用给定初始点的值对自变量进行替换,将函数表达式变为只含有数字项的数学表达式,再通过正则语言的匹配将数学表达式划分为各个子运算块,然后将计算结果代替原表达式中的子运算块,如此循环,直到最后只剩下一个数字,即为计算结果。
2.1 自变量的替换
在CFunctionCaluclate中添加两个公有函数Capture_Variables( ):void和Capture_GivenPoints( ):void,分别用来获取自变量和给定值,并将捕获到的自变量和给定值分别放入两个vector<const char*>类型的成员变量m_vecVariables和m_vecValues中。
首先将储存自变量的m_vecVariables中的元素作为正则表达式,将其进行匹配并替换为相应的给定值,这时函数表达式已变成只含有数字项的数学表达式。变量替换的流程图如图2所示。
2.2 只含数字项表达式的计算
CNumericalCalculation用来对替换后只包含数字项的函数表达式进行运算,包括基本的四则运算以及幂函数运算。在CFunctionCaluclate中通过实例化一个CNumericalCalculation的对象m_Calcution来调用它的计算函数。按照运算的优先级,调用的顺序依次为幂函数运算、乘除函数运算、加减函数运算。
CNumericalCalculation类中有私有函数CString Genral_Calculation( CString expression, MODEL calculation_model ),Genral_Calculation( ) 的程序流图如图3所示。
在CNumericalCalculation中已经定义了针对不同函数计算的正则表达式,Power、Multi_Divid、Plus、Minus是在Genral_Calculation( )中枚举的类型为 MODEL的变量,通过不同的MODEL类型来确定采用哪种计算类型,并选取其对应的正则表达式来匹配子运算块。
通过公共函数CString My_pow(CString fun_expression)、
CString My_multi_divid(CString fun_expression)、CString My_
plus_minus( CString fun_expression)来实现基本的幂函数、乘除、加减计算,并为CNumericalCalculation提供外部接口。
例如,My_pow( ) 实现对幂函数的计算,它的实现代码为:
CString CNumericalCalculate::My_pow(CString fun_expression)
{
fun_expression = \
Genral_Calculation(fun_expression,Power);
return fun_expression;
}
My_pow( )被传进来的参数 fun_expression为只含数字项的表达式,在Genral_Calculation( )中通过参数Power来确定为幂函数计算。
My_multi_divid ( ) 实现对乘除函数的计算,它的实现代码与幂函数一样,只是在调用Genral_Calculation( )时确定计算类型的参数为Multi_Divid。
My_plus_minus( ) 实现对加减函数的计算,在调用Genral_Calculation( )前要对此时的表达式进行符号的合并,原因是由于加减运算的优先级别最低,在进行加减运算时表达式只包含“+”、“-”两种符号,所以需要进行符号的合并。Sign_Combination( )用来对表达式中的符号进行合并,将“++”、“--”合并为“+”,“+-”、“-+”合并为“-”。
2.3 运算优先级问题
为了实现乘除运算从左至右的顺序,必须先进行除法运算,否则会产生错误,例如:
4/2*2,从左至右的运算顺序会得到4,若先进行乘运算,则变成4/(2*2),此时得到的结果为1。这是因为在运算过程中,被“/”所连接的两个数字应该被看作是一个分数整体,先做除法只是求出了分数的有理型式,所以先进行除法运算不会改变运算结果。
这里将乘除法合并在一起,在从左至右的匹配过程中,匹配到乘函数就用乘法运算,遇到除函数就用除法运算,这样就实现了从左至右的运算顺序。
若将乘除法运算分开,先做所有的除法运算,再做所有的乘法运算也会得到正确的结果,但这为程序调试添加了潜在的危险,若不小心颠倒乘除运算顺序,这个错误将会很难发现。
2.4 匹配子算式的正则表达式
上文说明了程序计算函数表达式的原理及大致的实现方法,但如何实现对不同的运算法则进行匹配,是使用正则表达式最复杂的地方。
由于在用初始点替换变量之后会出现“+-”、“++”、“- -”等符号,所以简单的正则表达式不能实现完全正确的匹配。例如:
-X1^2 +X2-X3-X4,若此时X1=2,X2=-3,X3=4,X4=-5,那么此时的表达式为:
-2^2+-3-4--5,用简单的匹配表达式“[+-]\d+\.?\d*”来匹配,用括号表示被匹配项,那么被捕获到的数字项为(-2)^(2)+(-3)(-4)-(-5),很明显,捕获结果有错,首先第一项是-(2)^(2),前面的符号也进行了幂运算;还有第三项(-4),运算符号被捕获为负号。显然,这种简单的匹配表达式还会带来更多的错误匹配。
在本文中,先对用户输入的初始点进行判断,若是负数则直接替换变量,若是正数,则在数字前添加“+” ,这样就能解决表达式首变量前面为负号的情况,例如此时给2添加“+”号,就能获得正确的捕获结果-(+2)^(2)。
先使用如下正则表达式来匹配数字项:
(?<=[\^\-+*/])[+\-]\d+\.?\d*|^[+-]\d+\.?\d*|\d+\.?\d*
这是由三个匹配规则用分枝条件组成的正则表达式。
(?<=[\^\-+*/])[+\-]\d+\.?\d*来捕获运算符号后面带正负号的数字,如“-2^2+-3-4--5”中的“-3”“-5”;
^[+-]\d+\.?\d*来捕获表达式开头带正负号的数字,
如“ –2^2 + -3-4--5”中的“-2”;
\d+\.?\d*来捕获表达式中不带正号的正数,如“-2^2 + -3-4--5”中的“2”。
通过正则表达式的简化,前两种匹配规则合并后得到:
((?<=[\^\-+*/]|^)[+\-]\d+\.?\d*)|(\d+\.?\d*)
再次合并两种规则得到:
((?<=[\^\-+*/]|^)[+\-])?\d+\.?\d*
对于以空格开头的数字,加上\s进行匹配,最终匹配数字的正则表达式为:
((?<=[\^\s\-+*/]|^)[+\-])?\d+\.?\d*
在实现了数字项的匹配后,可以很容易地获取匹配幂函数的正则表达式,即在两个数字中间插入幂函数计算符号:
(((?<=[\^\s\-+*/]|^)[+\-])?\d+\.?\d*)\s*\^\s*(?1)
匹配乘除、加减函数的正则表达式与幂函数相似,都是在数字项之间加入运算符号来匹配子算式。
2.5 对含有括号项的处理
匹配括号项的正则表达式为:\([^()]*\)。
其含义为以“(”开头,“)”结尾且不包含“( )”项的字符串。对含有括号的表达式,先匹配括号内的表达式,并调用Calculate( )函数来计算其结果,再用计算结果来代替所匹配到的括号项。如此循环,直到括号项不存在。然后计算无括号的表达式,得到最终的计算结果。
3 正则表达式用于表达式的错误检查
用户在输入表达式时,难免会输入一些错误的数学表达式,比如在数字中出现多个小数点、括号的错误使用、变量个数与给定的初始值个数不符、初始值非纯数字、所给变量与函数表达式中的不符等,都可以通过建立相关的正则表达式来进行错误匹配,当匹配成功后就提示用户输入错误,帮助用户输入正确的表达式与参数。
CFunctionCaluclate中的Error_Identify( )用来检测用户输入的函数表达式、自变量、给定值是否含有错误。
通常与小数点相关的错误是数字项中含有多个小数点,如“2..5”和“2.3.4”都是非法输入,通过正则表达式来匹配数字项中的多个小数点,若匹配成功,则说明存在小数点非法输入。
括号的非法使用通常包含两种情况,一是函数表达式开头有右括号或结尾有左括号,例如“a+)6*b-c”和“a-b^2+(c-d”都是第一种错误类型;二是左括号与右括号的数量不相等,即含有不完整的括号对,例如“a*(b-c*(2-d)”式中未能构成一个完整的括号对。
针对以上两种错误类型,采用不同的判别方法。对于第一种错误类型,用正则表达式“^[^(]*\)|\([^)]*$”来匹配表达式开头的“)”或结尾的“(”,若匹配成功,则说明函数表达式有非法的括号使用;对于第二种错误类型,先设置一个计数器并初始为零,若匹配到一个左括号则计数器加一,匹配到右括号计数器减一,如果最后计数器不为零,则说明左右括号数量不同,肯定含有不完整的括号对,表达式存在非法的括号使用。
有关用户输入自变量的错误,第一种是自变量个数与对应的给定值个数不符,例如自变量有“a、b、c” ,而给定值为“1、2”或“1、2、3、4” ,都无法进行正确的替换,这种错误较为容易检测,只要在获取了自变量和给定值以后,比较两个容器中的元素个数,若不相等则说明自变量个数与对应的给定值个数不符。第二种是函数表达式中的变量,在自变量输入栏用户没有给出相应的变量,例如函数表达式为“a*(b-c*(2-d))” ,而用户只给出了“a、b、c”的给定值,“d”是一个未知变量,对于这种错误,要先对函数表达式进行自变量的捕获,并将其放入一个vector中,再与用户所给的自变量进行匹配,若有自变量没能匹配成功,则说明含有未知的自变量,这时需要提示用户输入错误。
通过在VS中使用正则表达式,成功地实现了对字符串类型的函数表达式的读入,为用户提供了良好的交互接口,用户只需输入目标函数、约束条件、自变量、初始点就可以求得最优解和此时的函数值。并能对用户的输入进行检查,在用户输入错误时给出提醒。
同时,正则表达式的使用不仅仅针对优化程序,其他程序在面对表达式的数值计算时,同样会遇到如何理解用户输入字符串类型表达式的困难,本文中的方法可以用来解决此类问题。
本文中所用方法的缺点是,使用正则表达式理解用户输入表达式,会随着表达式的复杂度增加,运算时间也会随之增长,在使用某些优化算法时,需要计算比较复杂的算式,会使问题的规划时间变得较长。
参考文献
[1] 翟自洋,林昌东.利用正则表达式进行查找/替换[J].中国科技期刊研究,2009,20(1):122-126.
[2] 曹光琦.Boost.Regex_C++正则表达式快速入门[J]. 程序员,2004(04):78-81.
[3] 李旻,陈和平.正则表达式在数据库查询中的应用[J].计算机工程与设计,2006,27(12):2302-2305.
[4] DEELX正则引擎文档[CP/OL].(2006-09-20)[2011-04-25].http://www.regexlab.com/zh/regref.htm,2006,9.[2011,4].