CAN优先级倒置原因与对策分析
2013-01-18
CAN总线起始于1986年左右,至今仍广泛应用。现在人们对安全的要求已大为提高,所以要不断仔细审视CAN的安全性能。现在已经发现的重要的CAN问题有:在消极报错状态下可能出现等效离线,使节点不能收发的时间相当长[1];错帧漏检率的估计不准,特别在误码率高时比Bosch CAN2.0数据高多个数量级[2],在单目的地址时影响数据正确性,在多个目的地址时会影响数据一致性;标准的振荡源精度要求偏低[3],使误用廉价器件成为可能,影响系统的稳定性;本文发现的优先级倒置的可能性,使调度分析结果的可信度下降;在数据帧倒数第二位的局部错可能引起不一致的接收重复或丢失[4]。所以在FlexRay尚未达到预定目标、无论在可靠性还是价格上能取代CAN以前,对CAN作进一步的改进仍然是非常有意义的。
CAN是一种代表性的事件触发通信协议,同时发生的多个通信请求将按照消息的优先级进行无损仲裁,高优先级的胜出。按照消息的优先级进行无损仲裁是CAN原始专利的唯一权利要求[5]。对于低优先级的消息而言,送达时间将受到高优先级消息的阻扰,在高优先级消息为周期性时,最坏送达时间是可以预先计算出的[6]。如果能安排好发送消息的初始相位并作宽松的时钟同步,这个最坏送达时间可以大为减少。事件触发协议的优点是总线带宽可以得到充分利用。另一个优点是高优先级消息可得到迅速发送。但是由于工业环境中普遍存在的电磁干扰,总线上会有毛刺,CAN总线的标准中已考虑到应对方法。现在发现毛刺应对方法可能使节点的同步受到影响,从而损及高优先级消息的发送机会,出现优先级的倒置,动摇了CAN总线的基本性能。
1 毛刺的存在
车内电磁环境恶劣, ISO 76372/3总结出代表性的传导和辐射干扰。有人专门作了辐射干扰的实验,参考文献[7]的实验中用24 V蓄电池给车内常用的继电器供电(CAN系统供电是独立的),电源线与CAN电缆靠得很近,在电缆线有屏蔽、线长为2 m时,手动开关继电器时可以看到CAN波形上叠加的毛刺,辐射干扰实验结果如图1所示。
图1 辐射干扰实验结果
实际汽车上也见到CAN总线失效的报告[8]:丰田汽车在经销商产品报告中确认,由任何原因召回的车中发现丢失CAN数据的记录有292宗。毛刺是引起CAN总线出错的可能原因,其具体诱发过程需要仔细分析,不能掉以轻心。
2 CAN位时间与消息仲裁原理
CAN总线把位时间划分为NBT等分的时间片,称为Tq。CAN总线控制器按Tq对总线上的差分电平进行采样,以决定内部状态。当总线上没有通信时,称为总线空闲,电平差在0~0.5 V,逻辑值为“1”。电平差为0.9 V以上时逻辑值为“0”。 由图1可知,存在“0“毛刺,也存在“1“毛刺。CAN总线驱动器的特性是线与,当“1”和“0”同时发生时,总线的电平为“0”,这便是仲裁功能。一帧开始发送的第一位是“0“,称为SOF,然后是消息的标识符ID。ID代表了消息的优先级,每个节点通过位采样知道总线上仲裁的结果,正常工作时如果发送“1”而读回“0”,表示本发送节点本次ID发送失败,需等下一次帧发送机会。
总线空闲时,一个有发送要求的节点须先观察是否有别的节点已经开始发送,如已开始就不能发送。正是这里,由一个“0”毛刺开始的时段可以误解为别的节点已开始传送SOF,毛刺阻断了该节点的发送(不管该节点要传送的消息优先级有多高)。
由于传送电缆延迟以及中间器件(如光隔离)的延迟τ,节点将见不到提前量τ以内发送的别的节点的SOF。同理,别的节点要经过τ以后才见到该节点发送的SOF,τ以后别的节点就因总线上已有发送而不允许发送了。这样,在本节点请求时刻±τ内的发送被认为是“同时”请求发送,它们将按ID仲裁。对迟于其τ的其他低优先级帧的发送,它也是必然胜出的。
3 CAN位时间同步的有关规定
CAN的位时间分为同步段(Sync)、传输段(Tprop)、缓冲1段(Ph1)与缓冲2段(Ph2),位值采样在Ph1 与Ph2之间。位值变化时将有跳变沿,只有1/0为同步用的跳变沿。跳变沿决定了相位差e,跳变沿在Ph2内e为负,在Sync内为0,在Tprop和Ph1内为正。每个节点根据e实行同步,同步的修正量受同步的种类限制。同步分两种:硬同步与重同步。硬同步对应帧开始时的情况,重同步对应帧内有同步沿时的情况。对重同步而言,每次的修正量不能大于称为重同步宽度的可预先设定的量SJW,SJW=min(Ph1,Ph2)。
有关本文讨论内容的CAN总线标准为ISO 118981(2003)[9]及ISO 16845(2004)[10],正是这些条款的规定保证了CAN总线协议在高度干扰的环境下能可靠工作。
ISO 118981第10.4.2.2款规定,节点只有在总线空闲时可以发SOF,在服务间隔第3位(I.M.3)的“0”视为SOF。
ISO 118981第12.4.2.1款规定硬同步在帧间的间隔中实行。而帧间间隔包括服务间隔和总线空闲,对上次发送的消极报错节点还包括禁发时间。因此,在I.M.3的跳变沿也是作硬同步用的。
ISO 118981第12.4.2.4款规定,重同步的目的是校正采样点的位置,e为“+”时延长Ph1,e为“-”时缩短Ph2。校正量在e小于或等于SJW时为e,反之为SJW。
ISO 16845第7.7.2款规定了接收节点对SOF的硬同步验证方法意味着同步段SYNC直接同步于1/0跳变沿。
ISO 16845第8.7.2.1款规定了发送节点在I.M.3位值采样点前有1/0沿时的硬同步验证方法:测试设备在被测单元I.M.3采样点前Tq加被测单元内部处理时间前发0,要求被测单元在跳变沿1位后发ID最高位。这意味着发送节点要与I.M.3内1/0跳变沿硬同步,0值被采样,下一位不再发SOF而是发ID最高位。
ISO 16845第8.7.3.1款规定了发送节点在I.M.3位值采样点后有1/0沿时的硬同步验证方法:测试设备在被测单元I.M.3采样点后1个被测单元内部处理时间后发0,要求被测单元在跳变沿后1 Tq立即发SOF。这意味着发送节点是硬同步,但开始发SOF。
ISO 118981第4.18和4.16款规定了发送节点和接收节点的定义。发送节点指的是发数据帧或远程帧的节点,其状态维持到仲裁失败退出或总线再度空闲,否则就是接收节点。因此总线空闲时遇到毛刺,则大家都是接收节点。
ISO 16845第7.7.9款规定了接收节点在总线空闲时对毛刺滤除的验证方法:要确定对总线空闲时短于Tprop+Ph1-1的0不作SOF处理。也就是说硬同步后未被采样到就不算作SOF。
4 毛刺造成优先级倒置
4.1 总线空闲时毛刺引起的倒置
总线空闲时,局部错的0毛刺被Tq采样到,发送节点就会按ISO 16845 7.7.2规定实行硬同步,然后就要按ISO 16845 7.7.9款确定是别的节点发送的SOF还是毛刺。如果节点H在毛刺后Tq有发送请求ReqH(如图2所示),它也必须等待Tprop+Ph1以确定总线是否空闲。另一个节点L如有发送ReqL,其到H的传送延迟为τ,只要它能在H的硬同步后的采样点采到,H就不再有发送机会。此时H、L请求的时间差为Tprop+Ph1-τ。如果2个节点靠得很近,τ≈0,那么H甚至无法与比它迟Tprop+Ph1的L竞争。同时它也无法与比它早τ-1的其他节点的发送相竞争。针对第1节中所讲的“同时”情况,它已完全无法参与竞争。
图2 总线空闲时毛刺引起优先级倒置
图3 估计倒置的概率用图
图4 在I.M.3中的毛刺引起优先级倒置
现在对出现优先级倒置的概率作初步分析。估计倒置的概率用图如图3所示。tG为毛刺发生时刻,tH为高优先级消息请求时刻,tL为低优先级消息请求时刻。如果tH发生在tG之后、该位的采样点前,tL也在采样点前到达,那么tH的请求将无法获得参与竞争的机会。这件事的概率为Pa。Pa与误码率有关,毛刺被采到会有误码。假定位时间为1 μs,毛刺宽度为0.2 μs,采到机会便是20%,也就是说毛刺概率在1位时间内为误码率的5倍,考虑到毛刺有0毛刺与1毛刺2种,只有0毛刺会引起假的硬同步,再考虑到考察的时段为Tprop+Ph1,而不是1位,所以保守估计Pa为误码率的2倍。但是Pa不是因毛刺而引起倒置的概率,其中还包括了tL请求确实早于tH请求τ的部分,这部分用Pb表示。Pb=(tH-tG-τ)/(tH-tG),当(tH-tG)=τ时扣除部分Pb=0。所以最坏情况下没有扣除,优先级消息倒置的概率近似为误码率的2倍。
4.2 I.M.3内毛刺引起的倒置
在上一帧认可位(ACK)“0”的重同步下,H、L两个节点的位时间会有相位差τ,L超前时τ的大小对分析并无影响。当节点H、L均有挂起待发的消息时,按ISO 118981 10.4.2.2规定,它们应在I.M.3后一位开始发SOF,并进行竞争。若H节点由于局部错,在I.M.3位值采样点前有毛刺,按ISO 16845 8.7.2款,H将作硬同步,位值采样点的移动使它可以见到L所发的SOF(如图4所示),其条件是e>Ph2。由于在I.M.3内读到SOF,H将在下一位开始发它的IDH最高位。假定H的IDH=“01***”,L的IDL=“10***”,H的ID11H=0经τ后传到L,与L的SOF部分重合,并延续到L的ID10L位,当毛刺发生的e满足NBT-(2τ+e)>Ph2时,L不会采到H的ID11H,所以它不会退出。位时间设计时NBT=SYNC+Tprop+Ph1+Ph2,Tprop≥2τ,故上式在e<SYNC+Tprop-2τ+Ph1时能满足,即0<e-Ph2<SYNC+Tprop-2τ+Ph1-Ph2。一般Ph1=Ph2,或者Ph1=Ph2+1,当节点靠得较近时τ比较小,e有较大的范围可同时满足该式。而L发的ID10L=0经τ后到达H,当e>Ph2时成为H的ID10H中的同步沿,并被H采样到,H便仲裁失败退出,形成优先级倒置。
此种倒置的概率的估计比较复杂,需要进一步研究。
5 解决方案
5.1 总线空闲时的硬同步抗毛刺措施
接收节点在总线空闲时检查到1/0跳变沿就作硬同步,然后再每Tq继续采样。如在位值采样点前发现有1,则认为总线恢复到空闲状态。如其间已有本节点的发送请求,就在查到1的下一Tq开始本节点的发送。这样,本节点的发送被推迟了毛刺宽度对应的时间,但是也确保本节点发送前没有其他节点已开始传送,所以不会有优先级倒置。
这种方法没有解决毛刺较宽、一直延续到别的节点的SOF到达的情况。此时本节点仍然因无发送而出现优先级倒置。
5.2 I.M.3内硬同步抗毛刺措施
I.M.3内位值采样点前出现毛刺引起硬同步,本节点也继续采样总线。有“1”时后继判断比较困难,因为硬同步后再遇到“0”的时刻不确定,可能是别的节点发的SOF在原I.M.3位值采样点前收到,也可能在I.M.3原位值采样点后收到,还可能又是毛刺。所以,为处理简化起见,有挂起待发帧的本节点发送超载帧。通过报超载,超载帧结束后总线回到空闲状态,重新实现同步。
这种方法也没有解决毛刺较宽、一直延续到别的节点的SOF到达的情况。此时本节点仍然因无发送而出现优先级倒置。
6 小结
毛刺滤除和帧开始时刻的硬同步是为保障通信正常的两个不同侧面的要求,在现有CAN总线协议的设计中出现了冲突,造成在某种特定情境下出现优先级倒置。由于毛刺引起优先级倒置的危害性与具体应用的种类有关,一般地说,系统设计时已尽量防止毛刺的干扰,毛刺发生的概率已比较小,发生在特定位置就更小。
在优先级倒置的情况下,可能下一次竞争就不会发生倒置,做最坏送达时间分析时[6],可以将低优先级的阻断加倍来加以分析。
但是也可能在下一次竞争时仍发生倒置。在车辆安全认证分析时,需要确定倒置引起的的每小时的故障率,这使分析需要引入误码率的假设,需要进一步的工作。
本文提出了在完全兼容CAN总线的条件下的改进方案,但方案只是局部有效,根本的改进可能无法达到完全兼容。