当前,汽车的技术架构正逐渐由分布式向集中式过渡。
对此,2024年3月13日,在2024第五届软件定义汽车论坛暨AUTOSAR中国日上,TTTech Auto China 总经理欧阳扬认为,分布式架构本身具有不可忽视的优势。这些分布式架构的优势也是集中式架构需要急需解决的问题。首先,分布式系统设计简洁,响应迅速,无需复杂调度,因此延时非常可控。其次,该架构拥有强大的容错能力,单个子系统的故障不会影响其他子系统的正常运行。再者,分布式系统构造简单,易于设计和集成,无需处理多种综合数据流。因此我们在集中式架构中,需要解决如何进行复杂的调度,容错的设计,综合多种数据流,以及系统的易集成性等问题。
为确保安全关键任务的可靠执行以及不同优先级数据流的互不干扰,需要从全局角度出发,优化应用程序的配置与数据流的规划,也即欧阳扬提出的新概念“4SDV”。4SDV是指从系统的角度考虑功能安全、信息安全、软件等。成功的4SDV方法需要一开始就从系统工程的视角整合功能安全,信息安全、可用性、可靠性、易于集成性和可升级性,也就是要从系统角度,自顶而下的设计SDV。以避免系统从根本上,理论上就不会符合预期,导致最后被推到重来,错过SOP的时间和带来成本的超支。
TTTech Auto China 总经理
以下为演讲内容整理:
TTTechAuto概览
TTTech公司来自奥地利维也纳,成立于1998年,TTTech中的“TT“是时间触发的意思。时间触发技术已经被广泛应用在航空、航天、工业、汽车等领域当中,包括我们熟知的FlexRay, TSN等都是时间触发的技术。TTTech又倡导了TTA时间触发架构的学术研究,它为高安全、高可靠性、高实时性的系统提供了理论基础。
TTTech公司总共有2300名员工,因为我们是一家轻资产的公司,没有工厂,绝大多数员工都是技术人员。在汽车领域,我们于2018年成立了TTTech Auto公司,总共有1100名员工,我们的安全软件中间件平台MotionWise已经被应用在超过200多万辆汽车之上,包括大众、奥迪、保时捷、现代、上汽的智己等品牌,在不久的将来预计能够装配达到950万辆汽车。
奥迪、三星、英飞凌、安波福这些财务稳健的公司是我们的股东,我们下属多家100%控股的子公司,还投资了DDS的专业公司Zettascale,他开创了开源的CycloneDDS,有超过30年DDS方面的经验,也是DDS OMG标准的主要贡献者之一。
我们在航空、航天、工业等有很多的应用,安全关键性系统在波音787、空客380、中国大飞机C919、NASA猎户座号的宇宙飞船上面已经运行超过了10亿小时。在23个不同的机型中,我们搭载了超过7亿乘客,在不远的将来4名宇航员将从月球和地球之间往返。我们把航空航天等其它领域的高安全可靠性的系统应用在汽车的自动驾驶当中,可以说TTTech的DNA就是安全。
图源:TTTech Auto China
我们认为汽车工业应该超越炒作,由于软件越来越复杂,中间需要一个调度层,软件中间件的作用越来越强。中间件的复合年增长率预期非常高,高达11%以上,从这个角度来看,前景是光明的,但是从2021年1月统计开始,我们发现ADAS、传感器和汽车软件的市售率呈逐年下降趋势。市售率的下降代表要么是销售额的降低,要么是公司价值的降低,说明投资者对于这几个行业的投资态度趋于理性或持悲观态度。
所以之前那种靠PPT,靠想法,靠一腔热血就拿到自动驾驶行业投资的时代已经过去了。我们听说过很多的消息,比如裁员、降薪、倒闭、被收购等,可以说自动驾驶行业的淘汰期早就来到了。造成这种现象的原因有很多种,有经营的原因、市场的原因、竞争的原因,当然其中也有技术的原因。我们可以预见未来从L2到L3、L4迈进的过程中,随着技术难度的跳跃式增加,这种淘汰将会加剧。
夯实L2+,准备迈向L3/L4自动驾驶
关山难越,从L2+到L3、L4的过程中我们至少面临着三座大山和三个关口,包括法律法规、成本和安全性技术。如何从技术角度能够夯实现在L2+,然后迈向L3、L4自动驾驶呢?
首先面的技术挑战包括功能安全、预期功能安全、信息安全、验证,我们的系统要从故障静默转向故障可运行的状态。基于安全性理论和系统理论的研究,面对着几个不可能:第一,在一个大型的、复杂的、单一软件系统中,我们不可能找到所有的设计错误,也就是说寄希望于设计出一款完美的软件,这是不可能的,这里大型的软件是指代码行数超过一万行。但在汽车行业代码经常按百万行来计算,所以不可能设计出一个完美无缺的软件。
第二,在超可靠硬件系统的全生命周期内,不可能避免所有的单事件翻转,比如位翻转,位翻转往往指的是二进制中的位值从0变成了1,或者从1变成了0。造成这种翻转的因素有很多,包括数据传输中的错误,比如电磁干扰、宇宙射线等,而且这种位翻转是偶发的,它是软性的错误,不会永久损伤硬件,也就意味着再次检测系统的时候很难发现它的故障,但故障一旦发生,后果可能会很严重。
第三,不可能通过测试、仿真找到大型软件中所有的风险和故障。
第四,不可能预知在车辆行驶情况下,所遇到的所有边缘情况,这些边缘情况在正常情况下不会发生,但一旦发生可能造成系统的行为异常,比如性能的下降,功能的失效,甚至系统的崩溃。
既然有这么多不可能,那么应该如何设计L4系统呢?我们应该把系统划分成多个FCU的组合,也就是故障隔离单元的组合。故障隔离单元应该包括故障的检测机制、故障的响应机制、系统的恢复机制,故障隔离单元是在不影响系统性能的前提下,最大限度上提高系统的可靠性和可用性。一旦故障发生不会引起系统的工作异常,或者能够让系统快速恢复到正常状态。
这里我们可以审视一下自己现在做的软硬件系统,是不是按照这些设计原则来设计的,准备设计的L3、L4系统是不是能够面对着这么多不可能,如果不是,那从理论上来讲,无法做到真正的L3、L4。刚才提到了系统的一些设计原则,这里我们引入一个新的概念叫4SDV,我们认为传统的SDV有局限性,4SDV的提出指的是从系统的角度考虑功能安全、信息安全等。像功能安全、信息安全单单依靠软件是不可能实现的,它们是系统级别的属性,所以我们要从顶层,从系统的角度设计SDV。
图源:TTTech Auto China
4SDV系统的提出也是为了更加适应现在越来越集中的电子电气架构,还有现在越来越复杂的ADAS和AD系统。现在的架构从分布式向集中式演进,但分布式并不是一无是处,分布式有各种优点。
第一,分布式系统的功能简单,响应速度快,没有复杂的调度和综合数据流,它的延时非常确定。第二,分布式系统有较高的容错能力,一个子系统的失效不会引起其他子系统的工作正常进行。第三,分布式系统结构简单,设计容易,而且集成起来非常简单,不需要综合多种数据流。
因此,我们在集中式架构中需要考虑如何进行复杂的调度,容错的设计,综合多种数据流,以及系统的易集成性。
另外信息安全也是一个重要话题,从云端到边缘端通信不断加强的情况下,信息安全也需要被重视。还有,我们希望用自动化的工具来降低开发难度,缩短开发时间。
在智驾领域,我们都知道从L2到L3、L4的演进过程中,首先要在安全等级做到ASIL-D,接着系统要具有故障可运行的能力,要保证时间和数据的确定性。
在和众多的OEM交流过程中发现大家现在即使在L2的情况下,也面临着很多类似的困境,也就是说我们有大量的任务,大量的应用程序,如果没有得到有效的调度,再加上没有确定性的通信,造成CPU的开销过高,或可能会造成各种偶发的功能和性能问题。所以我们认为如果把这些任务有序排布,让通信变得更加有确定性,就能够缓解这些问题。
随着应用任务越来越多,我们需要保证时间的确定性,保证数据的确定性和完备性,就需要对任务进行排布和配置。这里有一个真实的案例,某欧洲OEM的软件条件是有100个应用,100个应用可以分解为400任务,它的硬件有46个CPU核,有6个硬件加速器,有2个以太网交换机,有1024个TSN的链路。
在这样一个软硬件环境中,我们可能的配置数量是10的5000次方,如果再排除掉其中一些可能重叠的消息,比如一个CPU不能同时处理两个任务,这种情况下配置的可能性有10的500次方。如果有100个约束条件,比如系统中时间和优先级的约束,任务链之间的关系,对硬件的访问,系统的利用率等条件,满足这些约束条件的解集有10的5次方个。 也就是我们要从10的500次方中找到这10的5次方的满足条件的解或者说有效的配置。而在可见宇宙范围内的原子总数量才是10的80次方。可见10的500次方中间找到10的5次方个有效的配置结果,可以说比大海捞针还难亿万倍。如果没有找到有效的解,或使用了一个错误的配置,就会导致各种问题,比如无法满足系统的约束条件,比如导致系统的各种故障。关键是我们常常可能都不知道自己的配置是错误的,是矛盾的。更可怕的是,如果我们使用了错误的方法,算法,调度工具可能反而导致新的问题的出现。因此使用具有科学理论基础和量产经验的调度工具至关重要。TTTech提供了智能启发式的工具,在这个例子中,我们可以在200秒的时间内找到有效的解,而且还可以让客户根据自己的偏好输入搜索条件,提高找到解的效率。这是TTTech二十多年来最核心的技术之一。
解决方案
我们面对的问题是,我们是异构的架构系统,有多种数据流,数据相互之间又有关联性,又要保证它每个阶段的确定性运行,而且一旦一个阶段没有得到确定性的或者完备的执行,容易导致故障传播的级联效应,所以这个问题就变的更加复杂。
我们的解决方案是什么?要能够综合多种不同的数据流,时间触发、事件触发、数据驱动等,需要能支持异构的系统,支持不同的CPU、GPU以及其它的硬件加速器。我们还要用自动化工具替代手动配置,另外,还要考虑功能安全的FFI,也就是不同功能安全组件的模块之间相互不受干扰,其中包括对时间和空间上的干扰。
因此,我们提供一系列工具软件加速开发周期和确保系统质量。它支持从计划到生成时间表,配置表,并将SWC分配到和不同的CPU上和不同的CPU核上,直到部署和认证。
我们的预期目标是在特定的情况下,将每版软件的集成时间从60天降为1天,把每版软件验证的时间从52天降为5天,将CPU的利用率从70%提高到90%,也就是每5个CPU中节省1个CPU,节省硬件的成本。
这里展示我们现在提供的安全中间件的选择,在之前奥迪、大众等项目中,我们提供了Motionwise大集合,包括了确定性通信,确定性调度,安全机制,汽车中的服务等。现在又推出了新的产品,MotionwiseSchedule,就是确定调度专门的模块,来调度应用程序。另外我们把DDS加上确定性调度的模块,就可以形成一个简单完整的中间件,所有的中间件都支持TSN,尤其是TSN中的Qbv和Qav。我们的合作模式有多种,无论用户现在没有中间件,或者中间件用的是AP或者类AP或者自研中间件,我们都可以提供多种产品的组合方式与大家进行合作。
图源:TTTech Auto China
最后,我想提一下我们发起的联盟叫Autonomous,因为我们都知道自动驾驶迈向L3、L4是一个巨大的挑战,一家公司是不可能完成这样的工作。所以我们建立了这个Autonomous联盟,宗旨在于在全球建立安全的标准和规范,以及探讨实践的方法,推动全球自动驾驶的商业化落地。
联盟有多个工作小组,包括Safety和AI,Safety和法律法规,还包括safety和架构等。其中Safety的架构小组经过两年多的研究,提出了面向L4的推荐架构,这个推荐架构是由TTTech以及多家公司共同完成的。
图源:TTTech Auto China
综上所述,我们要从科学理论的角度,从数学的角度,从工程化的角度和实践的角度,以及控制成本的角度,使用4SDV的方法来设计L2+以及未来的L3、L4自动驾驶系统。