在前不久的上海车展上,AutoLab采访了赛轮思AI产品与技术执行副总裁Nils Schanz及中国区业务副总裁肖绍斌,针对赛轮思AI最新发布的Cerence xUI平台和对中国市场的发展规划做了交流,我们总结了以下几个核心信息:
Cerence xUI是一款由大语言模型驱动的AI助理平台,采用了专为汽车行业设计的混合式架构,既能在端侧运行,也能在混合云端运行。
Cerence xUI并不依赖特定大语言模型,除了DeepSeek这类第三方大语言模型外,对于汽车OEM或第三方公司开发的智能体,也能实现灵活集成与接入,同时确保整体用户体验和设计的一致性。
大语言模型应用于汽车,绝非简单的直接插入,而是需要深度集成到各类应用程序中。
赛轮思AI拥有丰富的语音合成能力,其中包含众多小语种,这可以为中国汽车品牌的出海业务提供很多帮助。
底层协议栈是赛轮思AI的核心优势,许多车厂并不具备开发这一协议栈的能力。
以下是采访实录:
问题1:随着AI功能的不断发展,这对赛轮思AI和汽车发展带来了哪些改变?
Nils Schanz:Cerence xUI是一款智能体化、由大语言模型(LLM)驱动的AI助理,基于专为汽车行业设计的混合式架构,既能在端侧运行,也能在混合云端运行。
其设计对不同内容和技术供应商具有兼容性,赛轮思AI拥有自研的大语言模型,并依据多年收集的汽车领域数据进行微调,使其专门适用于汽车领域;同时,还能集成其他大语言模型供应商技术,如与 DeepSeek的集成,且已为本地市场完成此类整合。
此外,该系统还引入灵活的本地内容,根据不同国家生态系统进行本地化,像在中国与特定地图供应商合作,整合特定视频和音频内容等。
赛轮思AI支持从语音输入、语音输出到 LLM 层面的所有语言,支持全球国家和市场,能够灵活地为不同汽车OEM定制系统,满足其打造品牌化体验的需求,例如为吉利汽车和上汽集团等不同品牌定制车内独特的个性体验。
在定制化方面,不仅可以定制大语言模型体验,还能在语音合成(TTS)和语音输出上,使用不同声音进行定制。
赛轮思AI在全球多地设有本地团队,包括美国、欧洲和亚洲(尤其是中国),这些团队能快速适应人工智能领域的趋势,一旦有新的领先的大语言模型出现,便将其引入基础设施和流程,迅速本地化并根据客户需求,针对汽车领域上下文进行微调,这便是赛轮思AI的策略。
肖绍斌: 赛轮思 AI 在大模型架构方面持续创新,此次上海车展带来了 xUI 全新技术。
我们的架构极具灵活性,不仅能够接入众多第三方大模型,例如ChatGPT、Qwen 和DeepSeek,还能与不同的芯片制造商合作,涵盖高通、英伟达和联发科等,实现跨平台支持。
此外,我们在中国拥有庞大的团队,能够迅速集成市场上新兴的 AI 语音技术,从而为国内及海外生态提供有力支持。
特别在海外生态集成领域,赛轮思AI优势显著,能够助力国内众多厂商完善生态体系,这种强大的生态集成能力是赛轮思的核心竞争力之一 。
问题2: AI Agent通过学习车主的用车习惯带来更好的体验,那么车主的隐私数据如何保护?
Nils Schanz: 随着大语言模型从用户处获取更多输入信息,隐私、安全及个人隐私保护问题凸显。
对此,我们从系统构建入手,依照汽车原始设备制造商(OEM)的特定要求打造系统。OEM 不仅设计系统,还定义个性化需求,因为每个用户拥有独特使用体验、系统能了解并识别用户偏好、按需满足用户需求的重要性与日俱增。
在安全和隐私理念上,我们与 OEM 紧密合作,保障数据安全,确保数据留存于车内用户个人资料范围内。
针对部分 OEM,我们联合开发解决方案,将智能和个性化信息专存于车内边缘设备,使其仅在嵌入式设备运行,杜绝与云端连接,所有个性化及隐私数据也均存储于此。
仅在获取体育赛事结果、天气、交通等实时信息时,才从云端调取数据,坚决不向云端传输终端用户个人数据,实现数据全程留存在车内用户个人资料范畴内。
肖绍斌: 我们今天在楼下有一个展示,展示的是我们的端侧大模型。
使用云端大模型时,很多数据会被传输到云端,而采用端侧大模型,从两个维度来看优势明显。
其一,每个用户都有自己的用户画像(profile),并且我们对不同用户资料之间的数据进行了保护,确保个人隐私,不会出现数据串混的情况。
其二,正如刚才所说,使用端侧大模型,数据无需传输到云端,这在安全性、用户隐私性以及反应速度等功能方面,都能对终端用户起到较好的保护作用。
Nils Schanz: 关于端侧技术,随着芯片在未来对人工智能能力的要求越来越高,端侧实现更多功能才成为可能,因为算力越来越强,才能够在端侧完成诸多任务。
我们此次在上海车展带来的端侧大模型,是首次与英伟达合作,使用英伟达的芯片,在语音方面的合作也是全球领先的。
目前端侧技术仍处于发展起步阶段,大部分大模型基于互联网和网络,而我们此前多年也是基于云端大模型进行深层次交互。
在用户隐私保护方面,我们与英伟达合作,使用了英伟达的 Guardrails技术,通过该技术来保护客户隐私,确保安全性、隐私性以及更实时的响应。。
Nils Schanz: 关于大语言模型(LLM)的应用,我想补充介绍我们开发的独特防护机制(护栏)。
我们的防护机制不仅能在云端运行,还可在端侧设备上运作,且无需高性能的图形处理器(GPU)平台,在系统中央处理器(CPU)上就能实现,这是通过一个较小的模型在 CPU 上单独运行达成的,它专为汽车领域及其应用场景量身打造。
对于汽车原始设备制造商(OEM)和终端用户而言,其重要价值在于能识别敏感话题,当用户询问涉及文化、宗教或其他 OEM 不愿涉及的敏感内容时,防护机制可及时识别,从而保护 OEM 和终端用户的利益,并且在语音输入与输出环节均发挥作用,确保系统交流中不出现不良内容。
此外,我们的防护机制解决方案还能依据 OEM 需求定制,鉴于不同地区的 OEM 对敏感内容的接受程度存在差异,我们可针对不同地区进行定制。
在技术研发上,我们得到了联发科的支持,并与英伟达展开合作,尤其在端侧运用其框架与工具,双方联合开发此防护机制技术,部分由赛轮思 AI负责,部分由英伟达完成,共同致力于为汽车领域提供完善的防护机制。
肖绍斌: 英伟达的 Guardrails 技术此前多应用于云端,而此次我们与英伟达联合开发,将其部署到端侧模型。
当下,虽然云在生态建设等方面优势显著,但端侧也至关重要。由于端侧涉及众多隐私问题,不能将所有数据丢到云端处理,这对数据处理的即时性要求颇高。
随着芯片算力不断提升,在端侧实现更多功能成为可能。
此次合作中,Guardrail 技术不仅用于保护用户隐私,还能应对敏感性话题。
当用户提出敏感性问题时,该技术可避免系统给出不当回答,从而保护终端用户和车厂,防止引发潜在问题。
我们与英伟达联合开发并在端侧部署这一技术,后续会提供相关视频,方便大家理解该技术如何识别和处理不合适的敏感问题。
此外,除了常规的保护措施,我们还会根据车厂需求,为其定制专属的敏感话题保护定义,以满足不同车厂的定制化需求 。”
问题3:与赛轮思AI合作的车企非常多,中国品牌与海外品牌对于产品需求会有哪些不同?
Nils Schanz: 我认为这并非产品需求层面的问题。总体而言,中国汽车OEM与世界其他地区的 OEM 并无本质差异,大家都致力于将大语言模型(LLM)和生成式人工智能引入系统。
不过,差异主要体现在生态系统和内容方面:中国拥有独特的音乐、视频供应商,地图导航需求也因交通模式和用户习惯而独具特色,大语言模型的应用同样存在区域差异,例如DeepSeek 在中国备受关注,在其他地区则不然。
此外,中国的汽车 OEM 在系统交互主动性和对话能力方面表现更为突出,更倾向于打造主动与用户交流的语音助手,无需用户唤醒即可互动;同时注重增强语音助手的情感交互属性,使其更健谈、敏感,能根据用户情绪灵活调整交流方式。
当感知用户情绪不佳时保持克制,用户兴致高昂时则通过讲笑话、闲聊等方式积极互动,展现出更强的情感关怀与服务主动性。
肖绍斌:关于用户习惯,我再补充一点。国内和海外的用户习惯存在诸多差异。例如,国内用户有时希望系统反应极其迅速,甚至追求提前响应,缩短反应时间;而海外用户则更倾向于自然的沟通方式,他们不追求过快的语速,认为这样的交流更舒适自在。”
赛轮思AI在全球超过5亿辆车上使用,具备更多的全球用户数据,能给中国车厂出海提供更多的本地的用户习惯的指导建议,不是生搬硬套中国本土的用户体验。
同时也基于超过5亿辆汽车,赛轮思AI能给国内车厂出海提供最完善的海外法律法规指导。
Nils Schanz: 我们注意到,在中国,汽车语音交互的关注点已扩展至车内全员,而不再局限于驾驶者。
副驾驶及后排乘客,包括孩子和老人等,都希望能够随时与语音系统进行对话。例如,有人选定一个兴趣点(POI),就会有人提出异议,选择其他选项,后排的孩子也可能随时加入讨论。
基于这样的实际需求,我们将全双工能力融入系统,满足车内各座位人员同时与系统对话的要求,让语音助手能够精准捕捉不同说话者的话语,并妥善处理多方对话。这一源自中国的需求,如今已在全球范围内得到应用,越来越多的全球汽车OEM也希望在其产品中具备这一功能 。
肖绍斌: 针对全车语音交互功能,赛轮思AI能够为车厂提供灵活的能力支持。我们既可以提供端到端的完整语音交互方案,也能够提供底层协议栈原子能力。
部分车厂希望自行实现人机交互界面(HMI)等功能,而赛轮思AI灵活的业务模式正能满足此类多样化需求。其中,底层协议栈是我们的核心优势,许多车厂并不具备开发这一协议栈的能力。
此外,在语言覆盖方面,赛轮思AI同样表现出色,拥有 70 多种语言的语音合成(TTS)能力,以及 30 多种语言的纯语音覆盖能力,对众多小语种的支持更是我们的专长所在。这也使得我们在出海业务中极具竞争力。
问题4: 今年初DeepSeek一夜爆红,目前有不少车企接入了这一大模型,赛轮思AI对此怎么看?
Nils Schanz: 我们在产品中提供的 “CaLLM” 是系列的大语言模型,具备在边缘设备与云端混合运行的能力。
该模型会选取不同地区的基础模型,利用我们多年积累的数据进行训练,并针对汽车应用场景加以优化。
若汽车OEM有需求,我们可集成其他大语言模型,例如在中国市场应部分车企要求集成DeepSeek,以此支持更多样的应用场景。这一集成以车企需求为导向,而我们的服务极为灵活,可充分满足不同需求。
像我们在上海车展上展示的集成用例,以及未来在欧洲可能集成当地大语言模型接入系统,都是有力证明。
这正是赛轮思AI的核心优势所在 —— 系统不依赖特定模型,不仅可引入第三方大语言模型,对于汽车OEM或第三方公司开发的智能体,也能实现灵活引入、集成与接入,同时确保整体用户体验和设计的一致性。
需要强调的是,当下市场大语言模型众多,部分公司拥有自研模型,若车企架构绑定单一模型,后续切换将面临困境。
而赛轮思AI凭借开放接口,能够灵活适配车企对不同大语言模型的偏好,并且对第三方智能体等也具备出色的灵活接入能力 。
问题5:中国的大模型发展很快。这对于赛轮思AI来讲是压力还是机遇?
Nils Schanz: 实际上,这无疑是一个机遇。如今,新的大语言模型和参与者如雨后春笋般不断涌现,这种情况不仅在中国显著,在全球范围内亦是如此,而中国的新参与者尤其众多。
赛轮思AI凭借特定方式构建的架构和工具链,能够轻松且快速地替换或引入新的大语言模型。
我们几乎每日都在进行引入新版本、新模型和新参与者并加以测试的工作,因为不同大语言模型针对的应用场景各异,在不同领域的表现也有优劣之分,所以模型必须契合汽车领域的上下文环境。
一旦发现新模型在延迟、成本及应用场景覆盖范围等方面表现更佳,我们便会在数天内将其引入并替换原有模型。由此,我们能够为客户提供经过优化的最新、最优秀的模型。
此外,赛轮思AI还有一个显著优势:大语言模型公司往往缺乏汽车工程方面的经验,而将大语言模型应用于汽车,绝非简单的直接插入,而是需要深度集成到各类应用程序中。
大语言模型虽擅长聊天,但要实现对导航、通信、视频、音乐、信息传递、电话功能等的控制,基础模型并不能直接做到。
赛轮思AI的工作便是对模型进行优化和训练,使其能够控制超过 1000 种不同的车辆功能,实现各类汽车应用场景以及导航相关业务的操作。
肖绍斌: 有些厂商拥有自己的大模型,但这类厂商在模型替换方面灵活性欠佳;而没有自研大模型的厂商或许也会尝试实现这种能力。
赛轮思AI的优势在于,无论是中国的大模型,还是海外的大模型,都能与之对接。与之不同的是,部分友商在大模型合作方面存在限制,特别涉及到海外大模型。
就快速替换大模型的能力以及应对相关限制因素的灵活性而言,赛轮思AI有着独一无二的优势,能够为全球各类大模型提供支持。
Nils Schanz:这里我想再次着重强调,我们为上海车展精心准备的演示有着独特之处。
借助在NVIDIA DRIVE上运行我们的CaLLM™ Edge 侧端模型,赋予这个演示多模态智能,不仅可以精准捕捉车内的所有情况,还能借助摄像头获取车周围的信息,并将这些信息融入到在侧端上运行的小语言模型中。
如此一来,它能够为所有屏幕带来更优质的用户体验,以及更出色的用户界面(UI)和人机交互界面(HMI),这便是我想要传达的核心要点。
我们所展示的独特之处不仅体现在图像方面,视频及视频流同样是一大亮点。我认为这一特点极为罕见,在其他地方很难见到。
在驾驶过程中,我们能够实现对视频输入的捕捉,随后驾驶者可就实时出现的建筑物、广告牌、交通标志等各类事物进行询问,而我们的系统具备在侧端对这些信息进行处理的能力。
肖绍斌:当前,许多车载交互功能更多偏向娱乐性质,或是单纯用于交流,实际意义有限。
然而,扫码支付停车费这一功能无论是在国内还是国外都已广泛应用,它首次赋予了车辆对外感知以实际使用价值,堪称一大特别之处。
目前,系统可直接扫描车外停车场二维码,实现停车费无感支付,在4座模拟座舱演示有呈现这项功能,去年我们也曾展示车辆在行驶过程中,用户向语音助手询问路边广告牌信息,语音助手从云端抓取相关内容并进行介绍的场景。