如果某家公司推出了完全自动驾驶汽车,并告诉你出事故概率在万分之一,你敢放心乘坐吗?可能很多人的答案是否定的。但事实上,每个人都曾面临过这个问题,而且都放心地上了车。我指的是出租车,一定意义上来讲,我们经常会乘坐的出租车和自动驾驶汽车有很大的相似性,都是将驾驶权交给他人,以及都存在发生事故的可能性。
这似乎可以理解为,如果将自动驾驶的出错概率控制到和一个出租车司机同等水平,就意味着自动驾驶可以被人们所接受。假如能够在100万台车上安装摄像头,凭借这个规模下采集到的海量数据来训练人工智能,将自动驾驶的出错概率控制到比出租车司机还低,将是大概率事件。随着特斯拉销量的不断攀升,100万辆搭载摄像头的汽车上路采集数据将很快实现,这让我们看到了实现高级别自动驾驶的可能性,也看到了相较于谷歌的激光雷达方案,以摄像头为主的多传感器融合方案或更容易实现量产。
2013年,特斯拉与谷歌的自动驾驶合作宣告破产,马斯克推翻了谷歌搭载激光雷达的自动驾驶解决方案。自此特斯拉开始内部组建自己的Ap团队,押宝以计算机视觉为主的多传感器融合方案。与此同时,谷歌也通过Waymo继续依靠激光雷达,研发直接面向L4的自动驾驶解决方案。自从实现高级别自动驾驶的两种技术路线开始形成,而围绕“高级别自动驾驶到底需不需要激光雷达?特斯拉和谷歌Waymo到底谁才是自动驾驶的行业第一”的争议声,也从未停息。
如果100万辆搭载摄像头的汽车,收集的数据真的足够使自动驾驶的出错率低于人类,那毫无疑问,计算机视觉为主的多传感器融合方案,已在这场自动驾驶竞赛中取得暂时领先。国内也有多家自动驾驶企业,将计算机视觉作为实现自动驾驶的突破口,这其中就包括由特斯拉前计算机视觉高级工程师徐雷博士创建的纽劢科技。
纽劢科技也致力于研发不使用激光雷达,不依靠高精地图,低成本可量产的自动驾驶方案。作为计算机视觉领域的专家,徐雷和他的团队主要依靠自身在软件方面的技术优势,搭建基于各种主流计算芯片的自动驾驶模型,为整车厂提供可快速部署的自动驾驶解决方案。
相对于激光雷达+高精地图的方案,计算机视觉方案逻辑上更像人类驾驶过程。摄像头就如同人的眼镜,计算芯片就如同人的大脑,为了给“大脑”提供可供决策的视觉信息,摄像头需要克服不利环境对摄像头的干扰。和我们的眼睛一样,摄像头会被强光“致盲”,也会“迷失”在黑夜里。但对自动驾驶汽车而言,这种场景会频繁发生,例如过隧道、遇到“远光狗”、逆光行驶等,为了保障安全,就必须保证摄像头在各种恶劣环境下都能输出清晰的画面。纽劢科技的做法是,通过图像ISP技术,配合摄像头参数调优,来保障摄像头能够不被环境所干扰。
其次是多传感器的融合。对人类而言,也会需要“多传感器融合”,例如你看到一朵花,但无法判断是真花还是塑料花,就需要用鼻子嗅一下,最终判断出它是什么。自动驾驶汽车一般搭载多个传感器,以纽劢科技的“经济配置”自动驾驶解决方案为例,就用到了5个摄像头,5个毫米波雷达,12个超声波雷达,以及GPS加惯性导航系统,需要对多个传感器报告上来的信息进行融合处理。
我们可以将自动驾驶,理解为教一个新手玩赛车游戏,我们想办法为他提供一个上帝视角的行驶画面,再通过各种不同的道路环境,训练它该如何正确地处理信息。随着训练的地图越来越丰富,他也能够从新手变成游戏大神。通过对人工智能的不断训练,计算芯片已经能够从摄像头提供的图像信息中,较为准确地分割出路面、车道线、汽车等物体,并在多种场景下做出正确的判断。随着训练量的提升,计算芯片也将会进一步具备思考及预判的能力,终有一天,自动驾驶也会从小白成为大神。