曹原 发自 副驾寺智能车参考 | 公众号 AI4Auto
(资料图片)
智能车赛道,藏着一个最隐秘的AI视觉玩家。
这个玩家尚未官宣任何智能车相关的业务进展,但又在最核心、最前沿、最被渴求的自动驾驶系统能力上屡屡展现竞争力——全球AI顶会冠军级的统治力。
不仅具体技术上突出,在目标检测、语义分割、视觉推理等方面有诸多顶会级研究;还拿下多个自动驾驶相关比赛的冠军,甚至还用7个摄像头的纯视觉方案,完成了高速、城区和泊车环境的自动驾驶。
这个玩家不是特斯拉的AI团队,这个玩家是旷视科技。
在最近的AI顶会CVPR中,大模型加持下的视觉研究,正在驱动自动驾驶方向的新研究,而旷视研究院,在一众自动驾驶和智能车玩家参与的竞赛中,获得了考察自动驾驶环境感知能力的冠军。
AI视觉领域的超级明星,现如今在业务上还没有与智能车传出关联。
但有这样的技术研究和成果,当真会纯出于学术研究?
旷视研究院参加的这个比赛,是CVPR 2023专门面向自动驾驶感知决策系统设立的挑战赛。
其中OpenLane拓扑关系挑战赛冠军,被旷视收入囊中。
挑战赛一共四个赛道,除了旷视参加的OpenLane拓扑关系挑战赛(OpenLane Topology),还有在线高精地图构建挑战赛(Online HD Map Construction)、三维占据栅格预测挑战赛(3D Occupancy Prediction)和nuPlan规划挑战赛(nuPlan Planning)。
其中,OpenLane拓扑关系赛道主要考察自动驾驶技术理解场景的能力。
赛道要求基于OpenLane-V2(OpenLane-Huawei)数据集,输入给定环视相机照片,参赛者需要输出车道中心线和交通元素的感知结果,以及这些元素之间的拓扑关系预测。
也就是说,这个比赛不是考察以往自动驾驶感知中,对车道边缘线或者交通标志单一的识别能力,而是要求自动驾驶技术可以感知车道中心线,还要能理解车道中心线和交通元素的逻辑关系,比如绿灯亮了,这意味着哪条车道可以通行。
那么如何判定冠军?OpenLane-V2数据集提供了判定标准:OLS分数(OpenLane-V2 Score),通过计算感知结果和拓扑预测mAP的平均值判定得分。
在34个参赛队伍中,来自旷视研究院的队伍得分唯一超过55分,达到分,具有明显优势。
那么,旷视用了什么样的方法?
首先感知阶段,对于交通元素检测和车道中心线检测两个感知任务,旷视分别采用了两个不同的模型。
对于交通元素检测,旷视使用主流2D检测模型YOLO系列中最新一代YOLOv8作为baseline,相较于其他2D检测方法YOLO速度更快,性能更准确。
△图片来源:GitHub用户RangeKing
再加上比赛使用的数据集OpenLane-V2标注了交通标识和车道的对应关系,旷视在YOLOv8训练过程中增加Strong augmentation、Reweighting classification loss、Resampling difficult samples、Pseudo label learning和Test-time augmentation共5个trick,通过和前视角图像交互生成对应交通元素的特征。
对于车道中心线检测,旷视使用自研PETRv2模型作为baseline。PETRv2提供了一个统一的纯视觉3D感知框架,可以用于3D目标检测和BEV分割。
而在这次比赛中,旷视利用PETRv2从多视角图像中提取2D特征,以及利用摄像头截锥空间中生成3D坐标,把2D特征和3D坐标输入3D位置编码器。
随后使用3D位置编码器给Transformer解码器生成key和value组件,lane queries再通过全局注意力机制和图像特征进行交互,生成3D车道中心线检测成果和对应的车道中心线特征。
而在拓扑关系预测阶段,旷视基于YOLOv8和PETRv2搭建了一个多阶段的网络框架,并利用两个感知任务生成的成果拼接对应特征,再使用两层MLP预测对应的拓扑关系矩阵。
(图注:旷视最终在验证集上的预测结果,包括边框、类别和置信度)
最后从OLS得分来看,旷视团队的这套方法在交通元素感知(DETt)、车道线之间拓扑关系预测(TOPll)和车道线与交通元素拓扑关系预测(TOPlt)方面均领先于其他参赛者。
参加这次比赛的,是旷视研究院的MFV(Megvii-Foundation model-Video)团队。
比赛成果论文一作是吴东明,2019年在北京理工大学徐班取得学士学位,后来继续在北理攻读计算机系的博士学位,师从沈建冰教授,在2022年成为旷视研究院的研究实习生。
论文的其他作者也都来自旷视研究院,其中Chang Jiahao毕业于中国科技大,Li Zhuoling毕业于香港大学。
值得一提的是,这次挑战赛使用的PETRv2模型,还是旷视研究院创始院长孙剑博士去世前,带领研究团队发布的学术成果之一。
并且,这也不是旷视唯一的自动驾驶相关研究成果。
除了PETR系列大模型,旷视还发布过BEVDepth检测模型(可对3D目标实现高精度的深度估计),LargeKernel3D(首次证明大卷积核对3D视觉任务的可行性和必要性),BEVStereo(nuScenes纯视觉方案3D目标检测SOTA)等……都是行业领先级的技术成果。
△BEVStereo模型框架
一直以来,旷视研究院都是旷视AI技术的研发“大脑”,主攻深度学习和计算机视觉方向,也是包括AI生产力平台Brain++、开源深度学习框架天元MegEngine、移动端高效卷积神经网络ShuffleNet等成果的诞生地,已经对外发表了超过120篇全球顶会论文;斩获顶级赛事中冠军数超过40项,拥有1300余件业务相关专利授权。
而且在区别于纯研发或前沿技术预研布局的企业研究院,旷视研究院从一开始就被作为作战部队使用,所以旷视研究院的最新成果、瞄准的方向,一般都不会一时兴起,或者纯为研究而研究。
于是这也是旷视接二连三在自动驾驶、智能车赛道方向上产出顶级成果后,需要关注的地方。
相比老朋友商汤科技,旷视至今没有官宣任何智能车、自动驾驶业务或合作,而商汤则推出了专门的智能车业务品牌绝影,由联合创始人王晓刚带队,目标要成为商汤的支柱型新增长引擎。
对于智能车和自动驾驶这样的万亿规模赛道,旷视会始终心如止、按兵不动?不太可能。
更何况从技术研究能力到技术实现水平,都已经通过顶会得到了展现。
以及,旷视研究院还展示过一段自动驾驶预研Demo,仅使用7个摄像头,就能实现高速公路和城区的自动驾驶,并且还能完成水平、垂直以及侧方位停车。
这是什么水平?
作为参考,纯视觉王者特斯拉,自动驾驶感知方案最少也需要8个摄像头。
论文传送门:/e2ead/AD23Challenge/Track_1_
曹原发自副驾寺智能车参考|公众号AI4Auto智能车赛道,藏着一个最隐秘的
大家好!我们很高兴的向各位宣布:曾在《HyperGalactiX-黎明之光》中登
三大主题持续发酵中。高温(周末十大机构几乎都开始推了,他们不叫高温
上周五欧洲股市以上涨为主。不过,以一周累计涨跌幅来看,欧股表现一片
为进一步提升农村公路服务水平,全面助力乡村振兴,今年吉林省全面启动
大同区和苑街道积极探索网格工作新模式,重点打好“六和”品牌,实现“
北京商报讯(记者金朝力冉黎黎)7月10日,北京商报记者从中国国家铁路
民族日报·中国临夏网讯(记者刘刚林)三伏天如期而至,对于很多人来说
记者刘刚林进入七月,体感潮湿闷热,高温高湿环境下,各种细菌、病毒和
民族日报·中国临夏网讯(记者刘刚林)近年来,临夏县卫健系统把人才作
记者刘刚林入夏以来,天气一天比一天热,各类瓜果和冰镇饮品齐上市,这
为患者做检查记者刘刚林今后,我州群众在“家门口”就能享受到更优质的
7月6日,由王宝强执导并主演的电影《八角笼中》正式上映。据媒体报道,
ThinkPadX1Carbon2019继承了该系列一贯的高品质做工和材质,还创新性地
当下,如火如荼的大模型热潮,已经蔓延了数月之久,在各种关于大模型的
中央财经委员会办公室副主任、财政部副部长廖岷就美财政部部长耶伦访华
“人固有一死,或轻于鸿毛,或重于泰山”,张飞、关羽、韩信、项羽四人
2023三河市人民政府官网招生入口报名入口:三河市人民政府链接:三河市
烤箱是一种非常实用的厨房电器,它可以帮助我们完成很多美食的制作。下
盛夏时节,走进康丰乡辛雍家的甘肃宏福现代农牧产业有限责任公司院内,
记者马玉兴“有人落水了,急需救援,你们快来救救他吧……”7月8日12时
盛夏时节,积石山县50万亩金露梅绽放,唯美无比。胡文戊贾云凤摄编辑:
民族日报·中国临夏网讯(记者马龙)7月9日,州委书记郭鹤立带领相关县
民族日报·中国临夏网讯(记者马正兰)今年,州上坚持以打造文旅百亿级
22万平米、60万专业观众、百亿订单采购团,华南最大规模食品酒类专业展
美国宾夕法尼亚州蔓越莓镇,2023年7月5日–西屋电气公司宣布,已向加拿
智通财经APP讯富奥股份000030000030SZ发布公告2023年7月8日公司与天奇
Sound!Euphonium没有那场大火,本来已经可以见证这段故事的下一篇章每
2023年7月9日,温布尔登网球公开赛继续进行,女单赛场爆出冷门,天才小
所需食材:红枣100克白糖90克鸡蛋4个低筋面粉180克泡打粉7克小苏打4克