近日,“社会计算与认知智能”教育部重点实验室魏小鹏教授、尹宝才教授、张强教授、杨鑫教授的关于单视角三维重建、视频序列玻璃分割、多模态动态避障以及伪装目标分割的5项研究成果陆续被人工智能国际顶级会议(ICCV2023)、国际多媒体领域顶级会议(ACM MM2023)、人工智能国际顶级期刊(IJCV)、计算领域顶级中文期刊(《中国科学:信息科学》)接收。
博士生张肇轩作为第一作者与博士生李童等人共同完成的研究成果“Single Depth-image 3D Reflection Symmetryand Shape Prediction”致力于通过物体的对称属性去解决单视角物体三维重建过程中细节不足的问题。从单张二维图像中去重建出三维物体模型是计算机图形学与视觉领域的一项传统而又重要的任务。相比于从单张RGB图像进行较粗糙的物体重建,单张深度图像的物体建模任务由于输入图像中蕴含深度值这一几何信息,对最终模型的精细程度及完整程度要求更高(如下图a所示,在输入物体点云——红色区域的情况下,尽可能精准的恢复出被遮挡区域——灰色区域的信息)。目前一般是利用Kinect相机或具备激光雷达的手机等设备对物体直接进行拍摄来获取深度图像。由于其2.5D的特性,通常是使用三维点云补全的方法将其重建出来,而这类方法由于显存等硬件的限制,使得算法最终输出结果的点云数量有限,难以较好的恢复出物体的细节信息,相比于被拍摄物体会存在明显的失真,如下图(b)所示。为了解决这一问题,团队采用深度图像及法向量图像联合补全的方法从二维的角度直接去预测三维点的信息,借助强化学习算法决策出最佳补全视角序列,通过法向量及对称性等几何约束,完成了物体待补全区域检测及高质量的深度、法向量等几何信息的预测,实现了更细节的三维物体重建及更精准的物体对称面预测。此项研究阐明了物体完整程度与对称面准确性间的互补关系,所提出的单视角物体重建算法可以广泛的应用于数字人、机器人交互、虚拟/增强现实等领域。
与其他代表性相关工作进行对比
博士生乔羽作为第一作者与硕士生金傲、付裕等人共同完成的研究成果“Multi-view Spectral Polarization Propagation for Video Glass Segmentation”致力于通过多视角的RGB及偏振光谱关联属性解决玻璃视频序列中的玻璃分割问题。玻璃作为日常生活及应用中的常见场景,其自身独特的反射、穿透等光学属性,给现有的深度学习算法在特征提取及上下文关联的过程带来了极大的挑战,尤其是在处理连续玻璃视频时,其表面颜色及纹理会随着相机或光线角度的波动产生连续的变化。以RGB图像作为输入的视频分割算法,在处理时难以分辨图像中玻璃颜色及纹理的真实性,而以单帧图像作为输入的RGB-偏振处理方法,则忽略了视频中RGB和偏振光谱特征的时序关联。为了解决应用场景下的视频玻璃分割问题,团队采用RGB和偏振光谱信息作为网络的输入,同时引入时空记忆模块关联前后视频帧之间的RGB及偏振光谱特征,将前序帧的信息通过记忆匹配模块及交叉注意力等传播到当前的输入帧,在预测当前输入的基础上充分考虑历史信息,保证了玻璃视频序列上的分割性能及偏振一致性。此项研究阐明了玻璃分割与光谱信息的紧密关联性,所提出的多角度光谱玻璃视频分割模型可以应用于自动驾驶、机器人场景扫描等领域,避免玻璃造成了识别错误、感知误差等问题。
与其他方法结果进行对比
博士生王洋作为第一作者与硕士生张雨霁、博士生周运铎、梅海洋等人共同完成的研究成果“Event-Enhanced Multi-Modal Spiking Neural Network for Dynamic Obstacle Avoidance”致力于解决复杂动态场景下移动机器人自主避障的问题。自主避障对于移动机器人等智能代理在其环境中导航至关重要。现有的最先进方法通过强化学习训练脉冲神经网络,以在复杂/未知场景中实现节能和快速推理。这些方法通常假设环境是静态的,而现实世界场景中的障碍物通常是动态的。障碍物的快速移动增加了环境的复杂性和不确定性,对现有的避障方法提出了更多挑战。在这项工作中,主要从两个方面进行鲁棒的动态避障。首先,引入了神经形态事件相机,以提供与处理动态障碍物的传统激光深度数据相互补的运动线索;其次,设计了一个基于强化学习的事件增强的多模态脉冲决策网络,该网络通过无监督表示学习从运动事件数据中提取信息,并将激光和事件相机数据与可学习阈值机制融合。实验结果表明,本工作的方法在很大程度上优于最先进的避障方法,尤其是在动态避障方面。
事件增强的多模态脉冲神经网络模型概览
博士生梅海洋作为第一作者与博士生周运铎、王洋等人共同完成的研究成果“Camouflaged Object Segmentation with Omni Perception”致力于解决复杂环境中伪装目标分割问题。自然界中许多生物都具有“伪装”的本领,变色龙能够根据周围的环境来调整自身颜色以达到其“伪装”的目的;狮子将身体“伪装”在草丛之中等待猎物的靠近;蝴蝶伏在与自身颜色相近的树干上一动不动以躲过天敌的伤害。因为伪装目标与背景之间存在高度的相似性,所以伪装目标的分割比普通目标的分割更具挑战性。本工作提出了一种新颖的全方位感知网络(OPNet)来感知和耦合局部特征和全局表示,以实现复杂环境下准确的伪装目标分割。通过两个创新性模块,即金字塔定位模块(PPM)和双聚焦模块(DFM),OPNet能够更准确地定位整个伪装目标并划定物体边界,从而在基准测试集上显著提高了伪装目标分割性能。此项研究可应用的领域较为广阔,除了其学术价值外,还有助于推动诸如军事上伪装隐蔽目标的搜索探测、医学领域上病情的判断以及农业遥感中蝗虫的入侵等。
全方位感知伪装目标分割模型概览
博士生梅海洋作为第一作者与博士生周运铎等人共同完成的研究成果“Distraction-Aware Camouflaged Object Segmentation”致力于解决多尺度伪装目标分割问题。考虑到伪装目标的尺寸通常在很大范围内变化,本文在定位和聚焦伪装目标分割框架下,引入了一个上下文增强模块来增强骨干特征的表示能力,以提供更有辨别性的骨干特征,从而提升伪装目标的定位和聚焦效果;并设计了金字塔定位模块以多尺度的方式实现对伪装目标更加鲁棒的定位;实验证明本文提出的新方法具有优异的伪装目标分割能力,并且本文进行了深入的消融研究和分析,揭示了模型设计的合理性与有效性;最后,本文通过将方法应用于息肉分割任务,验证了模型的泛化能力和实际应用价值。
与其他方法结果进行对比
ICCV(International Conference on Computer Vision)是计算机学科普遍认可的人工智能领域顶级国际会议,被中国计算机学会(CCF)列为A类会议,今年论文录用率为26%左右,该会议将于10月11日-17日举办。根据当前流行的Google Scholar Citation统计,ICCV排在所有学科目录第26位。
ACM MM(ACM International Conference on Multimedia)被认为是多媒体技术领域奥运级别的顶级盛会,被中国计算机学会(CCF)列为A类国际学术会议,各类机构都将在会议上分享、交流最新研究成果。该会议将于今年10月29日-31日在加拿大渥太华举办。
IJCV(International Journal of Computer Vision)与IEEE TPAMI、JMLR、AI是中国计算机学会(CCF)推荐的人工智能领域的4个A类顶级期刊,其影响因子13.369。
《中国科学:信息科学》主要报道计算机科学与技术、控制科学与控制工程、信息与通信工程、微电子与固态电子学等领域基础研究和应用研究方面具有重要意义和创新性的最新成果,是由中国科学院主管,中国科学院、国家自然科学基金委员会主办的期刊,被中国计算机学会(CCF)列为交叉与计算领域T1类最顶级中文期刊。
来源:电子信息与电气工程学部
编辑:于舒雯