学术科研
首页 >> 学术科研 >> 正文

【创新在大工】国际信息与软件学院科研团队在可解释图像生成领域取得新成果

2023-07-24作者:国际信息与软件学院

近日,国际信息与软件学院科研团队在可解释图像生成领域研究新成果被计算机视觉领域顶级会议ICCV 2023录用。研究成果DPM-OT: A New Diffusion Probabilistic Model Based on Optimal Transport由博士生李泽增、李声豪、汪展鹏,雷娜教授(通信作者)、罗钟铉教授和纽约大学石溪分校顾险峰教授合作完成,是该团队在可解释图像生成领域国际合作交流的最新研究成果。

微信图片_20230723084458.jpg

雷娜教授团队创新性地将逆扩散视为不同阶段的隐变量之间的最优传输(OT)问题,提出了快速DPM的统一学习框架DPM-OT,可以在大约10个逆扩散步内生成高质量样本。该算法框架通过显示求解数据隐变量和白噪声之间的最优传输映射,获得了从先验分布到数据分布的最优轨迹,实现将深度生成模型部分白盒化,使模型具备几何直观和可解释性,同时显著缓解了模式混淆的问题。此外,论文中给出了该方法的误差界,从理论上保证了算法的稳定性。大量实验验证了DPM-OT在图像生成速度和质量等方面的优势,从而为可解释图像生成提供了一种有效的解决方案。有效解决了传统的扩散概率模型(DPM)的采样相当于分段分布变换,通常需要逆扩散数百或数千步才能获得高质量的图像,且无法兼顾采样速度与样本质量最优,经常受到模式混淆的影响。

据悉,ICCV(IEEE International Conference on Computer Vision)是计算机视觉领域最顶级会议。根据谷歌2022学术影响力榜单:ICCV跃升总榜前17,H5-index: 239。本届ICCV大会共收到8088篇论文投稿,录用2160篇,录用率仅为26.7%。大连理工大学罗钟铉教授、雷娜教授、郑晓朋副教授及其团队与纽约州立大学石溪分校顾险峰教授长期合作,共同承担了科技部重点研发计划课题“基于微分嵌入与最有传输的可解释深度学习新模型”、基金委重点项目“几何观点下的深度学习可解释性的关键理论与模型构建”,在项目的支持下做出了系列受到国际同行关注的工作。本次发表的论文是该项目的一项重要进展。通过将OT和扩散模型相结合,提出用于快速DPM的统一学习框架DPM-OT。该算法通过计算Brenier势函数的梯度来表示OT映射,具备几何直观和可解释性;并且得到的OT映射满足在奇异集上不连续性,从而能避免模式混合。同时,通过在不同时间步隐变量之间构建了一个最优轨迹,将多个采样步组合成一个OT映射,从而大大缩短了采样轨迹。

微信图片_20230723084528.jpg

团队介绍:国际信息与软件学院几何计算团队由罗钟铉教授和雷娜教授领导,主要研究如何应用现代微分几何和代数几何的理论与方法解决工程的问题,聚焦于计算共形几何、计算拓扑、符号计算及其在计算机图形学、计算机视觉、几何建模和医学图像中的应用。近年来,该团队在ICCV、TVCG、AAAI、CMAME、CAD等期刊上发表相关研究论文百余篇,其中从几何观点出发的可解释深度学习相关工作受到著名数学家菲尔兹奖得主Villani和Figalli的关注并在国际会议上进行重点介绍。

来源:国际信息与软件学院
编辑:王增强