新闻与活动 工学院 新闻动态

西湖大学工学院李子青和成生辉课题组合作成果:基于“可解释的深度学习” 深入理解高维数据
学术研究
工学院 2022年12月29日
媒体联系 戴雪萍邮箱: daixueping@westlake.edu.cn
电话: +86-(0)571-86889887
工学院

可视化方法是数据科学的一种关键手段,被广泛应用于如图像识别、单细胞测序分析和生物标志物发现。可视化依赖数据科学中的降维技术,即将高维数据映射到低维空间,以观察数据的全局和局部分布。例如,在分析图像数据时,高维的图像被可视化方法映射到二维空间中以展示图像与图像之间的相关性。

然而,当前的降维技术有它的局限性,例如无法保留全局和局部特征、无法广泛推广到各个应用场景等。此外,当前的降维技术也被期望拥有新的特性,比如可解释性。也就是说,我们期望降维的模型是可以被人类容易地理解。我们期望通过分析降维的模型来发现降维过程中展示的重要特征和重要特征组合。

近期,西湖大学工学院李子青课题组和成生辉课题组合作的数据可视化研究成果“DMT-EV: An Explainable Deep Network for Dimension Reduction”被IEEE Transactions on Visualization and Computer Graphics(TVCG)录用,西湖大学博士生臧泽林和青年研究员成生辉为共同第一作者, 西湖大学讲席教授李子青为通讯作者。TVCG作为计算机可视化领域的最重要期刊,被中国计算机学会(CCF)列为A类期刊。此工作基于深度神经网络建立了一个参数化降维模型DMT-EV。新方法不仅在降维过程中的结构保持方面超越tSNE、UMAP等先进方法,而且拥有出色的可解释性。得益于数据增强和基于流形的损失函数,新方法有良好的高嵌入性能;得益于可以被“saliency maps方法”分析的模型结构,新方法可以高质量地探索数据特征对降维过程的贡献。我们提出的方法包含一个可视化界面。这个界面可以帮助用户调整参数,以实现更好地降维和可解释性能。

论文链接:https://ieeexplore.ieee.org/document/9956753/https://arxiv.org/abs/2211.15478


高维数据可视化(降维)方法及其遇到的问题

当前主流的数据可视化方法(例如tSNE和UMAP)在图像识别、单细胞测序分析和生物标志物发现等领域有广泛地应用。不过,我们发现这类方法因为过于严格的假设而在复杂数据中无法取得令人满意的效果。我们通过四个不同复杂程度的数据来说明这个问题。

图1:当前降维方法遇到的问题


如图所示,UMAP方法在简单数据集(如上图Mnist和FMnist等数据集)上有较好的结果。这类数据的特点是采样密集并且特征数少,关系简单。但是随着数据的复杂化和采样点的稀疏化,UMAP方法的性能会出现下降,甚至完全失效。

高维数据可视化(降维)方法的可解释性的需求

降维技术的解释是发现降维过程重要特征和重要特征组合。当前,很多降维技术可以将高维映射到低维,但它们就像一个黑匣子,无法被用户理解。而理解降维技术的行为有助于诊断降维过程或者发现对降维嵌入重要的特征。此外,很多研究人员对降维模型如何做出决定感兴趣。因为弄清楚哪些特征会影响降维的输出,对发现新的科学知识至关重要。例如,生物科研人员通常会使用降维技术处理单细胞转录组数据,以试图寻找某种细胞类型的特有基因标志物。再比如,医学研究人员希望在大数据的降维中发现与疾病进展高度相关的标志物。

基于流形学习和神经网络设计的可解释降维模型

为了解决上述问题我们设计了一个新的方法。此工作基于深度神经网络建立了一个参数化降维模型。模型不仅在结构保持方面超越当前基线方法,而且拥有出色的可解释性。

图2:模型的结构。(a)神经网络模型;包括数据增强,lasso网络和损失函数。(b) 群落发现模块;用于发现降维结果中的团簇。(c)可解释模块;根据网络参数和嵌入输出解释特征的重要性。(d)可视化界面。


判别性能比较

接下来,我们通过指标来评估所提出的方法,并试图证明新方法在性能上的优势。我们使用线性分类方法(线性SVM)作为判别器。在训练集上进行训练,并在测试集上进行测试,测试集的正确率如下。

新方法在分类和聚类方面都优于其他基线方法。这表明我们的方法更容易发现社区,有利于对嵌入的局部进行更深入的解释。可视化部分通过展示二维可视化来说明指标性能优势的原因。对COIL-100、Mnist和HCL数据集的可视化比较如下。

图3:(左)COIL-100上的可视化结果  ,(右)COIL-100 数据集。

COIL-100图像数据集包含100个环形流形,每个流形是一个物体的72张照片;每个照片对应一个特定的拍摄角度。如表所示,tSNE善于保持局部结构,因此存在较少的重叠现象。然而,在全局结构保持方面表现不佳。此外,UMAP和PaCMAP则倾向于保留全局结构。可以观察到,我们提出的方法DMT-EV比较好,避免了更多的流形重叠。

图4:(左)HCL数据集上的可视化结果  ,(右)HCL数据集。

在生物数据的性能如上图所示。我们的方法在生物数据集上的表现也优于比较方法,并产生最小的重叠。


可解释性能

图5:所提出DMT-EV方法的可解释性能。(a)网络训练过程中逐渐发现Mnist数据集中的关键特征的过程,消失的颜色代表被排除的不重要特征。(b)训练过程中被选出的特征的数量。(c)发现的重要特征的重要性热力图。

DMT-EV的神经网络在训练的过程中会基于无监督的梯度信息自动发现数据中的重要特征。以Mnist数据集为例,我们的方法会识别哪些像素(特征)对整个降维结果有着显著影响。与此同时,方法也会自动地在前向传播中去除掉不重要的特征完成映射。这样不仅提高了方法对抗噪声的能力,也降低了模型对数据收集的要求和复杂度。

图5体现了在Mnist数据集上的重要特征的发现过程。在训练开始的时候,模型将所有的特征(像素)视作相同的重要性,可以通过模型的特征有784个(数据集一共有784个特征)。随着训练的进行,重要的特征被赋予了更高的权重,而不重要的特征被赋予了更低的权重,最终被丢弃掉。在图5(a)中,丢弃掉的特征不再显示。

上述结果显示我们的方法拥有出色的可解释性能,可以容易地发现数据中的重要特征,同时排除不重要的特征。另外,作为更加深入的可解释性探索,DMT-EV可以发现对嵌入局部重要的特征,和对从一个局部转换到另一个局部重要的特征。详细的理论知识和应用结果欢迎参考我们的论文。