小罗碎碎念
从事病理AI研究的老师/同学,对于CLAM这个模型,应该是非常熟悉了,但是真正研究过这个模型的,应该不多,可以说这篇文章基本敲定了后续的研究框架。
我本来以为自己之前分析过这篇文章,但是去找了记录,发现没有,所以现在补上。
另外,我打算把这个模型系统的讲一遍,录制的视频会上传到B站,方便刚入门的老师/同学系统的学习。
文献概述
这篇文章提出了一种名为CLAM(Clustering-constrained-attention multiple-instance learning)的高通量深度学习框架,用于解决全幅切片图像(WSIs)计算病理学中的关键挑战。
一作&通讯
作者单位Ming Y. LuBrigham and Women’s Hospital, Harvard Medical School, Boston, MA, USAFaisal MahmoodBrigham and Women’s Hospital, Harvard Medical School, Boston, MA, USA
- 研究背景:- 问题:数字病理学和人工智能的发展使得分析千兆像素全幅切片图像(WSIs)进行客观诊断、预后和治疗反应预测成为可能。然而,深度学习方法在处理WSIs时面临数据量大、标注成本高、领域适应性和可解释性差等挑战。- 难点:现有的深度学习方法要么需要手动标注WSIs,要么依赖大量带有幻灯片级标签的数据集,这在罕见诊断和临床试验中难以实现。此外,现有方法在处理不同来源和成像设备的图像时表现不佳,且缺乏对多类分类问题的支持。- 相关工作:现有工作主要集中在使用像素级或补丁级标注的半监督学习方法,但这些方法在处理小样本数据时效果不佳,且难以泛化到独立测试数据集。
- 研究方法:- CLAM框架基于注意力机制的多实例学习(MIL),通过实例级聚类和注意力池化来提高模型的性能和数据效率。具体来说,CLAM使用注意力网络预测每个类别的独特注意力分数,并通过实例级聚类进一步细化特征空间。- 在训练过程中,CLAM通过生成伪标签来增加监督信号,并使用平滑SVM损失函数进行优化。为了提高模型的可解释性,CLAM生成了整个WSIs的注意力热图,帮助临床医生理解模型的预测依据。- 为了验证CLAM的泛化能力,作者使用了多个独立测试数据集进行评估,并展示了其在不同任务上的高分辨率可解释性热图。
- 实验设计:- 在三个不同的计算病理学问题上评估了CLAM的性能:肾细胞癌(RCC)和非小细胞肺癌(NSCLC)亚型分类以及乳腺癌淋巴结转移检测。- 使用了多个公开数据集(如TCGA、CPTAC和CAMELYON16/17)和独立测试数据集(如BWH内部数据集)。- 通过10折蒙特卡罗交叉验证评估模型性能,并分析了训练数据量对模型性能的影响。
- 结果与分析:- 在所有三个任务上,CLAM均表现出高效的数据利用能力和高性能。例如,在RCC亚型分类任务中,使用10%的训练数据即可达到0.94的平均测试AUC。- CLAM在处理不同来源和成像设备的图像时表现出色,即使在图像分辨率和扫描硬件差异较大的情况下也能保持高准确率。- 生成的注意力热图揭示了模型在做出预测时关注的区域,帮助临床医生理解模型的决策依据。
- 总体结论:- CLAM克服了传统方法的局限性,提供了一种数据高效、可解释且适用于多种分类任务的计算病理学框架。- 该方法在临床和研究环境中具有广泛的应用潜力,特别是在资源受限的环境中,CLAM有望推动远程会诊和辅助诊断的发展。
通过这篇文章,作者展示了CLAM在计算病理学中的强大潜力和实际应用价值。
一、引言
数字病理学和人工智能的进展为分析吉像素级全切片图像(WSIs)提供了可能性,以实现客观的诊断、预后和治疗效果预测【1,2】。
除了直接的临床益处【3-6】外,计算病理学在多个不同任务中显示出潜力,包括量化组织微环境【7-12】、进行整合图像组学分析【13-19】、识别具有预后相关性的形态学特征【20,21】以及将形态学与治疗反应和耐药性关联【22】。
深度学习【23,24】通过解决许多图像分类和预测任务【25-30】革新了医学成像,但全切片成像是一个具有多个独特挑战的复杂领域。基于深度学习的计算病理学方法需要在完全监督设置中对吉像素WSIs进行手动标注,或者在弱监督设置中使用带有切片级标签的大型数据集。
鉴于切片级标签可能仅对应于每个大型吉像素图像的微小区域,大多数方法依赖于像素、补丁或感兴趣区域(ROI)级标注,以显著定位这些“ needle in a haystack”【31-34】。尽管通过为WSI中的每个补丁分配相同的标签报告了有希望的结果【35】,但这种方法存在噪声训练标签的问题,并且不适用于肿瘤含量有限的问题(例如,微转移)。
此外,如果在ROI或补丁级别仅对WSIs中的部分组织区域进行采样以进行训练,模型在测试时可能无法很好地泛化或提供有用的切片级可解释性。
最近的工作在弱监督设置中使用切片级标签对二元分类器进行训练,以对患者进行分层,显示出卓越的临床级性能【36】,基于多种实例学习(MIL)的变体。然而,据报道,这种方法需要成千上万的WSIs才能达到与完全监督和ROI级分类器相当的性能。
尽管这些大型数据集对于捕捉组织学中的巨大多样性和异质性非常重要和有益,但对于仅存在少数几个示例的罕见诊断或对于预测小队列患者结果的临床试验而言,这些数据集的编制是困难的。
此外,要从ROI或补丁级别的预测生成切片级预测,弱监督全切片分类方法通常需要选择一个固定的、预定义的聚合函数(例如,对ROIs进行最大池化或平均),可能不适用于二进制肿瘤与正常分类和多类组织亚型分类问题,其中正常组织切片不可用。
此外,当使用补丁级监督进行训练时,深度学习诊断模型在测试来自不同来源和成像设备的数据时的性能已显示出下降【35,36】。这些方法还需要具有可解释性,并具有显著定位用于做出预测决定的区域的能力。
总结而言,为了在临床和研究设置中更广泛地适应计算病理学,需要不要求手动ROI提取、像素/补丁级标注或简单采样的方法,这些方法仍然数据高效、可解释、适应性强,并且普遍适用于二进制分类和多类亚型问题。
在这篇文章中,作者提出了聚类约束注意力多种实例学习(CLAM)作为高通量的深度学习框架,旨在解决上述全切片级计算病理学的主要挑战。
在三个独立的分析(肾细胞癌(RCC)和非小细胞肺癌(NSCLC)亚型分类以及淋巴结转移的检测)中使用公共可用数据集以及独立测试队列,作者展示了作者的方法在数据效率高,并且可以在使用系统性减少的训练标签数量的情况下,在不同的任务中实现高性能。
作者通过展示在组织切除WSIs上训练的模型可以直接应用于活检WSIs以及使用消费者级智能手机拍摄的显微照片,来证明CLAM的适应性。
作者还证明了CLAM可以泛化到多类分类和亚型问题,以及通常在弱监督设置中研究的二进制肿瘤与正常分类任务。
作者的研究提供了一个计算病理学框架,该框架将基于注意力的多种实例聚合【37】扩展到不需要任何像素级标注、ROI提取或采样的通用多类弱监督WSI分类。
作者首先使用转移学习和具有预训练参数的卷积神经网络(CNN)编码器进行降维,使这成为可能,这也大大提高了模型训练的速度。通过使用基于注意力的学习,CLAM能够在不使用任何像素级标注进行训练的情况下,产生可解释的热图,使临床医生能够为每个切片可视化每个组织区域对模型预测的相对贡献和重要性。
这些热图显示,模型能够在没有使用正常切片或ROIs进行训练的情况下,识别出病理学家用来做出诊断决定的众所周知的形态学特征,并且能够区分肿瘤和相邻的正常组织。CLAM作为易于使用的Python包在GitHub上公开可用(https://github.com/mahmoodlab/CLAM),并且可以在作者的交互式演示中查看全切片级注意力图(http://clam.mahmoodlab.org)。
CLAM是一种基于深度学习的弱监督方法,它利用基于注意力的学习自动识别具有高诊断价值的子区域,以准确地对整个切片进行分类,同时允许在识别的代表区域上使用实例级聚类来约束和优化特征空间。
在标准的MIL公式和一般的弱监督学习范式下,开发高性能的计算病理学机器学习分类器的一个主要挑战是标签WSI数据的次优使用。例如,当仅知道切片级标签时,尽管可以访问每个WSI的许多(多达数十万个)实例或补丁,标准的MIL算法使用最大池化,因此每个切片只有一个实例的梯度信号用于更新神经网络模型的学习参数。
这一缺陷可能部分解释了为什么经验上,使用MIL训练的深度学习模型需要观察大量在切片级注释的示例WSIs,才能为相对简单的二分类任务实现高性能【36】。
另一方面,尽管将切片级标签分配给切片中的每个补丁,并将其视为独立的训练示例可以最大化标签数据点的数量,但由于使用了噪声标签,这可能不会提升模型性能。
对于无标注的切片级学习,CLAM使用基于注意力的池化函数将补丁级特征聚合为切片级表示以进行分类。
在高级别上,在训练和推理期间,模型检查并排列WSI组织区域中的所有补丁,为每个补丁分配一个注意力分数,这反映了它对特定类别的集体切片级表示的贡献或重要性(图1)。
图1提供了CLAM(聚类约束注意力多重实例学习)概念框架、架构和可解释性的概述。
a. 在组织区域分割之后(左图),从WSI(全切片图像)中提取图像块(右图)。这意味着首先对WSI中的组织区域进行自动分割,然后在这些区域内提取出可以代表整个区域的小图像块。
b. 这些图像块通过预训练的CNN(卷积神经网络)进行编码,转换成描述性特征表示。在训练和推理过程中,每个WSI中提取的图像块作为特征向量输入到CLAM模型中。模型使用注意力网络将块级别的信息聚合成幻灯片级别的表示,这些表示用于做出最终的诊断预测。
c. 对于每个类别,注意力网络对幻灯片中的每个区域进行排序,并根据其对幻灯片级别诊断的相对重要性分配注意力分数(左图)。注意力池化根据各自的注意力分数对图像块进行加权,并将块级别的特征汇总成幻灯片级别的表示(右下角)。在训练期间,给定真实标签,高度关注的(红色)和关注度低的(蓝色)区域可以作为代表性样本,用于指导聚类层学习丰富的块级别特征空间,以区分不同类别的阳性和阴性实例(右上角)。
d. 注意力分数可以可视化为热图,以识别感兴趣区域(ROIs),并解释用于诊断的重要形态学特征。这意味着通过热图的方式,可以直观地展示模型在做出诊断决策时所侧重的图像区域,其中高关注度的区域(红色)表示对诊断结果影响较大的特征区域。
总体而言,CLAM模型通过注意力机制和聚类层的结合,提高了模型在病理图像分析中的性能和可解释性,使得模型能够自动发现并侧重于对诊断有价值的区域,同时忽略那些对诊断帮助不大的区域。
这种对注意力分数的解释体现在基于注意力的池化的切片级聚合规则中,该规则计算切片级表示作为切片中所有补丁的加权平均值,权重为各自的注意力分数。与标准MIL算法【36-38】不同,后者被设计和广泛用于弱监督的正/负二分类(例如,癌症与正常),CLAM被设计用来解决通用的多类分类问题。
CLAM模型有N个并行的注意力分支,它们共同计算N个独特的切片级表示,其中每个表示由网络视为N类中的多类诊断任务强阳性证据的不同集合的高度关注区域确定(图1b,c)。然后分类层检查每个类别特定的切片表示,以获得整个切片的最终概率分数预测。
除了采用基于注意力的池化【37】聚合规则以替代最大池化,作者还探索了额外的手段来解决计算病理学现有弱监督学习算法中的数据效率问题。
具体来说,作者利用切片级真实标签和网络预测的注意力分数为高度和弱度关注的补丁生成伪标签,作为一种增加学习可分离补丁级特征空间的监督信号的技术。在训练过程中,网络从额外的监督学习任务中学习,该任务将每个类别最多和最少关注的补丁分离到不同的簇中。
此外,还可以将领域知识纳入实例级聚类中,以增加进一步的监督。例如,癌症亚型在分类过程中通常是互斥的或被认为是互斥的。如果采用互斥性假设,除了监督存在真实类别的注意力分支外,可以将对应于其余类别的注意力网络分支通过将它们高度关注的实例聚类为“假阳性”(即阴性)证据来监督。
为了使CLAM成为一个研究人员可以轻松采用和利用的高通量流程,而不需要专用的 高性能计算集群,作者还提出并开放了一个易于使用的WSI处理和学习工具箱。
作者的流程首先自动分割每个切片的组织区域,并将其划分为许多较小的补丁(例如,256×256像素),以便它们可以直接作为CNN的输入(图1a)。接下来,使用CNN进行特征提取,作者将所有组织补丁转换为低维特征嵌入集(图1b)。
在此特征提取之后,训练和推理都可以在低维特征空间而不是高维像素空间中进行。数据空间的体积减少了近200倍,作者可以大幅减少随后训练监督深度学习模型所需的计算量。作者发现,在低维特征空间中工作使得在现代工作站上使用消费者级图形处理单元(GPUs)在几小时内对数千个吉像素大小的切除切片进行模型训练成为可能。
在后续部分,作者展示了CLAM在三个不同的计算病理学问题上的数据效率、适应性和可解释性:
- (1)RCC亚型分类
- (2)NSCLC亚型分类
- (3)乳腺癌淋巴结转移的检测
作者还展示了在WSIs上训练的CLAM模型适用于智能手机显微镜图像和活检切片。
二、结果分析
2-1:数据集大小依赖的交叉验证模型性能
本研究通过10折蒙特卡洛交叉验证评估了CLAM在上述三个临床诊断任务中的切片级分类性能。
每个交叉验证折中,作者将每个公共WSI数据集随机划分为训练集(80%的病例)、验证集(10%的病例)和测试集(10%的病例),并按类别进行分层。
在每种折叠中,模型在验证集上的表现用于训练期间的监控和模型选择,而测试集在训练完成后保留一次,用于评估模型。
在癌症基因组图谱(TCGA)肾细胞癌(RCC)数据集上(图2a),模型在三种RCC亚型(乳头状(PRCC)、嫌色性(CRCC)和透明细胞RCC(CCRCC))的×20放大倍数下,实现了10折平均测试曲线下面积(AUC)为0.991±0.004。
对于每个亚型的对一余一AUC,请参见补充图1。
在结合TCGA和临床蛋白质组肿瘤分析联盟(CPTAC)的非小细胞肺癌(NSCLC)数据集上,对于肺腺癌(LUAD)和鳞状细胞癌(LUSC)的二分类,模型在×20放大倍数下实现了平均测试AUC为0.956±0.020(图2b)。
在CAMELYON16和CAMELYON17组合数据集上,对于腋窝淋巴结中的乳腺癌转移检测,模型在×40放大倍数下实现了平均测试AUC为0.953±0.029(图2c)。
其他性能指标报告在补充表1-3中。
作者所有的训练数据均来自公开可用的来源,尽管这些数据集代表了最大的公开WSI数据集,但它们的大小仅为最近几项研究中研究的专有标记数据集的5-10倍。
然而,尽管使用的数据集大小适中(分别为884、1967和899张切片,其中每个折叠中大约80%用于训练),在所有三个任务上均实现了高于0.95的AUC,表明作者的方法可以有效应用于解决各种组织类型的传统正负癌症检测二分类和更通用的多类癌症亚型问题。
由于标记WSI数据难以获取,对于罕见疾病(例如CRCC)、异常发现或临床试验的背景下,收集成千上万的切片可能并不可行。鉴于这些限制,为了调查作者模型的数据效率,作者依次对每个交叉验证中创建的训练数据集的75%、50%、25%和10%的病例进行抽样。
对于每个子抽样训练集,其相应的测试集保持不变,以调查模型性能与可用训练数据量的依赖性。作者还保持了每个相应的验证集不变,以避免将模型选择标准作为测试性能的额外混杂变量。当使用较小的训练数据样本监督CLAM模型时,作者观察到达到满意性能(AUC>0.9)所需的切片数量取决于分类任务。
例如,仅需要总可用训练病例的25%(平均每个交叉验证折叠中大约170张切片)就能在RCC亚型分类上实现高于0.94的平均测试AUC,而对于NSCLC分类和淋巴结转移检测,分别可能需要肺部训练集的25%(419张切片)和淋巴结转移数据集的50%(289张切片)。
最后,为了调查注意力池化相较于最大池化的价值,作者将CLAM与MIL和另一种流行的弱监督方法(将每个切片的标签简单地赋予每个补丁,记为“相同标签”SL)进行了比较。
在作者的比较研究中,作者发现CLAM在所有任务和训练集大小上始终优于基于最大池化的算法(图2d-f)。
当用于训练的切片较少时,CLAM、最大池化算法和SL之间的AUC差异更为显著。
例如,SL在100%和75%训练数据上对RCC亚型分类表现出了合理的性能,这可能是由于TCGA RCC数据集中肿瘤含量高,意味着SL在将切片级诊断分配给每个WSI的所有区域时使用的多数训练标签将是正确的。
另一方面,SL在淋巴结转移检测上的表现较差,因为转移区域可能小而稀疏,这导致在将切片级标签简单地分配给每个切片的组织位置时产生大量标签噪声。
总体而言,作者注意到CLAM是数据高效的,因为它通常能够仅使用几百张切片进行训练就实现测试AUC>0.9。为了调查CLAM中实例级聚类是否有助于提高数据效率,作者对所有疾病模型在不同大小的训练集上进行了消融研究,并观察到当训练集大小较小时,与仅使用包级监督相比,额外的实例级监督可以提高模型性能(补充表4)。
作者还进行了实验,以在60/10/30和40/10/50的分割下而不是80/10/10的训练/验证/测试分割下,评估不同算法在数据约束下的性能,这允许在更大的测试集上评估模型(补充表5)。
为了与未来的研究进行比较,作者在公开可用的TCGA、CPTAC和CAMELYON数据集上进行了额外的实验(补充表6提供了详细信息)。此外,作者还分析了CLAM在更广泛的文献背景下的性能,这些文献是在作者用于这三个不同诊断任务的公开数据集上评估的(补充表7)。
首先,作者将CLAM应用于公共的CAMELYON16淋巴结转移检测挑战。
作者在官方训练集上进行训练(没有使用任何提供的像素级注释),并将270张WSI分割为大约85%的训练和15%的验证。
作者的最佳模型在官方测试集(129张WSI)上实现了测试AUC为0.936(95%置信区间(CI):0.890–0.983)。这是令人鼓舞的结果,因为训练过程中没有使用任何像素级标签。
同样,作者在仅使用TCGA诊断WSI上训练CLAM模型进行NSCLC亚型分类,其中15%的病例(80张LUAD和81张LUSC WSI)被保留为测试集,其余数据被分为85%的训练和15%的验证。该模型在测试集上实现了测试AUC为0.963(95% CI:0.937–0.990)。
总的来说,这些结果表明CLAM在处理和分析全切片图像时,能够实现高水平的性能,并且在数据效率上表现出色,即使在训练数据有限的情况下也能够取得令人满意的性能。
此外,CLAM的可解释性也是一个重要的优点,因为它能够为每个切片生成注意力热图,帮助临床医生理解模型预测的依据。这使得CLAM成为一个有前景的计算病理学工具,可以广泛应用于临床诊断和研究领域。
2-2:泛化到独立测试队列
由于组织处理、切片制备和数字化的机构标准和协议不同,WSI在图像外观上可能存在很大差异。因此,重要的是验证使用公开可用数据源的CLAM弱监督框架训练的模型是否对数据特定的变量具有鲁棒性,并且能够推广到在训练期间未遇到的扫描仪和染色协议产生的真实世界临床数据。
作者在Brigham and Women’s Hospital (BWH)收集并扫描了135张肾细胞癌(CRCC, 43; CCRCC, 46; 和 PRCC, 46)、131张非小细胞肺癌(LUAD, 63; 和 LUSC, 68)和133张淋巴结(阴性, 66; 和阳性, 67)全切片作为独立的测试队列,以评估作者训练的模型的泛化性能(在方法和补充表8中进一步解释)。
对于每个任务和训练集大小,作者在公共数据集上进行交叉验证时训练的十个模型直接在完全保留的独立测试集上进行评估。作者观察到,对于较小的训练集大小,不同模型的交叉验证性能变异通常更大,在这种情况下,使用单个最佳表现模型进行测试可能会给人一种数据效率的错觉,尽管在独立测试集上的算法性能可能不一致,并且在使用不同训练数据随机分割开发的不同模型之间变化很大。
为了适应这一点,作者使用所有十个模型的平均性能(而不是单个选定的模型)来估计作者算法在每个训练集大小上的性能。当在独立测试队列上进行测试时,使用100%的训练集进行10折交叉验证的CLAM模型在RCC亚型分类上实现了平均一元对余一AUC(宏观平均)为0.972±0.008,在NSCLC亚型分类上实现了平均AUC为0.975±0.007,在检测腋窝淋巴结转移上实现了平均AUC为0.940±0.015(图3a–c)。
此外,作者观察到,甚至在仅学习了几百张切片的独立源数据上,CLAM模型也可以实现令人惊讶的性能(测试AUC>0.9)(图3d–f)。
当与mMIL/MIL和SL进行比较时,CLAM在所有任务和训练集大小上都表现出了改进的性能(图3d–f顶部和中部),尤其是在训练数据受限的情况下。例如,当使用25%的完整训练集进行训练时,CLAM在RCC亚型分类、NSCLC亚型分类和淋巴结转移检测的平均测试AUC分别比MIL/mMIL高出14.2%、5.77%和29.2%,比SL高出7.32%、16.6%和29.7%(对于使用其他分类指标的比较,请参见补充表9–11)。此外,作者还观察到,随着训练集大小的减少,CLAM模型的平均自信心降低(图3d–f底部),这通常比在它们观察到的较小训练集上严重且错误地过度拟合的不准确但过度自信的模型更可取。
对于NSCLC和RCC亚型分类,必须适应公共数据集TCGA和CPTAC在内部Hamamatsu扫描仪产生的与用于数字化训练数据的Aperio扫描仪不同的微米每像素(m.p.p.)分辨率。
尽管TCGA RCC和NSCLC以及CPTAC NSCLC的大多数WSI具有接近0.5的×20等效m.p.p.,但内部WSI具有0.44的×20等效m.p.p.。在内部NSCLC肺部数据集上,作者还测试了一种机制,在测试时通过将图像补丁下采样到接近0.5的m.p.p.,以标准化分辨率。然而,使用这种技术时,平均测试AUC仅提高到0.979±0.005。
为了进一步调查由不同扫描仪硬件引入的变异性,作者使用额外的3DHistech MiraxScan 150扫描仪对所有内部肺部切除切片进行数字化,该扫描仪产生的m.p.p.为0.328。作者发现,尽管3DHistech扫描仪与用于数字化公共训练数据的Aperio扫描仪之间的m.p.p.分辨率存在巨大差异,但作者的模型仍能在新的扫描仪原生扫描分辨率上实现平均测试AUC为0.910±0.022。
另一方面,通过将3DHistech扫描的图像补丁标准化到0.5的m.p.p.,作者提高了测试AUC到0.965±0.006。这些结果合理地表明,作者提出的弱监督学习框架对扫描仪硬件的变异性具有很强的鲁棒性,同时也说明了在评估新数据源的切片时,尤其是当训练数据和测试数据的m.p.p.差异很大时,m.p.p.标准化的重要性。
总体而言,作者的研究结果非常鼓舞人心,并为使用CLAM、来自多个机构(具有特定来源的变异性)的适度大小数据集和多样化的患者分布(例如,TCGA)来开发准确、弱监督的计算机辅助诊断模型提供了支持。这些模型能够推广到真实世界的临床数据。
为了在实际临床部署中获得最佳性能,作者建议将多个模型的诊断预测进行集成,而不是选择单个模型。这与那些需要为每个模型调整特征编码器的计算成本较高的方法不同,作者只需对数据执行一次特征提取。在所有独立测试队列上训练的CLAM模型的集成性能(95% CI)在补充图3和补充表12–14中得到了展示。
2-3:解释性和全切片图像注意可视化
训练的弱监督深度学习分类器的人类可读解释性可以验证模型的预测基础与病理学家使用的已知形态学是否一致,并可用于分析失败案例。此外,全切片级别的热图可用于人工智能辅助的人机交互临床诊断。
CLAM模型通过首先识别和聚合WSI中具有高诊断重要性(高注意力分数)的区域,同时忽略低诊断相关性(低注意力分数)的区域,从而进行切片级预测。为了可视化和解释WSI中每个区域的重要性,作者可以将模型的预测类别的注意力分数转换为百分位数,并将标准化分数映射到原始切片的相应空间位置,从而生成注意力热图。可以使用重叠补丁(例如,95%的重叠)来创建精细的注意力热图,并通过在重叠区域中平均注意力分数来生成(参见补充图4中不同重叠度热图视觉质量的讨论)。
尽管在训练过程中从未使用像素级或补丁级标注来明确告知模型每个区域是否为肿瘤组织(如果是,属于哪种肿瘤亚型),作者观察到,通过仅使用切片级标签进行弱监督学习,训练的CLAM模型通常能够区分肿瘤和正常组织(图4a–c;有关高分辨率热图的交互式演示,请访问http://clam.mahmoodlab.org)。
这对于RCC和NSCLC亚型分类尤为重要,因为从TCGA收集的所有训练数据都是阳性病例,并包含肿瘤区域。这一发现表明,CLAM具有潜在的用途,可以用于临床或研究目的的癌症亚型问题的有意义的全切片级别解释性和可视化,而无需在训练过程中观察阴性案例(这需要收集相邻正常组织的切片或手动注释阳性切片中的阴性区域)。
同样重要的是,高注意力区域通常与病理学家已经建立和认可的所有三个分类任务中的形态学相一致(图4a–c)。例如,为NSCLC亚型分类训练的CLAM模型突出显示了突出的细胞间桥和角化,并将其作为LUSC(图4b)的强证据(高注意力),与人类病理学专业知识一致。
此外,作者还检查了与相应细胞角蛋白(AE1/AE3)免疫组织化学染色相对应的模型的注意力热图,以进一步验证其在淋巴结转移的代表性案例中的预测基础(补充图5)。这些热图也可以用于分析和调查错误分类的切片。作者在内部独立测试数据中遇到了一些具有挑战性的案例,在这些案例中,模型为预测选择的高注意力补丁未能清晰地指示正确的类别,原因是肿瘤细胞的分化较差或肿瘤结构的界线上下文线索有限(补充图6)。对于淋巴结转移的检测,假阳性预测通常突出显示了模仿肿瘤细胞程度较大的大上皮样组织细胞,而假阴性通常源于微转移中的小孤立肿瘤细胞簇和孤立肿瘤细胞。
尽管具有实际用途,但应注意不要过分依赖注意力热图,期望它们可以作为像素级的分割掩膜;直观上,切片中每个区域的注意力分数是相对的,仅仅代表模型对哪些区域在确定切片级预测时更重要(相对于其他区域)的理解。
然而,这种简单直观的解释性和可视化技术可以为研究人员提供关于模型预测中驱动形态学模式的见解;进一步的定量研究还发现,当评估作者的内部切除切片时,注意力热图在所有任务上与病理学家标注的肿瘤区域具有高度的一致性(补充图7)。
为了增强解释性,作者进一步研究了CLAM模型学习到的补丁级特征空间。作者从每个切片的独立测试队列中随机采样一部分补丁,使用主成分分析(PCA)将它们学习的实例级512维特征表示降低到二维,并检查网络的聚类层分配的类预测(补充图8)。
对于RCC和NSCLC切片,不同预测类别的补丁在特征空间中分离成不同的簇,并显示出各自亚型的形态学特征。对于腋窝淋巴结转移的检测,预测为正簇的采样补丁包括肿瘤组织,而负(不确定)补丁捕获了包括正常组织和密集免疫细胞群体的广泛形态学。
2-4:适应智能手机显微镜图像的能力
作者还探索了作者的模型(仅在WSIs上训练)是否能够直接适应使用智能手机摄像头捕获的显微镜图像(通常称为显微照片)。
在资源有限、缺乏病理学家专业知识的情况下,通常使用连接到传统显微镜的智能手机拍摄咨询病例。基于智能手机显微镜图像训练的深度学习分类器可能需要进行耗时且繁琐的手动标注大量标记的ROI集。这些ROI不仅要代表潜在的病理学条件,还要捕捉广泛的组织部位和患者特定的外观和伪影,以确保模型能够适应组织病理学切片和WSIs固有的异质性。
因此,一个在WSIs上训练的稳健模型,能够直接适应手机图像(CPIs)并提供准确的自动诊断,对于远程病理学的更广泛采用具有极大的价值。
作为作者模型适应性研究的一部分,作者从独立测试队列中的每个切片捕获了4-8个视场(FOVs),使用消费级iPhone X智能手机摄像头,并使用所有FOV ROI的补丁由模型预测切片级标签。
从每个切片选择不同数量的FOVs,以覆盖与诊断相关的必要组织区域。CLAM在NSCLC CPI数据集上实现了平均测试AUC为0.873±0.025,在RCC CPI数据集上实现了平均一元对余一宏观平均AUC为0.921±0.023(图5b、c和补充表15、16)。
与在WSIs上测试的性能相比(图5d),性能的下降可能归因于CPIs捕获的不完美条件(焦点不佳、非均匀照明、噪声伪影、暗角、颜色偏移、放大变化等)。
尽管可以通过使用传统和基于深度学习的图像处理技术(例如,基于深度卷积对抗生成模型的染色标准化)来减少这些不利因素,但作者没有尝试校正或标准化图像,以便测试模型的稳健性和适应性,并保持处理时间和计算成本低,以便可能直接在智能手机硬件上进行推断。
尽管存在这些具有挑战性的变量,作者发现,在大多数情况下,模型仍然能够准确地关注FOV中表现出每种癌症亚型已知形态学特征的区域(图5e、f)。
此外,在模型从WSIs学习到的特征空间中,不同类别仍然可以明显地分离成不同的簇(图5g、h)。这些结果增加了作者对作者的弱监督学习框架在远程病理学领域的潜在更广泛适用性的信心。
2-5:适应从切除到活检的网络
在作者研究中用于训练的公开WSIs都是切除样本。与切除组织相比,核心针穿刺的样本通常在大小上要小得多。有限的组织内容以及由于压碎伪影引起的细胞扭曲可能会挑战模型的诊断能力。
因此,鉴于作者在训练过程中没有使用活检切片,重要的是要调查是否仅在切除数据上训练的模型可以直接适应活检切片并做出准确的诊断预测。作者在BWH收集了110张肺(55张LUAD和55张LUSC)和92张肾脏活检切片作为作者的独立测试队列,并直接测试了作者已经在公开可用的切除数据上训练的模型。每个切片包含一个或多个嵌入的活检样本,对于肺活检WSI,活检样本的数量从1到6不等,对于肾脏活检WSI,活检样本的数量从1到5不等(补充表17)。
对于每个WSI,将所有嵌入在切片中的活检样本的组织区域提供给模型作为输入,以在WSI级别进行评估。在肺活检测试集上,CLAM实现了平均AUC为0.902±0.016,在肾脏活检测试集上,平均一元对余一宏观平均测试AUC为0.951±0.011(图6b、c和补充表18、19)。
这些结果非常鼓舞人心,因为许多活检切片,尤其是肺活检数据集,含有分化不良的肿瘤,这使得仅凭苏木精和伊红(H&E)染色,病理学家很难或不可能准确诊断(不使用免疫组织化学)。
此外,为了评估作者的模型在潜在真实世界完全自动化的计算机辅助诊断中的适用性,在测试活检切片时,作者没有手动选择含有高肿瘤含量的ROI,以避免模型接触非肿瘤特征(血管、炎症、坏死区域等)【35】,这些特征可能会导致误分类。
作者还没有在作者的测试集上进行任何预处理技术,如染色标准化,并在评估时使用了每个切片的整个组织区域。使用与之前相同的可视化和解释性技术,作者为每个亚型生成了注意力热图(图6d、e)。
作者继续观察到,尽管肿瘤通常占据的组织区域比切除切片中的区域更小且更稀疏,但训练的CLAM模型突出显示的区域与病理学家标注的肿瘤区域之间仍然存在高度相似性。
三、讨论
总的来说,作者展示了CLAM解决了计算病理学中的几个关键挑战。
具体而言,作者的分析表明,CLAM可以仅使用切片级标签,而无需任何额外标注,用于训练可解释、高性能的深度学习模型,用于二元和多类WSI分类。使用CLAM,作者还能展示整个WSI的高分辨率解释性热图,这可能用于研究应用中的解释性工具,以识别与治疗反应和耐药性相关的形态学特征,或者作为解剖病理学中二次意见的视觉化工具,以突出ROI。
尽管CLAM中基于注意力的池化为模型提供了选择性地聚合来自多个相关ROI的信息以指导切片级诊断的灵活性,但CLAM和基于MIL的方法在弱监督分类中的一个局限性是,它们通常将切片中的不同位置视为独立的区域,并不学习实例之间的潜在非线性交互,这可能有助于模型变得更加情境感知。
未来的工作之一将关注扩展提出的弱监督框架以解决计算病理学中的其他问题,并开发更情境感知的方法。
此外,尽管通过端到端地微调特征编码器和广泛的数据增强可能会导致性能的进一步改善,但涉及与原始图像像素空间一起工作的端到端训练预计将大幅增加所需的总体训练时间和计算资源。
相比之下,使用低维特征表示使得可以进行大规模实验,并允许作者通过广泛的10折交叉验证对不同弱监督学习算法的数据效率进行详细分析。然而,这为未来的方法留下了空间,这些方法将能够灵活地在寻求最大化模型表达性(特别是在有大量多样数据集可用以遏制过拟合时)的端到端训练和计算上高效地使用特征表示的弱监督学习之间取得平衡。
最后,未来研究需要解决和调查的其他挑战包括开发数据高效的弱监督方法用于生存预测、在噪声标签下学习、分化不良的病例、混合癌症亚型以及从极少量标记数据(例如,少于十个案例)进行预测,以及带有不确定性估计的预测和人类在环决策制定。
弱监督计算病理学更接近临床适应,因为它只需要为临床目的收集的切片级或患者级标签。
作者方法带来的数据效率改进有助于减少弱监督与训练所需标记整个切片数量之间的权衡。尽管大规模多样数据集对于尽可能多地捕捉数据分布中的异质性非常有价值,但数据高效的整个切片训练对于在罕见条件下以及在小队列现有患者案例中预测治疗反应或耐药性进行患者分层以进行临床试验至关重要。
在作者的研究中,作者发现CLAM确实能够将患者分为主要和相对稀少的类别(例如,CCRCC与CRCC)。展望未来,作者期待在更广泛的问题上验证CLAM,并乐观地认为CLAM在WSI切除分类以外的应用中也有潜在的用途。
例如,作者发现使用CLAM和弱监督训练的模型对独立数据源、活检切片、不同的扫描硬件和智能手机显微镜图像高度适应,而无需使用任何形式的领域适应或微调。这些重要的属性应该允许研究人员使用CLAM模型在训练过程中遇到最大组织内容多样性的切除切片(平均组织覆盖:142mm2,11,182个补丁),并在后期具有适应活检(平均组织覆盖:15.6 mm2,1,225个补丁)的灵活性。
同样,CLAM模型在覆盖大量组织体积的WSI上训练后,能够适应具有有限FOV的CPI,并有可能在远程资源受限的设置中实现远程病理学的常规使用,其中咨询病例通常通过连接到明场显微镜的消费级智能手机进行成像。
总的来说,作者希望作者的研究和方法将为研究人员提供新的途径,利用常规组织病理学标本的全切片图像解决诊断和研究问题,从而提高临床护理并促进计算病理学中的知识发现。
四、方法
4-1:计算硬件和软件
作者使用多个硬盘来存储数字化全切片图像的原始文件。
WSI的分割和补丁化在Intel Xeon CPU上进行,并通过跨多个NVIDIA P100 GPU的数据批并行化在Google Cloud Compute实例或本地工作站的2080 Ti GPU上加速了使用预训练神经网络模型的特征提取。
所有弱监督深度学习模型都在本地、消费级工作站的NVIDIA 2080 Ti GPU上总共训练了十个,通过流式传输从快速的本地固态驱动存储中提取的特征。
全切片处理管道用Python(版本3.7.5)实现,并利用了图像处理库,如openslide(版本3.4.1)、opencv(版本4.1.1)和pillow(版本6.2.1)。使用CLAM加载数据和训练深度学习模型时,作者使用了Pytorch(版本1.3.1)深度学习库。
基于消费级硬件,作者还分析了CLAM在执行作者内部WSI数据的流式推理时的运行时间。在一个本地工作站上,使用两个NVIDIA 2080 Ti GPU,平均而言,使用非重叠补丁,CLAM需要106.26秒(推理时间为41.46秒,生成和保存热图时间为64.8秒)来处理一个×20切除WSI,而对于一个×20活检WSI,需要15.65秒(推理时间为4.42秒,热图生成时间为11.23秒)。
请注意,推理速度包括执行组织分割、提取补丁、提取特征和进行分类的时间,热图在×10放大倍数下生成和保存。在作者的交互式演示中显示的高重叠(95%)和高分辨率(×10)WSI热图需要多次运行,分为许多补丁的迷你批次,每个×20切除切片生成和保存时间为5,445秒,每个×20活检切片生成和保存时间为279秒。生成基于大量重叠补丁的高分辨率热图所需的计算时间可能通过使用生产级硬件和更高效的软件并行化显著减少。
所有图都使用matplotlib(版本3.1.1)和seaborn(版本0.8.1)生成。接收器操作特征曲线的AUC估计使用了Mann–Whitney U统计量,其算法实现由scikit-learn科学计算库(版本0.22.1)提供。真AUC的95%置信区间使用R(版本3.6.1)中的pROC(版本1.16.2)实现的DeLong方法计算。
4-2:WSI数据集
所有使用的数据集的汇总包含在补充表8中。
对于内部测试数据,作者从BWH病理档案中查询并随机抽取了案例,并请求内部病理档案(2016-2019年)。
作者请求了每个问题150例切除病例,以及NSCLC和RCC亚型分类的每个问题110例活检病例。作者根据研究时的时间地点可获得性接收了幻灯片,并在测试模型性能之前排除了覆盖组织区域的显著标记、损坏的幻灯片以及不包含肿瘤(对于RCC和NSCLC)的幻灯片;没有其他幻灯片被排除。
关于每个队列的更多信息在以下子节中给出。在公共数据集上使用10折蒙特卡洛交叉验证进行模型开发和评估时,随机创建训练/验证/测试数据集分区,其中来自同一患者病例的幻灯片被一起采样,以确保例如,来自同一病例的不同幻灯片不会被采样到训练和测试集。
每个患者病例的幻灯片数量可能不同,这意味着尽管所有十折的训练/验证/测试集始终具有相同数量的案件,但幻灯片的具体数量可能会有所不同。为了简洁,当作者提到交叉验证折叠中的训练或测试集的幻灯片数量时,作者指的是所有折叠的平均幻灯片数量。
公共RCC WSI数据集
作者的公共RCC数据集包括来自TCGA RCC存储库的884张诊断WSI,该存储库位于Kidney Chromophobe(TCGA-KICH)、Kidney CCRCC(TCGA-KIRC)和Kidney Renal Papillary Cell Carcinoma(TCGA-KIRP)项目中。
共有111张CRCC幻灯片来自99个案例,489张CCRCC幻灯片来自483个案例,284张PRCC幻灯片来自264个案例。在×20放大倍数下,每张幻灯片提取的平均补丁数量为13,907。
独立BWH RCC WSI数据集
作者的内部RCC数据集包括来自133个案例的135张WSI,其中43张为CRCC,46张为CCRCC,46张为PRCC。
在×20放大倍数下,每张幻灯片提取的平均补丁数量为20,394。作者的RCC活检数据集包括来自79个案例的92张WSI,其中13张为CRCC,53张为CCRCC,26张为PRCC。CRCC活检样本的大小受限于该罕见条件的患者病例可用性(代表了所有RCC病例中大约5%,只有少数活检病例)。
在×20放大倍数下,每张幻灯片提取的平均补丁数量为1,709。作者的RCC智能手机数据集包括135张幻灯片的每张幻灯片4-8个视场。对于每组视场,提取的平均补丁数量为419。所有幻灯片均于2016年至2019年在BWH收集和处理。
公共NSCLC WSI数据集
作者的公共NSCLC数据集包括来自TCGA NSCLC存储库的993张诊断WSI,该存储库位于TCGA-LUSC和TCGA-LUAD项目中。共有507张LUAD幻灯片来自444个案例,486张LUSC幻灯片来自452个案例。
此外,作者在研究时从TCIA CPTAC病理门户收集了总共1,526张WSI,这些WSI的拓扑位置为肺。从这些WSI中,有668张来自223个案例的幻灯片被标记为LUAD,306张来自108个案例的幻灯片被标记为LUSC。其余552张幻灯片被标记为正常组织并被排除。
因此,作者的公共肺部数据集包含总共1,967张WSI(1,175张LUAD幻灯片来自667个案例,792张LUSC幻灯片来自560名患者)。在×20放大倍数下,每张幻灯片提取的平均补丁数量为9,958。
独立的BWH NSCLC WSI数据集
作者的内部NSCLC数据集包括总共131张切除(63张LUAD和68张LUSC)和110张活检(55张LUAD和55张LUSC)幻灯片。每张幻灯片都来自一个独特的案例。
在×20放大倍数下,每张活检幻灯片和每张切除幻灯片提取的平均补丁数量分别为820和24,714。所有幻灯片均于2016年至2019年在BWH收集和处理。作者的肺部智能手机数据集包括131张切除幻灯片的每张幻灯片4-8个视场。对于每组视场,提取的平均补丁数量为406。
此外,肺部切除幻灯片使用3DHistech MiraxScan 150扫描,以调查对不同扫描硬件和变化的m.p.p.的适应性。
公共淋巴结WSI数据集
CAMELYON16和CAMELYON17(参考文献46)是两个最大的公开可用、注释的乳腺癌淋巴结转移检测数据集。
CAMELYON16包括270张标注的全切片用于训练,以及另一张129张幻灯片作为保留的官方测试集,收集在荷兰的Radboud大学医学中心和乌得勒支大学医学中心。
另一方面,CAMELYON17包括来自荷兰五个不同医疗中心的总共1,000张幻灯片。由于CAMELYON17官方测试集的500张幻灯片的切片级标签尚未公开,作者只使用了CAMELYON17的训练部分,它包括500张幻灯片(对应于切片级诊断)用于100个案例。
作者将CAMELYON16和CAMELYON17合并为一个数据集,总共899张幻灯片(591张阴性幻灯片和308张阳性幻灯片)来自499个案例。在×40放大倍数下,每张幻灯片提取的平均补丁数量为41,802。
独立的BWH淋巴结转移(乳腺癌)WSI数据集
作者的内部乳腺癌淋巴结转移数据集包括总共133张WSI,来自131个案例(66张阴性幻灯片和67张阳性幻灯片)。
在×40放大倍数下,每张幻灯片提取的平均补丁数量为51,426。
这些幻灯片于2017年至2019年在BWH收集。
4-3:全切片图像处理
分割
对于每个数字化的幻灯片,作者的流程从自动分割组织区域开始。全切片以降采样分辨率(例如,32×降采样)读入内存,从RGB转换到HSV颜色空间。
基于图像饱和度通道的中值模糊后的阈值计算出组织区域(前景)的二进制掩膜,并进行了额外的形态学闭合,以填充小间隙和孔洞。然后,根据面积阈值过滤检测到的前景对象的大致轮廓,并为下游处理存储轮廓,同时为每个幻灯片提供分割掩膜,用于可选的视觉检查。
还自动生成一个人类可读的文本文件,包括处理过的文件列表以及包含一组关键分割参数的可编辑字段。尽管默认参数通常足以进行可靠的组织分割,但用户也可以轻松手动编辑任何单个幻灯片的参数,如果发现其分割结果不满意。
补丁化
在分割之后,对于每个幻灯片,作者的算法从用户指定的放大倍数的分割前景轮廓内部广泛地裁剪出256×256的补丁,并使用hdf5分层数据格式存储图像补丁的堆栈、它们的坐标和幻灯片元数据。
根据每个WSI的大小和指定的放大倍数,从每个幻灯片中提取的补丁数量可以从数百个(在×20放大倍数下补丁化的活检幻灯片)到数十万个(在×40放大倍数下补丁化的大切除幻灯片)。
特征提取
在补丁化之后,作者使用深度卷积神经网络(CNN)为每个幻灯片的每个图像补丁计算低维特征表示。
具体来说,作者使用一个在ImageNet上预训练的ResNet50模型,并在网络的第三个残差块后使用自适应均值空间池化,将每个256×256的补丁转换为1,024维的特征向量,每个GPU使用128个批量的数据。使用提取的特征作为监督学习中深度学习模型的输入,包括训练时间显著加快和计算成本降低。这使得一旦提取了特征,就可以在几小时内训练一个深度学习模型,处理成千上万的全切片图像。
与使用原始像素相比,使用低维特征还使得可以将所有补丁(多达150,000或更多)同时放入单个消费级GPU的内存中,从而避免了采样补丁和使用噪声标签的需求。
4-4:可视化
展示切片级特征空间
对于每个公共WSI数据集,作者使用为交叉验证创建的十个训练集中的一个模型来计算每个幻灯片的512维切片级特征表示,用于模型对应的验证和测试集的切片级预测。
将结果的切片级特征向量通过PCA变换减少到二维空间进行可视化,并为每个点着色以表示其真实切片级标签。然后,作者重复此过程,对于在相同训练集的25%,50%和75%上训练的模型。
作者还对每个独立测试队列中的幻灯片进行了相同的分析,使用每个训练集大小下的最佳模型。
通过注意力热图解释模型预测
为了解释幻灯片不同区域对模型最终切片级预测的重要性,作者计算并保存了从幻灯片中提取的所有补丁的不归一化注意力分数(在应用softmax函数将其转换为概率分布之前),使用与模型预测的类对应的注意力分支。这些注意力分数被转换为百分位数分数,并缩放到0到1.0之间(其中1.0表示最关注的区域,0表示最不关注的区域)。
归一化的分数被转换为RGB颜色,并显示在幻灯片上,以可视化显示高关注的区域(红色表示正证据,相对于其他补丁对模型的预测有较高的贡献)和低关注的区域(蓝色表示相对于其他补丁对模型的预测贡献较低)。为了创建更精细的热图,作者将幻灯片或更小的ROI(例如,8,000×8,000)分割成256×256的补丁,并使用重叠。
然后,作者使用相同的颜色映射将ROI中每个补丁的原始分数转换为RGB颜色。为了确保由重叠补丁产生的归一化注意力分数可以直接与模型用于预测的非重叠补丁集进行比较,作者在计算每个补丁的百分位数分数时参考了整个幻灯片(无重叠)的未归一化注意力分数。
ROI热图以透明度值为0.5覆盖在原始WSI上,同时可视化原始H&E幻灯片中的底层形态结构。活检和ROI热图使用95%的重叠来生产。为了为CPIs生成精细的热图,使用了95%的重叠,并对每个图像进行了归一化。
展示补丁级特征空间
对于独立测试队列中的每个幻灯片,作者均匀随机采样其组织补丁的2%,并记录了每个N聚类分支的聚类概率预测以及经过第一全连接层后的512维特征表示。
对于亚型问题,聚类分支预测所有类别的概率小于0.5的补丁被标记为类不确定的,而其余补丁被标记为其正概率最高的类。
对于腋窝淋巴结转移检测,对应于正类的聚类分支用于标记补丁为阳性(正概率大于或等于0.5)和类不确定的(正概率小于0.5)。使用上述相同的技术,作者使用PCA将每个补丁级特征向量减少到二维。
注意力热图的定量评估
虽然从弱监督学习方式训练的CLAM模型生成的注意力热图不是为了进行像素级ROI注释,但为了评估在临床或研究环境中使用热图作为辅助注释器的可能性以及注意力的正确性,作者使用定量指标,包括Dice分数、交集和并集以及Cohen的κ,将单个CLAM模型产生的预测注意力热图与病理学家注释进行了评估。
对于每个疾病模型,作者要求两位解剖病理学家独立且彻底地使用注释工具Automated Slide Analysis Platform (ASAP)注释每个切片中的肿瘤区域,没有时间限制。对于腋窝淋巴结转移的注释,使用AE1/AE3免疫组织化学来协助确保不会遗漏小肿瘤区域(微转移)。
评估时,所有热图通过75%的重叠来分割补丁。通过动态阈值化从热图中产生二进制掩码,以符合现实世界中人类操作者可以自由调整显示阈值以识别连续和高关注区域的情况。每个热图都在没有病理学家注释的情况下进行阈值化。在二值化之后,应用了简单的后处理技术,包括形态学闭合和开放,以减少碎片化、闭合小孔洞并抑制小伪影。作者没有为淋巴结转移应用闭合和开放,因为微转移的存在可能会形成像素级岛屿,这些岛屿容易被这些操作破坏。
相反,作者轻微膨胀前景以连接相邻的碎片,并过滤出所有像素的注意力小于0.95的像素级岛屿。最后,尽管进行了广泛的检查,但仍不可能排除所有位于肿瘤区域内的负像素,因此作者使用一个组织分割算法来检测组织内的大空腔,并将这些区域从热图的评估中排除。
然而,作者指出,这不能自动识别所有空腔,尤其是如果它们很小,也没有考虑到在已注释的肿瘤区域内的小面积正常组织。所有疾病模型的两组病理学家注释结果总结在补充图7中。
定量评估结果表明,CLAM模型生成的注意力热图与病理学家注释之间存在较高的一致性,这表明CLAM模型能够识别病理学家在诊断过程中关注的已知形态学特征。此外,通过定量评估,作者还验证了CLAM模型生成的注意力热图的正确性,即它们可以准确地反映模型对不同区域重要性的理解。这些热图可以作为辅助工具,帮助临床医生在病理诊断中提供第二意见,或者在研究应用中用于识别与治疗反应和耐药性相关的形态学特征。
综上所述,CLAM模型的注意力热图不仅为模型提供了可解释性,还允许临床医生和研究人员通过可视化不同区域的重要性来深入理解模型的预测。这种可解释性是计算病理学中的一个重要组成部分,因为它有助于建立对模型预测的信任,并促进人类专家和机器学习模型之间的协作。
4-5:比较分析使用分配给每个补丁的切片级标签
在计算病理学中,当像素级或ROI级注释不可用时,另一种弱监督学习框架是简单地从每个WSI的组织区域中采样补丁,并为从该幻灯片中检索到的每个补丁分配切片级标签。作者在这项研究中将这种技术称为SL。
通过这种方式,训练集中所有WSI中采样的补丁可以简单地被视为训练时的独立标记数据点。由于没有任何注释来指导采样过程,这意味着可以从每个从该幻灯片中采样的补丁推断出切片级标签,这在大多数在WSI上进行的分类问题中是不合理且无法证明的,并导致标签噪声。
例如,在含有微转移的阳性淋巴结中,从幻灯片中采样的补丁中只有很小的一部分含有肿瘤,因此负责幻灯片的切片级标签,而所有剩余的负补丁都将被错误地标记为正,以用于训练。因此,人们可以预期SL的性能会受到标签噪声水平的限制,这与每个WSI中补丁的信噪比密切相关。
4-6:训练细节
在训练期间,使用批大小为512,从训练集中的幻灯片中随机采样补丁。
在验证和测试时间进行推理时,为了得到切片级预测,作者遵循先前的研究【35】,首先使用模型对幻灯片中的每个补丁进行预测,然后平均它们的概率分数。作者在每100,000个补丁后验证模型,并在连续20个验证周期内验证损失不下降时在模型上使用早期停止。使用验证集上验证损失最低的模型检查点进行测试集上的评估,这与作者用于MIL/mMIL和CLAM的模型选择标准一致。
同样,作者使用了交叉熵损失函数,并通过使用学习率为2×10−4、权重衰减为1×10−5的Adam优化器进行随机梯度下降来优化模型参数,其中β1=0.9,β2=0.999,ε值为1×10−8。
版权归原作者 罗小罗同学 所有, 如有侵权,请联系我们删除。