郑州大学团队借助AI分析120名患者多组学数据，揭示食管鳞状细胞癌的分子亚型及其临床意义｜顶刊精析·24-10-18

小罗碎碎念

这篇文章通过整合基因组和转录组分析，结合人工智能辅助的组织病理学图像分析，定义了食管鳞状细胞癌的四种亚型，并探讨了其分子特征和预后相关性。

这篇文章非常新，新到就是今天才发表的——2024-10-18发表于Nature Communications。

这篇文章给我的第一印象是它的工作量已经超出很多Nature Communications发表的同类型文章，感觉马上就要摸到Nature Medcine的门槛了，但是又差了一些，我很想知道差的这一点点在哪里。

另外，这篇文章21年投的，现在才发表，历时3年多，我很好奇这背后之间的故事……

PS：我可以先“剧透”两个原因，抛砖引玉一下，更多的原因就等待老师和同学们从不同角度去分析了：

（1）建模提取特征时用的算法是Inception-V3、Inception-ResNet-V2、DenseNet-121、VGG16和ResNet-50——我个人认为直接原因就是投稿周期太长，导致的模型的过时。

（2）文章配图细致但不够精美——我去看了画图的代码，jupyter装的R内核写的，不得不说作者的选题还有编程思维都是非常棒的，吃亏就吃在投稿周期了。为什么周期这么长呢？我想了想，可能是写到后面作者自己都有点晕，为什么呢？因为文章里都没有一个技术路线图来引导读者的思路——这就导致我推文写的很吃力，我估计那些审稿人读的也不会太轻松。

作者类型姓名单位名称第一作者Guozhong Jiang郑州大学第一附属医院病理科第一作者Zhizhong Wang郑州大学附属肿瘤医院 & 河南省肿瘤医院第一作者Zhenguo Cheng郑州大学基础医学院国家国际细胞与基因治疗研究中心第一作者Weiwei Wang中英分子肿瘤学研究中心，郑州大学通讯作者Wencai Li郑州大学第一附属医院病理科
郑州大学基础医学院国家国际细胞与基因治疗研究中心
河南省食管癌防治国家重点实验室通讯作者Jun Wang巴茨癌症研究所，伦敦玛丽女王大学通讯作者Yaohe Wang巴茨癌症研究所，伦敦玛丽女王大学

研究团队对120名中国ESCC患者进行了基因组和转录组特征分析，并结合人工智能辅助的组织病理学图像分析。研究发现ESCC可以分为分化型、代谢型、免疫原性和干性亚型，每种亚型都有特定的分子和组织病理学特征。

研究的主要发现包括：

ESCC的异质性很高，对其全面的分子和免疫景观的理解有限，这阻碍了个性化治疗策略的发展。
通过大批量和单细胞RNA测序，基于基因表达特征，ESCC被分为四种亚型：分化型、代谢型、免疫原性和干性亚型。
干性亚型具有预后最差的特征，与免疫活性下调、EP300基因的高频突变/激活、Wnt信号通路功能突变富集以及肿瘤内异质性水平最高有关。
通过转录组学和免疫组织化学分析，发现ESCC细胞高表达自然杀伤细胞标记物XCL1和CD160作为免疫逃逸的证据。
XCL1的表达还影响ESCC细胞对常见化疗药物的敏感性。
该研究为ESCC的治疗提供了新的途径，并为更好地理解ESCC提供了宝贵的公共资源。

此外，研究还探讨了ESCC的免疫微环境，并发现ESCC细胞高表达自然杀伤（NK）细胞标记物XCL1和CD160，这与较差的整体生存率相关。研究还发现，EP300基因的突变和表达与ESCC的干性/NK标记物XCL1相关签名有很强的正相关性，表明EP300可能在促进ESCC向更具侵略性的亚型转变中发挥作用。

总的来说，这项研究通过多组学分析，为ESCC的分子和免疫异质性提供了深入的理解，并为开发更有效的诊断和治疗方法铺平了道路。

一、引言

食管癌（EC）是一种具有高度侵袭性的疾病，全球每年约有509,000人死于该病，新发病例约为572,000例，2018年的发病率和死亡率均居全球前列1。

预计未来几十年，食管癌的全球发病率和死亡率将继续上升1,2。食管癌在亚洲和非洲的发病率最高，其中最常见的亚型为食管鳞状细胞癌（ESCC）1。

尽管治疗方法有所进步，包括新型靶向治疗和癌症免疫治疗，但ESCC的预后仍然不佳，五年生存率低于15%3,4。

治疗ESCC面临的主要挑战是疾病的侵袭性进展和晚期诊断。因此，研究ESCC的分子特征以识别早期诊断的生物标志物，以及影响疾病预后的关键分子改变，对于早期干预和改进治疗策略至关重要。

几项重要的国际研究在识别ESCC的分子景观和理解其分子机制方面取得了重要进展5–9。

研究突出了RTK/RAS/PI3K和WNT/Notch通路的常见失调、细胞周期调控、频繁突变的基因如TP53、FAT1、NOTCH1、KMT2D、NFE2L2和ZNF750，以及ESCC的表观遗传学改变10。然而，与ESCC异质性行为相关的遗传事件仍不清楚，导致缺乏用于预测预后或设计有效靶向治疗的可靠生物标志物。

此外，尽管免疫治疗药物在不久的将来将作为ESCC标准系统性治疗的一部分，但ESCC的免疫景观和精确的免疫逃逸机制尚未完全揭示，目前还没有针对ESCC的有效免疫治疗方案，尽管它与炎症和宿主对异型细胞的免疫反应显著相关11。

因此，需要对ESCC进行综合的多组学调查，以解析分子和免疫异质性，这对于理解疾病病理机制尤为重要，尤其是对于发病率最高的地区的患者。

在此，作者展示了未经治疗的ESCC患者在手术切除后随访超过4年的肿瘤与匹配正常组织的全基因组学和转录组学分析。作者探索了转录组亚型和不同的免疫微环境及其预后潜力，并揭示了肿瘤固有的免疫逃逸机制。作者进一步确定了导致不良表型的显著基因和通路改变。

此外，作者开发了一种深度学习模型，用于基于样本的数字化全切片组织学图像（WSI）提取和比较亚型特异性的组织病理学特征。作者的研究拓宽了对ESCC分子和组织学多样性的认识，并为ESCC的治疗提供了潜在的靶点。

二、讨论

本研究对来自高发区的大规模未经治疗食管鳞状细胞癌（ESCC）患者队列进行了全面的基因组-转录组表征，并具有长期随访数据。

在此，作者进行了遗传改变、基因表达和免疫细胞浸润的彻底综合分析，并检查了它们与临床和病理数据的关联。作者使用独立数据集、体外和体内生物学实验验证了作者的结果。

重要的是，作者开发了一个深度学习模型，用于基于患者样本的数字化全切片组织学图像（WSI）提取和测量各亚型特异性的组织病理学特征水平。作者的研究为驱动ESCC多样性和进展的遗传事件提供了重要见解，并揭示了ESCC免疫逃逸的机制。

首先，作者的研究识别并验证了四种不同的ESCC亚型（分化型、免疫原性、代谢型和干细胞特性），每个亚型显示出独特的分子特征和组织病理学变化。

此前对食管癌的综合基因组表征将ESCC分为三种分子亚型13,39。这些ESCC亚型显示出地理关联的趋势，但它们与临床结果的关联尚未得到证实。局限性也在于这些病例来自发病率中等到较低的地区。在作者队列中调查了它们亚型特异性的改变，作者发现前三个亚型的总体频率高且相似，尽管干细胞特性肿瘤似乎具有最高的ESCC1和ESCC2改变频率。

作者研究的ESCC样本来自中国的高发人群，其中ESCC占食管癌的绝大多数（超过90%）。

在这些ESCC中确定稳健的生物标志物具有巨大的临床意义，鉴于全球70%的食管癌病例发生在中国。确实，作者发现干细胞特性亚组的预后比其他亚组差。

作者功能性地验证了干细胞基因之一SFRP1（WNT信号传导调节剂）在ESCC进展中的作用。作者证明SFRP1在体外显著增强了ESCC细胞的恶性表型，并在体内促进进展，表明通过SFRP1靶向WNT途径可能是治疗ESCC的有希望策略，因为ESCC中WNT途径的改变频率高达86%7。

免疫逃逸是癌症的一个特征40。

癌症免疫治疗在过去十年中彻底改变了癌症治疗的面貌。尽管部分癌症患者观察到长期生存，但包括食管癌患者在内的多数患者目前并未从免疫治疗如免疫检查点阻断疗法中受益11，这强调了识别ESCC免疫逃逸的基因组学和分子决定因素的需要。

在这里，作者识别了过度表达自然杀伤（NK）细胞标记如XCL1/2和CD160的ESCC细胞。这些标记的过度表达与ESCC患者的总生存期缩短显著相关。XCL1是一种C类趋化因子，主要由NK细胞和活化的CD8+ T细胞产生41,42，XCL1-XCR1轴通常在诱导有效的细胞毒性免疫中发挥关键作用43。

最近的一项研究表明，XCL1表达与成熟卵巢囊性畸胎瘤中的CD8阳性T细胞浸润和PD-L1表达相关，但与预后或临床阶段无关44。然而，在作者的样本中，XCL1过度表达的肿瘤显示出最低的免疫细胞浸润。

人类蛋白质图谱数据也提供了证据，表明多种癌症类型中存在XCL1过度表达的肿瘤细胞，并且这种过度表达与结直肠癌和肾癌患者的总生存率缩短显著相关（补充图15c）。XCL1在ESCC和其他肿瘤发展中的免疫原性作用及其功能机制需要进一步研究。

CD160，一种在NK细胞、γδ T细胞和CD4+和CD8+ T细胞的小部分亚群上表达的糖基磷脂酰肌醇锚定的Ig结构域蛋白，在作者的研究中也在一些ESCC肿瘤中过度表达。先前的研究表明，CD160在B细胞恶性肿瘤中显著增加45,46。CD160可以作为协同激活或协同抑制受体，取决于其与邻近相互作用的受体/配体的操作环境47。

鉴于CD160表达与ESCC和其他肿瘤如肾癌的临床预后呈负相关（补充图8e），作者假设CD160表达的癌细胞可能通过HVEM和BTLA抑制途径来抑制T细胞和NK细胞的活动47,48。

这些有趣的初步数据值得进一步研究CD160在癌细胞中表达如何调节宿主免疫的详细途径。CD160与其配体的相互作用可能在ESCC的病理生理学中很重要，提供治疗操纵的目标。

最近的研究表明，癌细胞干细胞（CSCs）具有从一开始就逃避免疫系统，逃避免疫监视阶段的能力49,50。有趣的是，作者发现C3免疫集群中的ESCC，其特征是相对较高的XCL1和CD160水平，约50%的肿瘤来自干细胞特性亚型，呈现显著的WNT改变。

最近的一项研究表明，来自早期人类肺和乳腺癌的潜伏能力癌细胞（LCC）可以通过表达WNT抑制剂DKK1和广泛下调NK细胞的ULBP配体来进入静止状态。这些细胞逃避了NK细胞的清除，从而长期潜伏50。在这项研究中，作者还观察到WNT失调与干细胞慢循环状态的相关性，并识别了ESCC干细胞样细胞的一种未报道的免疫逃逸方式：通过表达NK细胞标记来掩盖肿瘤细胞。

这些发现，连同前面讨论的内容，突出了关键信号通路对干细胞增殖的至关重要性以及指导免疫逃逸的机制之间的关键相互作用。对癌症干细胞样细胞与免疫系统之间独特相互作用更深层次的理解，可能为开发能够利用免疫系统对抗这些“最难免疫逃逸者”的治疗策略提供依据。

在探究ESCC亚型之间基因组变化差异时，作者注意到EP300突变/过表达与干细胞特性/NK标记XCL1相关特征之间有强烈的正相关关系。组蛋白乙酰转移酶p300是一个关键的转录共激活因子。p300和CBP一起通过染色质重塑和组蛋白修饰调节细胞的成千上万个基因的转录，在包括增殖、细胞周期、细胞分化和DNA损伤反应等多个基本生物过程中发挥重要作用51。

作者的数据显示，EP300的错义和剪接位点突变在RNA中突变等位基因的表达水平升高，而EP300的截断突变在RNA中替代等位基因的水平显著降低。然而，总体而言，突变样本的平均EP300 mRNA表达水平显著高于野生型样本。EP300的改变可能促进了ESCC肿瘤成为更干细胞样的表型，导致免疫排斥、药物耐药和临床结果恶化。

已有研究表明，EP300过表达导致乳腺癌症干细胞标记和间充质标记上调、迁移、侵袭、锚定独立生长和药物耐药性增加55。类似观察也在非小细胞肺癌和鼻咽癌细胞中得到56,57。

另一方面，EP300敲减在这些癌症中减少了癌症干细胞表型、EMT、肿瘤生长和转移58，进一步支持了其致癌作用和可能参与干细胞样表型的角色。

确实，EP300突变和过表达与许多实体癌，包括ESCC的不良预后相关33,34。重要的是，已有研究表明，化学抑制CEP/p300 KAT活性可增强细胞对DNA损伤化疗药物和辐射的敏感性34,59。

因此，更多的研究工作有待进行，以测试类似的联合疗法来治疗这些耐药的干细胞/XCL1高ESCC细胞体外和体内。

作者还开发了一个综合深度学习模型，用于提取和量化与每个分子亚型相关的显著组织病理学特征。

这种方法识别了亚型特异性的成像特征，这些特征在相应的分子亚型中高度富集。这个基于全切片图像的AI模型突出了仅使用组织学特征预测分子亚型的潜力。

此外，它还识别了组织内的肿瘤内异质性，因为亚型特异性的特征似乎存在于所有切片中，但比例不同。作者正在进行的工作重点是对所有切片的高分辨率图像表示进行分层自监督学习60，并测试这些特征或其组合是否与临床结果和分子亚型相关。

此外，作者还需要开发一个基于多模态深度学习的组学-图像模型61，以允许最全面的数据整合和ESCC中的生物标志物发现。

总结而言，对中国ESCC患者的基因组-转录组深入分析为理解ESCC肿瘤的本质提供了见解。这些发现为作者开发更有效的ESCC诊断和治疗策略铺平了道路。此外，从本研究中产生的数据，特别是来自手术治疗后随访超过四年的未经治疗ESCC患者，为更好地理解和治疗ESCC提供了一个独特的公共资源。

三、方法

3-1：患者队列

2013年至2016年间，在安阳肿瘤医院和郑州大学第一附属医院伦理委员会的批准下，纳入了120名经病理诊断为食管鳞状细胞癌的患者。

这些患者在手术前未接受任何放疗或化疗，病理诊断由三名独立病理学家确认。肿瘤样本和距离配对肿瘤组织至少5厘米远的相邻正常组织在手术操作后30分钟内被收集并置于液氮中。

同时，从安阳肿瘤医院确定了一个由65名ESCC患者样本组成的验证队列，所有肿瘤均为初治。所有患者均被告知并签署了患者知情同意书，研究得到了郑州大学伦理委员会的批准，因此在补充数据1中报告了每位患者首次诊断时的性别和年龄。然而，由于性别和年龄与作者的分子特征无关，未进行性别或年龄特异性分析。

3-2：RNA测序实验

使用Invitrogen的TRIzol试剂按照制造商的说明从肿瘤和匹配的正常样本中提取总RNA。

使用Agilent 2100 Bioanalyzer（Agilent RNA 6000 Nano Kit）进行定量后，取1μg RNA用于构建测序文库，遵循VAHTS Total RNA-seq (H/M/R) Library Prep Kit for Illumina的介绍。定量后的文库在Illumina X Ten平台（BGI）上进行配对末端150 bp读长的测序，每个样本平均产生120 M读数。

3-3：RNA测序数据分析

原始测序读数首先通过FastQC(0.11.7)62进行评估，只有通过SOAPnuke1.5.663（-l 10 -q 0.5 -n 0.05 -Q 2 -G）生成的干净数据被用于与索引的GRCh37基因组进行比对和定量，这一步使用Salmon(version 0.9.0)64。

转录组丰度通过’tximport’ R包65导入R（版本3.5.1）。仅在超过一半样本中TPM大于1的转录本被保留，并通过cqn66进行标准化。对整个转录组进行主成分分析（PCA），以进一步探索数据质量和可能的偏差。然后使用Limma67方法对肿瘤与正常配对进行差异表达分析。

进一步进行基因集富集分析（GSEA）68，以识别显著失调的典型通路。

3-4：基于转录组学的ESCC亚型

为了确保仅使用与ESCC高度相关的基因进行此分析，首先计算了肿瘤样本中每个基因的平均绝对偏差（MAD），并选择了具有最大MAD值的前1500个可变基因进行ESCC亚型发现。

使用非负矩阵分解（NMF）算法‘NMFConsensus’69，在考虑聚类大小k=2到7的情况下，发现不同的转录组亚型，使用默认参数。尽管k=2给出了最佳的重合相关系数r=0.99，但k=4也实现了很好的聚类性能，重合相关系数为r=0.985（补充图1a）。

后者（k=4）以更精细的分辨率揭示了转录组模式的异质性和粒度水平，因此被选为作者的研究。这些簇的合理性也通过Consenseclusterplus70的一致性聚类方法进行了验证。

3-5：识别和注释亚型特异性基因

使用Limma对每个NMF聚类与所有其他聚类进行了差异表达分析。

对于每个聚类，调整后的P值<0.05且log2倍变化（FC）>1的基因被视为该聚类的亚型特异性基因。对于“干细胞特性”聚类，为了增加该聚类注释的代表基因数量，采用了调整后的P值<0.05和log2FC>0.8的截止值。采用了两种独立的方法对聚类进行功能注释。

首先，使用DAVID71对每个聚类的代表基因进行功能注释，使用Gene Ontology生物学过程术语和KEGG通路的基因集进行富集测试。其次，从mSigDB数据库（v.6.2）中选择典型的通路和癌症特征基因集，并对每个亚型特异性基因集应用超几何检验。

使用Benjamini & Hochberg方法对超几何检验的P值进行多重比较校正，并在调整后的P<0.05时报告显著关联。P值转换为“-log10§”并用于热图。根据注释结果，每个NMF聚类被赋予一个代表其亚型转录组特征的名字。

3-6：估计肿瘤浸润免疫细胞类型和丰度

使用了先前定义的免疫细胞类型基因签名20-25,72来解卷免疫微环境并估计所有肿瘤的免疫细胞丰度，使用RNA测序标准化基因表达数据。

对于提供网络服务或R代码的方法，应用了默认设置进行分析。对于其余已发表的基因签名，计算了标记基因标准化表达的平均值，并用以对应所代表细胞类型的水平。

根据最近的一项研究73，作者进一步使用以下分析对免疫细胞类型的估计/签名进行了基准测试。首先，各种免疫细胞的签名与肿瘤纯度进行了相关性分析，目的是识别所有考虑的免疫细胞类型与它们之间的负相关性。其次，免疫签名与肿瘤拷贝数在标记基因位点上的相关性进行了分析。预期它们之间没有显著相关性，以排除肿瘤细胞的任何混杂因素。第三，所有选定的方法中的免疫估计进行了相关性和比较，以衡量估计细胞类型之间的一致性。最后，免疫估计与CD8+和CD4+ T细胞的肿瘤浸润淋巴细胞（TIL）组织病理学估计进行了比较。

选择了最能特征化作者的免疫微环境的免疫估计（即，Danaher等人的签名）用于所有后续分析，涵盖12种不同的免疫细胞类型。此外，如Rosenthal等人和作者的基准测试结果所建议，Davoli等人的CD4+ T细胞估计24也被包括在作者的最终免疫分析中。

3-7：基于免疫细胞估计的ESCC亚型

基于所有RNA测序样本中13种免疫细胞类型的免疫估计，使用“Consenseclusterplus”70进行了共识聚类，以识别患者之间的不同免疫特征。应用了层次聚类的参数、Pearson相关距离和50次重采样。最佳表现聚类的大小随后通过共识矩阵和跟踪图确定。免疫细胞使用Pearson相关和“平均”聚类方法进行了聚类。作者的免疫聚类的合理性也通过MCP-counter23衍生的免疫细胞估计进行了验证。

3-8：全外显子测序（WES）实验

使用QIAamp DNA Mini Kit（Qiagen）根据制造商的说明，从肿瘤和匹配的正常样本或外周血中分离基因组DNA。

为了构建全外显子捕获文库，从每个新鲜冷冻的肿瘤和匹配的正常样本中取1μg基因组DNA，使用Covaris随机片段化为250–300 bp。片段化后，使用AxyPrep Mag PCR clean up Kit进行片段纯化，然后使用Agilent SureSelect Human Exomes V6试剂盒（~35.7 Mb, Cat No.: 5190-8881）进行捕获。

所有构建的文库都在Illumina X Ten平台（BGI武汉）上加载，并生成了150 bp配对末端读数。

3-9：全外显子测序数据分析

使用FastqQC (0.11.7)进行质量控制后，测序读数使用BWA (0.7.17)74 mem映射到hg19基因组序列，然后使用GATK4 (4.0.6.0)75按照其最佳实践指南进一步改进了比对。

为了识别体细胞变异，使用了mutect276和strelka2 (2.8.4)77，并且只有两个变异调用者都确定的变异才被考虑。进一步使用The Ensembl Variant Effect Predictor78进行了变异注释。然后使用三种独立方法，MutSigCV27,28、OncodriveFM30和dNdScv29在作者的WES队列中识别驱动基因（即显著突变基因或功能重要基因）。

对于拷贝数畸变的分析，使用了Sequenza (2.1.2)79并使用了默认参数。所有DNA样本的肿瘤细胞纯度也从这次分析中得出。全基因组增益或丢失的定义如先前所述80。

简而言之，每个样本的处理拷贝数值除以样本平均倍性并进行log2转换。增益和丢失分别定义为>log2(2.5/2)和<log2(1.5/2)。扩增定义为≥log2(4/2)，缺失定义为≤log2(1/2)。

对每个肿瘤进行了克隆性分析，使用PyClone81完成。过滤掉了包含少于3个突变的克隆。根据PyClone得出的克隆细胞流行度，识别了主要克隆和亚克隆。

3-10：通路功能突变富集分析

在本研究中，作者选择了mSigDB数据库中编纂的50个癌症标志性基因集进行此分析。

利用已识别的突变，作者将所有非沉默突变视为功能相关。对于每个样本，通过将功能突变数除以基因集中的基因数，并对该样本的总突变负担进行调整，得出每个基因集的功能突变富集分数。然后，使用Kruskal–Wallis检验比较四个亚型中每个基因集的功能突变富集分数，以确定是否存在特定亚型富集的基因集。

计算了每个基因集的功能突变富集分数与肿瘤细胞纯度之间的相关性。使用GSVA82 R包计算了所有样本中50个基因集的通路活动分数，并随后使用Kruskal–Wallis检验比较四个亚型中每个基因集的GSVA分数。

3-11：肿瘤内异质性的估计

采用Shannon多样性指数来计算肿瘤内异质性，使用之前描述的方法83。简而言之，将每个肿瘤样本中所有突变的变异等位基因频率分配到10个等范围的箱子中，从0-10%到90-100%。

3-12：CCLE数据集的XCL1表达数据分析

从CCLE数据门户（https://portals.broadinstitute.org/ccle）下载了CCLE数据集中的基因表达谱（以RPKM为单位），并将表达值转换为log2(RPKM + 1)。提取了22个食管鳞状细胞癌细胞系的表达值，并检查了XCL1表达。基于log2(RPKM + 1)值为1.5作为截止，将22个细胞系进一步分为XCL1高表达（n = 11）和低表达（n = 11）组，并使用limma进行了全转录组的差异表达分析。进一步进行了GSEA分析，针对mSigDB数据库中编纂的典型通路基因集。

3-13：深度学习组织学分析

图像预处理

获取了FFPE组织切片的染色（H&E）和扫描全切片图像（WSI），格式为SVS。使用Openslide Python包84提取了对应于20×物镜功率64×下采样因子和0.44 µm每像素分辨率的切片层。所有图像都下采样到64×因子并转换为JPEG格式以便于操作和处理。

每位病理学家手动审查了每个WSI，并在病理学家直接监督下丢弃了质量不佳的图像。质量不佳的图像指的是折叠且形态不清的切片，或者从病理科获得的切片中肿瘤细胞数量不足。仅使用肿瘤图像且无技术伪影的图像进行进一步分析。

共保留了91个WSI用于深度学习分析，即分化组n = 28；免疫原性组n = 27；代谢组n = 18；干细胞特性组n = 18。将切片分割为非重叠的300 × 300像素窗口，并过滤信息内容，即移除所有背景大于20%或组织覆盖不规则的窗口。

每个WSI的窗口数量取决于组织覆盖的面积，可以从几十到几百不等。因此，作者随机选择了每个WSI的50个窗口，考虑到所需的内存和每张幻灯片的平均窗口数量（总共4550个窗口在91个患者中）。作者使用了这些窗口的65%用于发现和35%用于测试。

数据分割是在患者层面上进行的，以防止两个集合之间的重叠。

3-14：特征提取

作者使用了五个最先进的卷积网络进行了特征提取，分别为Inception-V3、Inception-ResNet-V2、DenseNet-121、VGG16和ResNet-50。（PS：他们21年就投稿了，我估计这里也是一个导致他们发不了更高级别期刊的原因之一）

这些网络已经针对任何图像分析进行了预训练，结合这些网络使作者能够获得7169个广泛特征。因此，作者为每个幻灯片获得了50（窗口）× 7169（特征），准备进行基因表达分类的推断。

基因表达分类的推断

作者使用了Wilcoxon检验来识别与基因表达分类/亚型相关的特征。在发现集上进行推断时，作者为每个组（DIFF、IMM、STEM和MET）和特征（7169）创建了一个二元变量（目标组= 1，其余= 0）。通过评估组与其它组之间平均特征水平的差异来计算P值。随后使用Benjamini和Hochberg的方法对整个特征-组对测试的P值进行了FDR调整。

作者选择了在FDR < 0.01时显著的每个组的 top five 特征，这些特征在目标组中高于其他组，并且是特定于一个组的（补充数据4）。作者将这五个特征相加以创建基于基因表达分类的四个稳定的组织学标记（元特征）。

最后，作者在留下的测试集上重复了上述分析，并将这些特征的方向和显著性与发现集进行了比较（补充数据5）。

3-15：单细胞RNA测序分析

从基因表达综合数据库（Gene Expression Omnibus）中下载了处理后的唯一分子标识符（UMI）矩阵和相关的细胞注释，访问号为GSE160269。处理后的数据进一步加载到Seurat R包85中，以进行下游分析和可视化。使用UMAP来可视化所有注释的细胞簇，并随后生成标记基因的特征图。

对于基因集评分，使用了Seurat的AddModuleScore函数，感兴趣的基因集（如细胞周期活性）可从mSigDB数据库中获得。基于Seurat SCTransform归一化的基因水平计数，识别XCL1阳性与阴性细胞：当归一化的基因水平计数>0时为阳性，当计数=0时为阴性。然后，使用Wilcoxon秩和检验比较两组之间的细胞周期活性水平，即基因集评分。

为了探究食管鳞状细胞癌（ESCC）上皮细胞的转录程序异质性，对上皮单细胞数据进行了NMF聚类，因子k设置为10，类似于先前的调查86–88，随后使用Seurat的“FindMarkers”函数进行差异表达分析，以识别每个簇的顶级差异表达基因，以及每个簇的基因集富集分析。

每个簇的标志性基因是基于调整后的P值<0.0001和log2倍变化>1确定的。然后，根据每个簇的log2倍变化选择了前50个标志性基因。NMF簇根据其标志性基因和上调/下调通路进行了注释。

3-16：免疫组化分析

按照标准协议进行苏木精-伊红（H&E）和免疫组化染色。

简要来说，对ESCC患者切片进行脱蜡、复水、抗原修复和内源性过氧化物酶阻断。用正常山羊血清封闭后，切片在4°C下与适当的一抗孵育过夜。随后，切片用ElivisionTM plus（KIT-5020，迈新生物技术）、DAB试剂盒（DAB-1031，迈新生物技术）染色并用中性树脂封片，然后使用NDP.view2系统拍摄。

部分用于XCL1和LRG6染色的切片由NanoZoomer S210（哈马斯塔光子学）扫描，这是一种自动明场切片扫描仪，然后使用QuPath和NanoZoomer数字病理图像（.ndpi）软件进行分析。

本研究使用的抗体如下，抗-SFRP1（1:200，Atlas抗体，HPA064870），抗-XCL1（1:400，Atlas抗体，HPA057725），抗-LGR6（1:100，Abcam,126747），抗-CD160（1:300，Origene, TA349762），抗-CD8（Genetech, GT211207），抗-CD4（迈新生物技术）。

对于病理学，使用Image J软件计数15个随机视野中的阳性细胞以估计TIL。

3-17：生存分析

使用R survminer 0.4.3包的Kaplan–Meier方法生成总体生存曲线。使用Surv_cutpoint函数将每个具有数值结果的终点分为低组和高级组。使用Cox比例风险回归模型计算每个研究终点的风险比（HR）、95%置信区间和log rank p值。

3-18：统计和可重复性

所有统计分析均在R编程环境中进行（https://www.r-project.org/）。未使用统计方法来预设样本量。实验未进行随机化。

PS：还是那个问题，没有打造一个端到端的模型，所以一定程度会影响文章的层次。

四、数据可用性

本研究中使用的数据已存放在中国国家基因组数据中心（https://bigd.big.ac.cn/），生物项目访问识别码为PRJCA001577。

该BioProject关联有两个基因组序列存档（GSA）的访问编号：HRA000111存储了RNA测序的原始数据，而HRA000112则存储了全外显子测序的原始数据。数据的可用性已由中国科学技术部人类遗传资源登记系统批准，注册编号为2024BAT00864。

单细胞RNA测序数据从基因表达综合数据库（GEO）以下载，访问编号为GSE160269。与PRJCA001577相关的数据，即GSA访问编号HRA000111和HRA000112的数据，处于受控访问状态。感兴趣的用户需通过中国国家基因组数据中心的GSA系统申请访问。

申请过程需提供详细的研究提案，阐明数据的目的和预期用途。数据访问委员会（DAC），编号为HDAC000064，审查这些申请以确保提议的研究符合使用此类数据的伦理和科学标准。数据访问权限将每年更新，每年年底提供续期选项。

本研究还使用了GEO上的三个公开可用的基因表达数据集：GSE53625、GSE47404和GSE160269。

TCGA食管癌（ESCA）RNA测序数据也被使用，并从中提取了90个ESCC样本。

五、代码可用性

用于分析和生成图表的所有代码均可在https://github.com/Zhong2020/ESCCproject找到。

用于深度学习分析的所有代码可在https://github.com/BioInforCore-BCI/giExtract获得。

标签：人工智能医学图像处理医学人工智能

本文转载自: https://blog.csdn.net/qq_45404805/article/details/143063457
版权归原作者 罗小罗同学 所有，如有侵权，请联系我们删除。