2020年Nature method杂志评选的年度技术,给了空间转录组。但由于测序成本所限,无法对所有样本进行空间转录组测序,而2020年“nature biomedical engineering”的论文“Integrating spatial gene expression and breast tumour morphology via deep learning”,指出可以通过深度学习,在不进行空间转录组测序时,就知道表达异质性的特征。
癌症切片中存在空间异质性
从癌症组织的组织病理学切片中,可以看出癌症组织存在显著的异质性,(如下图所示,有些组织染色后更深,有些组织则更浅)然而对于为什么切片的不同位置,呈现不同的形状,却无法给出解答。
乳腺癌组织病理切片示意图
图片来源:Nat Biomed Eng
一个合理的猜测是,不同位置的组织,其基因表达谱存在差异,正是由于某些细胞中特定基因的表达量超过组织均值,才会导致该区域的癌症组织在病理切片染色后,呈现出不同的形态。如果能够获取不同区域的RNA表达量信息,就能够对癌症的精准治疗提供参考。
而10x Genomics提供的原位空间转录组,能够在100微米的精度,获取到特定位置的组织上的信使RNA,通过测序,得出该区域的RNA对应基因的表达量。相比单细胞转录组,空间转录组能够以更高的精度,获取诸如相邻细胞的表达差异,特定区域的高表达基因等信息。
空间转录组示意图
2)深度学习模型ST-net的原理
而结合深度学习,则可以让病理学切片和空间组信息联系起来,从而仅仅根据病理学切片,就能够还原出空间转录信息。在2020年自然子刊“nature biomedical engineering”中,来自斯坦福大学计算机学院的Bryan He,使用23个乳腺癌患者的病理学切片和对应的空间转录谱,训练得出名为ST-net的模型,能够从病理组织学的苏木精-伊红染色切片( haematoxylin-and-eosin-stained pathology slides),预测出空间表达信息。
ST-net 算法框架图
图片来源:Nat Biomed Eng
ST-net预测各个基因的表达量时,首先将病例组织切片分成224×224像素的一个个小方格,每个方格对应150微米的区域,之后通过卷积层,得出1024维的共享表征向量(用于所有基因的预测),之后将该表征向量输入给一个包含250个神经元的全连接层,最后得出250个目标基因log正则化后的表达量预测值。
3)模型的预测性能
经由空间转录数据,该文发现了100多个已知和肿瘤生长,免疫激活相关的基因,在肿瘤组织的不同位置间存在显著差异,这些已知的肿瘤标志物在细胞水平的异质性,可以通过ST-net进行预测,例如下图所示:
两种组织样本经过空间转录组检测和经由ST-net预测肿瘤标志物FASN基因的表达量差异
图片来源:Nat Biomed Eng
上图中最左边一列是病理学切片,第二列是病理学家人工标记的正常组织和癌变组织边界,第三列是空间转录组测出的真实转录数据,而最后一列是模型预测出的表达量。可以看出预测值和真实值都能够和癌组织和正常组织的边界对应起来。
空间组学的一大优势,是能够看出不同细胞/组织间的基因表达是如何相互影响的。例如在癌变组织切片中,癌变组织和正常组织在边界处,其基因表达存在相似性,这被称为Co-localization 。而基于ST-net预测的结果,和空间组检测的结果一样,都能够预测出上述差异。
图片来源:Nat Biomed Eng
在23个患者中,经过实验验证,可以得出大部分样本,在以上五个基因存在组织间共表达现象,而基于ST-net和10x空间组预测得出的相关性,在各个基因上都差异不大,这说明ST-net能够以相近的精度,发现乳腺癌组织中的基因共表达信息。而在只包含肿瘤组织的切片片段,对于大部分患者,ST-net能够预测出在癌组织间不同位置,63个表达量存在显著差异的空间表达模式
。
4) ST-net 算法预测的基础和应用
为何ST-net能够基于病理学切片,预测基因表达谱在空间的模式,是由于其能够识别出图像中和基因表达有关的模式,例如下图所示的区域中,由人工标记的红点代表细胞核变大,该现象的发生,会导致对应区域的FASN高表达,而这一特征在ST-net模型的特征空间中,正好对应着FASN基因的高表达。这说明ST-net模型具有较好的可解释性。
FASN基因的预测特征和经过病理学家标记相关的特征重合
图片来源:Nat Biomed Eng
ST-net还提供了一种新的方法,来衡量不同病理组织切片之间的相似性的方式,通过将病理切片输入ST-net,考察不同样本在特征空间上的聚类后的相似程度,来判断其病理学标签。如下图所示:
ST-net的特征聚类后,可分辨不同病理学标签的组织
图片来源:Nat Biomed Eng
上图分别代表了局部病理切片,根据病理学家的标注,可分为四类,分别代表正常的肿瘤组织,非典型肿瘤组织,正常组织,非典型组织。在ST-net训练过程中,并没有输入这样的标记,但模型经过卷积层生成的共享特征空间(1024维)中,经过UMAP降维,可以看到肿瘤组织和正常组织,由于其表达量的差异,会分散开,而那些非典型性的肿瘤组织,其在特征空间聚类后,临近的位点都是正常的组织,这意味着有可能是病理学家在标记时出现了错误
5)空间转录组作为标记,训练深度学习模型
虽然当前ST-net的预测准确度,使其还无法应用于临床检测,但随着更多的训练样本,以及更标准化的样本制备,会使其预测精度提升。除了预测基因表达谱,识别肿瘤间的组织异质性,ST-net还能够自动化的标注肿瘤和正常组织的边界(通过对局部图片进行聚类),识别可能有误的病理学标签。未来,还可以使用ST-net,研究肿瘤和免疫之间的相互作用。
由于空间转录组采集的信息,虽然在空间层面精度更高,但每个方格内会包含不止一个细胞,这样多种来源的细胞及组织间的RNA弥散,会使数据包含噪音。而单细胞测序,可以通过更高的测序深度,获得特定细胞类型的准确表达谱。如何结合单细胞和空间转录数据,是一个研究热点。例如通过临近位置的空间转录信息,推测细胞类型,再基于单细胞测序的结果,补全空间转录组中缺失的部分。
He, B., Bergenstråhle, L., Stenbeck, L. et al. Nat Biomed Eng https://doi.org/10.1038/s41551-020-0578-x