癌症是一个复杂的过程,其进展涉及患者体内的多种过程。因此,研究人员产出了大量的分子和表型数据,尽可能全面地研究癌症标志。高通量技术突破催化的组学数据的快速积累,引起了癌症‘大数据’的概念。
癌症领域的数据集在几个关键方面与其他领域的数据集不同。首先,癌症数据集的大小通常明显更小。其次,癌症研究数据通常具有异质性,可能包含测量细胞系统和生物学过程不同方面的许多维度。每种模式的数据量相对有限,并且它们之间的高度异质性,需要开发创新的计算方法来整合不同维度和队列的数据。
常见数据类型
癌症研究中有5种基本数据类型:分子组学数据、扰动表型数据、分子相互作用数据、成像数据和文本数据。分子组学数据描述了细胞系统和组织样本中分子的丰度或状态。此类数据是癌症研究中从患者或临床前样本中产生的最丰富类型,包括DNA突变(基因组学)、染色质或DNA状态(表观基因组学)、蛋白质丰度(蛋白质组学)、转录丰度(转录组学)和代谢物丰度(代谢组学)信息。
表1癌症研究中常见的分子组学数据类型
数据存储库和分析平台
第一类包括来自生成数据项目的资源:
第二类描述了呈现上述项目中处理数据的存储库:
第三类包括系统地整合不同项目数据并提供交互式分析模块的Web应用程序:
数据丰富的转化研究
诊断生物标志物
癌症转化性大数据研究的一个主要重点是开发用于预测疾病风险的基因组学检测,其中一些检测已获得美国食品药品监督管理局(FDA)批准,并商业化用于临床。诊断生物标志物检测的一些早期示例包括雌激素受体(ER)或孕激素受体(PR)阳性乳腺癌患者的预后检测,如OncotypeDX、MammaPrint、EndoPredict和Prosigna。其他癌症类型的预测因子包括结肠癌和前列腺癌的OncotypeDX生物标志物和早期肺癌的Pervenio。
以分子数据为指导的临床试验
全基因组和多模式数据已经开始在前瞻性多组临床试验中匹配患者中发挥作用,特别是那些研究精准疗法的试验。例如,WINTHER试验根据来自实体瘤活检的DNA测序(A组,通过FoundationOne检测)或RNA表达(B组,通过Agilent寡核苷酸阵列比较肿瘤组织和正常组织)数据,前瞻性地将晚期癌症患者与治疗匹配。WINTHER研究得出结论,两种数据类型对于改善治疗建议和患者结局均有价值。此外,DNA测序和RNA表达在提供具有临床获益的治疗方面无显著差异。
图:以组学数据为指导使用超说明书药物的前瞻性临床研究
除肿瘤样本生成的组学数据外,交叉模态数据集成是改善治疗建议的潜在策略。其中一个有前景的方向涉及合成致死相互作用的研究和应用。一旦与肿瘤转录组学特征整合,可以准确评分药物靶标重要性,并预测许多抗癌治疗(包括靶向治疗和免疫治疗)的临床结局。
数据驱动癌症诊断的人工智能
基于深度神经网络的AI方法是整合这些数据类型用于临床应用的新兴方法。AI在分析成像数据方面最常用的应用涉及临床结局预测以及苏木精和伊红(HE)染色组织的肿瘤检测和分级。年9月,FDA批准使用AI软件PaigeProstate协助病理学家从前列腺穿刺活检样本中检测癌症区域。
除组织病理学外,放射学是AI成像分析的另一个应用。使用3D计算机断层扫描体积的深卷积神经网络已被证明可预测肺癌风险,其准确性与有经验的放射科医师的预测相当。
图:数据驱动的支持癌症诊断的人工智能
大数据辅助的新疗法开发
开发新疗法是大数据应用的一个有前景的方向。据我们所知,目前还没有FDA批准的癌症药物主要通过大数据方法开发;然而,一些大数据驱动的临床前研究引起了制药行业对进一步开发的