《自然》(Nature)杂志英文版日前发表文章称,要想把靶向疗法用于更多患者,需要将基因组数据与临床数据相整合,让这些信息能够被广泛接入。
10个月前,来自新泽西的一位76岁尿道癌晚期患者的医生们决定为她尝试一种非传统疗法。几周前,他们把这位患者的肿瘤样本发给威尔康奈尔医学院(Weill Cornell Medical College)精准药物(PrecisionMedicine)研究所。基因测序数据显示,她拥有比正常人更多的HER2基因副本。
经过多年的手术、化学疗法和放射疗法治疗失败后,医生们决定在治疗方案中加入赫赛汀(Herceptin,注射用曲妥珠单抗)。赫赛汀通常用于治疗转移性乳腺癌,但它是针对HER2变异来解决问题。服药后,这位患者的病情显著改善。
基因测序技术极大地提高了发现导致肿瘤恶化的基因变异的可能性,但同时,由此而产生的海量基因数据又很少被利用,因为它们并未与临床数据相整合,如家族病史。此外,当前的基因组数据通常以文档形式存在,不容易被搜索、共享,而且许多医生都读不懂。
用于癌症治疗的精准药物要想达到美国总统奥巴马(BarackObama)和其他人所预期的成功水平,这些基因测序数据必须实时地与患者相连接。我们需要将基因组数据和临床数据相整合,以易于搜索的形式提供给医疗和研究人员。”中央数据银行”的原型正展示出其极大潜力,但这需要进行持续地投资。
复杂的记录
临床医生已经习惯于评估来自于常规化验结果中的20~50项健康指标,如血糖水平等。这些数据很容易被整合到患者的电子健康记录中,但基因组数据远比这复杂得多。
为便于了解基因组数据的规模,我们以始于2005年的对致癌突变进行分类的美国“癌症基因组阿特拉斯”(The CancerGenome Atlas)项目为例,将2.5PB(1PB等于1000TB)的数据从一台计算机服务器转移到另一台需要25天的时间。
极其复杂的基因组数据报告很少以电子形式存在,也很少与患者的基本信息相关联。国际癌症基因组协会(ICGC)对近14000位患者的肿瘤样本进行了全基因组检测,发现了近在全基因组范围内的约1300万基因变异。但除了基因变异,还有其他大量因素影响着一位患者是否适合接受某种治疗方案。但遗憾的是,在ICGC项目中,或许多其他类似项目,只拥有极少量的临床数据,如肿瘤的类型和尺寸等。
2013年,威尔康奈尔医学院和特伦托大学(Universityof Trento)综合生物学中心的计算生物学家们启动了一个试验项目,研究将基因组数据与临床数据实时连接的可行性。到目前为止,我们已经为250位患者创建了易于阅读的报告。
每份报告都带有一个条形码,允许患者根据需求去除个人身份信息或重新添加个人身份信息,这些数据能轻松整合到威尔康奈尔医学中心的电子健康记录系统中。数据包括临床数据(家族病史和药物使用等),和基因变异信息等。我们发现,90%多的患者带有一种基因变异,能够对一种已知药物做出响应,只有不到10%的患者适合参与临床试验。
要拓展其实用性,这些数据需要在行业机构内共享。以当前调查抗癌药物Neratinib的有效性和安全性(针对HER2或EGFR3基因变异所导致的肿瘤恶化患者)为例,除了肺癌患者,这些基因变异的频率在1%~6%之间,这意味着要获得II期临床实验所需要的患者数量,就需要从多个医学中心征募。在各机构之间共享数据能够极大地解决类似的临床征募问题。而当前,要解决该问题主要通过口口相传,这是个缓慢的过程。
但是,要实现这种数据共享水平也不是一件容易的事情。在美国,许多电子健康记录系统并不兼容,在各机构之间转移患者记录是一件相当困难的事情。
数据数字化
目前,已经有一些努力试图来解决该问题,创建数字医疗数据标准。以非营利性机构纽约市临床数据研究网络(NYC-CDRN)为例,该机构将22家业内机构聚集在一起,共同书写和管理临床数据。
16个月后,NYC-CDRN已创建了600多万份文档,包含数十万个数据点,从简单的血钙水平到磁共振成像扫描结果。其最终目标是在数据库中整合基因数据。对于私有医疗保险体系的国家,这种中心化、用于共享、可搜索的患者数据库尤为重要。