癌症生物信息学

2013/01/12评论5,955

癌症是由于一些遗传改变和表观遗传改变而导致的疾病，在它最简单的形式中，癌症是一种由于一个细胞基因组变化而导致的遗传性疾病。这种遗传改变包括点突变、插入突变、缺失突变和染色体易位等。这些基因的变化可以导致细胞和组织生长异常，这就是肿瘤的表型特征。虽然控制癌症发生的分子机制研究一直是过去50年来研究的重点，其中包括使用了很多分子生物学手段的研究，但对人类癌症的发生机制还了解不多。尽管在细胞转化基础上，人们已经了解了许多分子遗传学和表观遗传学改变，但导致肿瘤表型的复杂过程才刚刚开始被人们理解。目前，遗传学上，癌症的基础研究正经历着一场变革。

这些都促进了后基因组时代科技的进步，从而令分子生物学家能够更加精细地研究DNA（基因组）、mRNA（转录组）和蛋白序列（蛋白质组）。全面背景下描述癌症的机理为研究人员获得更多有用的数据进行分析，并将之以全新的方式结合起来提供了一个机遇。尽管存在很多实际困难，但人们仍然努力开展更多项目，目的是整合数百个样本以研究来自不同资源的数据类型。表1描述了癌症生物信息学和系统生物学的基因组数据库资源。

表1 癌症生物信息学和系统生物学的基因组数据库资源

类型	数据库资源	数据库类型	网址
基因组	癌症基因组计划（Sanger 中心）	癌症基因调查统计、体细胞突变、失杂合图谱、缺失图谱、小的基因内体细胞突变	http://www.sanger.ac.uk/genetics/CGP
	美国人类基因组资源（NCBI）	人类基因组数据的整合信息资源	http://www.ncbi.nlm.nih.gov/genome/guide/human
	Genome Browser（加州大学圣克鲁兹分校）	可视化和查询工具	http://genome.ucsc.edu
核型	癌症染色体（NCBI）	SKY/M-FISH and CGH数据库、Mitelman数据库、癌症NCI周期性畸变	http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=cancerchromosomes
核型	Progenetix（佛罗里达大学）	不同癌症类型的CGH 数据库	http://www.progenetix.net
单核苷酸多态性	NCBI的单核苷酸多态性数据库	单核苷酸多态性	http://www.ncbi.nlm.nih.govprojects/SNP
单核苷酸多态性	SNP500cancer（NCBI）	癌症流行病学有关的单核苷酸多态性	http://snp500cancer.nci.nih.gov
基因表达	NCBI的基因表达数据库	基因表达数据库浏览、搜索和数据检索的策划资源	http://www.ncbi.nlm.nih.gov/geo
	Oncomine（美国密歇根大学）	定位、搜索和可视化某种基因或癌症类型的工具	http://141.214.6.50/oncomine/main/index.jsp
	癌肿基因组解剖计（CGAP）	基因、染色体畸变、SNP 500cancer、组织、SAGE表达材料（正常的、癌症前期生物和癌细胞的）整合资源	http://cgap.nci.nih.gov
临床基因组	癌症的分子水平分析计划（CMAP）	分子表达谱、靶标、靶向药物和测试	http://cmap.nci.nih.gov

癌症基因组剖析计划（The Cancer Genome Anatomy Project, CGAP）是由美国癌症研究所（the National Cancer Institute, NCI）在1996年发起并维持的一项计划。至今，它已经成为癌症遗传学研究领域的首创。该计划已经从多种肿瘤样品和正常样品中研究出了超过300多万的表达序列标签（EST）。

除此之外，该计划还利用新的技术构建了数以百计的图书馆。提及的新技术包括基因表达系列分析（SAGE）和大规模平行测序技术（massively parallel signalure sequencing, MPSS）。

SAGE技术是近几年发展起来的一种快速分析基因表达信息的综合分析方法，它是公认的转录学图谱（Transcriptome profiling）研究的最佳方法之一。MPSS是以DNA测序为基础的大规模、高通量的基因分析新技术。它通过标签库的建立、微珠与标签的连接、酶切连接反应和生物信息分析等步骤，可以获得基因表达序列。MPSS具有测定表达水平低、基因差异小，无需预先知道基因的序列、自动化和高通量等特点，是一项值得推广的技术。在巴西，FAPESP/LICR的人类癌症基因组计划（Human Cancer Genome Project, HCGP）利用一种称为开放阅读框EST的新技术，研究了超过100万个流行肿瘤的EST。由CGAP和HCGP研究的表达序列，被整合到了国际癌症基因表达的数据库（International Database Cancer Gene Expression）。这个数据库是基因组研究机构（Institute of Genomic Research）（http://www.tigr.org）中人类癌症索引的基础。CGAP和HCGP两个计划已经结合起来。它们本质上有一个共同的目标——创建癌症的表达目录，而且它们还注解并向GenBank提交了数以百万的肿瘤和正常组织的序列。这两个计划的目的是确定正常细胞、前癌细胞和癌细胞基因的独特表达模式，以期达到改善检测、诊断和治疗病人的目的。

癌症生物医学信息网络（Cancer Biomedical Informatics Grid, caBIG）（http://cabig.nci.nih.gov）是一个雄心勃勃的、由美国癌症研究所（NCI，http://cancergenome.nih.gov）资助和维护的一项新计划。它旨在建立一个癌症网络，从而整合四类信息：信息接口、词汇/术语和本体论、数据元素和信息模型等。

caBIG计划是一个由研究人员和组织机构自愿组织的网格项目，目标是“创造癌症研究的全球网络”。为了这个目标，大家努力为应用和分析过程制定了标准，以便能更容易地开展合作、分享数据。此外，caBIG承担了不同领域的开发项目，例如，开发临床试验管理系统、Ontology采集工具和体内成像系统等。

自2004年成立以来，caBIG在80个组织机构的800多名工作人员的合作下，已经取得了70 多项成果，包括报告书、用语、数据规范、软件工具（例如一种基于网络的临床试验与多重试验数据管理应用程序）、一种微阵列数据库、一种基因定义元数据采集工具以及许多其它成果。

caBIG将个人和机构联系在一起，共享很多数据和工具，它构建了全球范围的癌症研究资源。caBIG是癌基因组阿特拉斯计划的一部分，由美国癌症研究所（http://cancergenome.nih.gov）资助和维持，它可以加速癌症预防或治疗方面的新方法问世。

如上所述，caBIG的目标是：

(1) 通过一种可共享和可操作的基础设施，将科学家和医生联系起来；

(2) 通过开发标准规则和共同语言，能够更容易地共享信息；

(3) 建立或调整工具收集、分析、综合和传播与癌症相关的研究和护理的信息。

该caBIG项目旨在建立一个协作信息网络，以加速开发新的办法以改善对患者的治疗效果。caBIG 所创建的基础设施和工具在癌症社区之外也有很广泛的应用。

因此，癌症生物信息学处理的是组织和数据，以便重要的趋势和模式可以被识别，最终目标是发现新的治疗和/或诊断癌症的方案。实现这一目标的第一步就是寻找表现特定癌症条件的基因表达蓝图。人们普遍认为生物状态和生理不可能由一个基因的表达所代表。因此，为了揭示代表癌症发生和进展的分子标记，研究人员进行了广泛的基因组分析，例如基因表达的微阵列、微阵列-比较基因组杂交技术（Array CGH）和组织芯片等。然而，在特定的癌变时期有相当多的改变，包括基因组复制后阶段、转录阶段、翻译阶段或翻译后阶段和修改阶段，如基因扩增、RNA剪接改变、磷酸化、甲基化和蛋白质分泌和稳定性差异，这些都不能被基因组分析设想到。蛋白质组的分析鉴定，能够鉴定和定量分析生物样品中的全部蛋白质。

目前蛋白质分析技术包括：二维聚丙烯酰胺凝胶电泳（2DE法）、同位素编码亲合性标签（isotope-coded affinity tag, ICAT）、基质辅助激光解析电离质谱（MALDI-MS）、液相色谱-串联质谱（LC/MS/MS）、质谱成像（imaging MS）、蛋白质芯片（Protein array）和自体抗体表达等技术等。要组织和分析由这些高通量技术产生的具体数据，需要发展相当数量的计算软件和数据库。人们通过计算统计分析辅助和建立蛋白质或基因图谱，已经可以鉴别遗传特点，这对发展新的和个性化的癌症治疗方法非常有价值。

生物信息学方法和临床验证已用于识别多种癌症指示性表达谱。Kim等人分析了SAGE和EST数据，从而发现了一系列肺癌中差异表达的基因。在一个系统检测注解基因功能的实验中，他们找到了29个基因，随后借助肺癌病人的临床标本发现了这些基因对实验验证很敏感。

Sjoblom 等人确定了在大肠癌和乳腺癌肿瘤中已经经过注解的人类蛋白质编码基因序列。他们分析了11个乳腺癌患者和11个大肠癌患者个体的13023个基因，结果揭示单个肿瘤积累了大约平均90个突变基因，但它们中只有一部分会导致肿瘤恶化。用严格的标准来界定这些基因，Sjoblom 等人发现共有189个基因（平均每个肿瘤11个）突变频率很高。

统计和生物信息学工具可以帮助确定突变在肿瘤形成中的作用。鉴定分子标记和表达谱正被人们用于肿瘤分类、诊断和临床结果的预测。癌细胞依赖的特殊基因、蛋白质和细胞路径的鉴定，加速了人们对更有效的治疗药物的研发进程。通过设计、整合来自多个应用和平台的资料，如GeneSpring分析平台（http://www.chem.agilent.com/en-US/Pages/HomePage.aspx），或开发资源和开发软件计划（Bioconductor，http://www.bioconductor.org，一项使用R语言进行基因组数据计算的开源&可扩展软件计划），不仅可以用于专门回答生物学方面的基因组、遗传学、蛋白质组和生物标志物筛选的交叉问题，还能够提供全面的统计分析、数据挖掘和可视化工具。此外，基于群体的分子和遗传变异研究可能会成为个体化治疗的基础。目前已在临床上成功应用于治疗的药物有Gleevec（格列卫）（一种激酶抑制剂，可用于成人和儿童慢性髓性白血病（CML）的治疗）与单克隆抗体美罗华（Rituxan）（治疗非霍奇金淋巴瘤），另外还有阿瓦斯丁（Avastin）（治疗结直肠癌和非小细胞肺癌）和赫赛汀（Herceptin ）（治疗乳腺癌）。

原文来自：http://www.lifeomics.com/?p=24600

发表评论