01 IPD-IMGT/HLA数据库简介
MHC是所有有颌脊椎动物基因组中的一个区域,编码免疫系统的核心成分。在人类中,它编码HLA。在HLA领域内,术语“等位基因”指的是点突变、插入和删失的组合,因此,与单个参考序列相比,每个等位基因可以由多个不同的变异位置组成。这些等位基因信息储存在IPD-IMGT/HLA数据库中。IPD-IMGT/HLA 数据库(https://www.ebi.ac.uk/ipd/imgt/hla/)首次公开发表于1998年12月16日 ,包含 WHO HLA 命名委员会正式命名的全部HLA等位基因的记录。这些记录来自 EMBL/GenBank/DDBJ 原始记录中专家注释的拷贝。
截至2019年8月,IPD-IMGT/HLA数据库包含24093个HLA和相关等位基因,与参考序列相比,在234,539个规划位置中的86902个位点上发现超过362,709个不同的核苷酸变异。包含的数据大多数来自常规的HLA分型实验室或为大型骨髓捐赠者注册的合同HLA分型公司,其他提交的文件来自大规模的基因组分型项目。提交的信息会被整理和分析,如果符合要求,就会被指定一个官方的等位基因名称,然后这些新提交的序列信息将合并到数据库的下一个发布的版本中。提交IPD-IMGT/HLA数据库是获得一个序列的官方等位基因命名的唯一途径。
02 IPD-IMGT/HLA数据库使用指南
- 数据概览
点击Statistics:
数据库中主要收录了HLAⅠ型和Ⅱ型基因的信息,此外,还包括了一些非HLA基因的信息。
HLAⅠ型包括经典的HLA-A、HLA-B、HLA-C等基因,也包括部分假基因。
HLAⅡ型主要包含了DR, DQ, DP, DO, DM基因。
其他基因主要包含了HFE, MICA, MICB, TAP1, TAP2等基因。
2. 序列比对
点击Alignment:
该比对工具提供了对单个HLA基因序列特征(例如特定的外显子和内含子)的比对,或对常见测序区域(例如外显子2 3)的比对。
①比对步骤
②结果输出
部分结果如下所示,其中-代表相同序列,未匹配序列已显示:
3. 等位基因信息查找
点击Alleles:
访问感兴趣HLA等位基因的相关详细信息,包括原始材料的种族起源、数据库交叉引用和开创性出版物的信息。
①查询步骤
②查询报告
4. 细胞查询
点击Cells:
提供库内提交数据中源材料的详细且可搜索的信息库。查询步骤与等位基因查询一致。
细胞查询报告:
5. 工具
点击Tools:
提供许多相关搜索工具,可根据自身需求选择。比如想查询感兴趣基因的多态性位点,则选择多态性位点查询工具:
6. 数据下载
点击Download:
该数据库提供了FTP服务,用于下载不同等位基因的基因或者蛋白序列,包括fasta, msf, pir等多种格式,通常下载fasta就可以了。
7. 序列提交
点击submit:
提交IPD-IMGT/HLA数据库是获得一个序列的官方等位基因命名的唯一途径,该数据库提供在线提交功能。使用者可在符合提交要求后申请一个ID号,用该ID号提交新的等位基因序列相关信息。要求如下:
手动在线提交十分耗时且易出错,TypeLoader2可以实现HLA等位基因的批量自动提交。该软件可以从github中免费获得(https://github.com/DKMS-LSL/typeloader)。