cBioPortal数据库介绍及数据提取流程
1 背景
目前,在医学研究领域不同数据库的广泛建立为研究者提供了多种类,多维度,多交叉的跨学科优质数据资源,毫不夸张地说公共数据库的建立改善了许多医学研究者缺乏研究数据的困境。但由于多种原因限制,诸如癌症基因组图谱(TCGA)和国际癌症基因组协会(ICGC)等大规模癌症基因组学项目正在从多种不同的技术平台中产生大量的癌症基因组学数据,这使其数据集成,探索和分析执行难度越来越大,尤其是对于没有计算背景的科学家来言[1]。cBioPortal是纪念斯隆·凯特琳癌症中心(MSKCC)开发的,专门用于解决大型癌症基因组计划所带来的独特数据集成问题,并使大型癌症基因组计划所产生的原始数据更容易、更直接地供整个癌症研究社区使用[2]。cBioPortal数据库是一个包含了癌症基因数据和临床数据的国际公共数据库,该数据库无需研究者注册登录,可直接进入数据库访问及下载。它是一种开放获取的开源资源,可用于多个癌症基因组学数据集的交互式探索及临床相关研究。
2 方法
2.1 数据查询 在浏览器中打开cBioPortal官网( Sarcoma相关的各个项目前的小框,同时还可以看到各个项目尾部会标注该项目的样本量。
图1 数据库访问首页
如果想要查询尤文氏肉瘤基因学方面的数据,点击Query By Gene。如图2所示,Selected studies项显示的是我们所选择的研究项目(尤文氏肉瘤、小儿尤文氏肉瘤),点击Modify可重新选定研究项目。Select molecular profiles项是指选择分子概要文件,一般情况都会勾选Mutation,选择突变基因对其研究分析。Select Patiant/Case Set项是用来筛选病例和样本量,点击右方下拉箭头图标,可以展开选择,分别是All(全部数据),Cases with mutations data(变异数据),User-defined Case List(用户自定义),可以筛选出符合自己要求的样本(如果用户自定义列表,可在下拉列表中选择后,才可以输入样本ID,并用空格键分隔)。
图2 研究类型选择界面
Enter Genes项是用来刷选基因集,点击右侧下拉箭头后可选择备选基因组,也可自行输入,当输入的基因有误或不符合时是无法提交获取数据,只有全部所选基因正确时All gene symbols are valid才会自动变绿,点击Submit Query可以进行搜索。查询结果如图3所示,OncoPrint是所有患者基因组数据,通过一个简明扼要的OncoPrint图进行展示,每个基因用行来表示,样本或患者用列表示,符号和颜色编码用来总结不同的基因组的改变,包括突变,拷贝数变化和mRNA表达。OncoPrints可用于可视化分析基因的和一组病例途径改变,从图形上分析一些有用的趋势。如果我们想要在此图上添加更多的数据信息,点击Add Clinical Tracks添加癌症类型、每例患者的样本数、变异系数、性别、诊断年龄、肿瘤原发部位等29种项目。可通过Sort、Mutations、View调节图表的表达形式,点击Download可下载为PDF、PNG或SVG形式对图表保存。在上标部分可选择查看基因改变类型的比例、共同表达的分析情况、基因是否突变与患者的生存相关性等。
图3 基因改变类型的界面
在上标Cancer Types Summary部分是癌症类型摘要,主要描述每个研究的基因变更频率指标。Mutation Exclusivity项是描述基因表达互斥的表现,癌症中的生物学进程或路径常通过多种不同的基因或者不同的机制进行调节。cBioPortal中的Mutual Exclusivity可发现既往不知道的一些癌症发病机制,这些机制可能在肿瘤形成和癌症的进展中起到重要作用。在Mutual Exclusivity标签中,和特定肿瘤相关的基因倾向于相互排斥,如果存在基因排斥,也就是说这个肿瘤可能只有一种基因问题。相反是基因共生,一种肿瘤如果有多个基因同时存在,那这几个基因可能共生,其都在肿瘤的发生和发展中起到作用,这个肿瘤也很可能并非单一基因问题。如图4所示,基因两两配对,图表显示两基因之间共同表达或互斥单一表达,同时也给出了P值,当我们利用此数据时得考虑是否因样本量低而引起得P值较高,导致失去统计学意义。
图4 基因之间相互表达界面
在上标Plots部分cBioPortal提供了离散基因和连续基因的可视化分析,如mRNA或蛋白丰度或DNA甲基化。在查询时指定每个基因,cBioPortal会生成不同的散点图。我们可以对图表的横纵坐标进行调换,在Data Type选项中可选择基因突变和临床属性,当选择基因类型时在选项中可选择基因突变和突变野生型,当选择临床属性时可以选择癌种、诊断年龄、性别、发病部位等多种临床指标,根据筛选的各项指标,样本量也随之改变。我们以生存状态和诊断年龄为研究因素来探索信息,生成的散点图如图5所示。
文章来源:《肿瘤》 网址: http://www.zlzzs.cn/qikandaodu/2021/0201/742.html