行业分类

联系我们

构建ctDNA肿瘤标记物数据库

我们公司的陈星强博士对之前(16年中旬)在智能医疗领域实习阶段做了一个复盘。

陈博士这个复盘越来越明确地告诉我们,数据是可以给予我们知识的,尤其是你拥有可观的数据之后。

但是在研究任何一份数据之前,你必须明确两个指标,尤其是对于医疗的数据而言,这两点尤为重要:

首先,你的研究基准在哪里;

其次,你的数据是否足够支持你论证结论,简言之,统计假设是否成立,是否可以回溯历史和支持推断。

在今天,我们还得额外考虑,是否可以探索意料之外的知识。



简单理解下标题:

生物标记物ctDNA(circulating tumor DNA) 即游离于血液中的,由癌细胞释放出来的DNA 片段。这些片段上带有人体DNA在细胞癌变后,随机遭遇到的突变(variance)、甲基化(‘--H’-->‘--CH3’ )等的各种可能的修饰,据说蛋白质的修饰方式有400多种,当然,DNA至少也应该有这么多种不同的修饰。

自然而言,谈到液体活检,我们不免感到陌生,可是实际上我们去医院都会有液体活检的流程,抽血化验,尿检,粪便检查,都是Liquid Biopsy。毕竟现在医院里都是基于分子实验室的配套设施在做这些检查,Biopsy 没问题。

由于ctDNA 是位于血液当中的cfDNA(Cell-free DNA)中的一部分,我们关注的就是血液中的 游离DNA,并且希望借助它们获得我们对身体各处细胞的情况进行探查。研究意义不明觉厉。



由于DNA的甲基化能够抑制基因在相应位置的表达水平,从而进一步抑制某些蛋白的表达水平,从而导致细胞发生不可修复的病变,比如癌变,细胞凋亡,细胞焦亡,细胞坏死等情况。

所以,DNA的甲基化水平是我们额外关注的问题。如何检测呢?

THIS WONDERFUL LI



THIS WONDERFU



既然意识到ctDNA的重要性,基于此,我们在现有大量样本的数据前提下,是否可以做出一些基础性的探索和尝试一下呢?

我的工作在准备数据和的阶段做了很多尝试,在算法和计算呈现上,也在不断尝试。

组学研究的整体思路:



所使用到的各类组学研究支持的数据库:



各类组学分析的办法:



工作准备,数据获取部分:



数据重构,对10000样本的数据进行重构,规制数据到16种癌症中,用直方图体现每个甲基化位点在16种癌症患者的分布情况。直方图如下,这样的图一共有45万张。每张的数据位点有10000个。



上图说明:在甲基化位点为:cg00324097,癌症类型为brain(脑癌),基因3-Mar_LMNB1和其他15种癌症具有显著的表达差异。



相应采取的分类和聚类算法介绍(略)



通过简单统计就可以找到潜在的标记物(DNA片段),以在临床上验证过的SEPTIN9 基因(结肠癌ctDNA标记物片段)图中蓝色线段显著在结肠癌患者中高表达。



最后 感谢大家!

也欢迎大家能够提供更多支持和建议!

我们想这个事情做起来还是非常有意义的,至少可以帮助医生提供更多信息,早诊断,早治疗,节约很多医疗和人力成本,使病患受益。

我们希望这个课题或者项目能够以数据库的方式,结合机器学习算法的办法,去不断优化,能够给我们国家的医疗提供相应的数据支持,对液体活检试剂盒的开发能够做出贡献。

欢迎对此项目有兴趣的企业、医院、个人联系我们,我们愿意提供数据支持,算法支持,GPU工作站支持,携手做些有意义的事儿!

--------END--------

相信我们的一腔热血不会让你失望

感谢你的关注、点赞及支持

!!!