数据重现
1、血小板RNA-seq早期诊断多种癌症
作为血液中第二丰富的细胞类型,血小板是由骨髓造血组织中的巨核细胞产生。多功能造血干细胞在造血组织中经过定向分化形成原始的巨核细胞,又进一步成为成熟的巨核细胞。成熟的巨核细胞膜表面形成许多凹陷,伸入胞质之中,相邻的凹陷细胞膜在凹陷深部相互融合,使巨核细胞部分胞质与母体分开。之后这些被细胞膜包围的与巨核细胞胞质分离开的成分脱离巨核细胞,经过骨髓造血组织中的血窦进入血液循环成为血小板。
外界刺激如血小板表面受体的激活和脂多糖介导的血小板激活,甚至在癌细胞和肿瘤微环境的基质细胞和免疫细胞的刺激条件下,血小板的pre-mRNA能被剪接为成熟RNA,然后转化为功能性蛋白应对外部刺激。
研究结果
Myron的研究团队,从283名对象身上抽血,分离血小板并提取RNA,随后进行高通量测序,通过差异基因筛选和SVM建模,基于肿瘤血小板的RNA测序能够区分出228名是肿瘤患者(包括局部和转移肿瘤)和55名是健康个体,其准确率达96%。也可以区分6种不同类型的肿瘤,其准确率达到了71%。结果表明,肿瘤血小板mRNA为泛癌症检测、肿瘤分类和肿瘤突变基因诊断提供了一个有价值的平台,并促进了基于血液的液体活检的发展。
原文出处:Best MG, Sol N, Kooi I, et al. RNA-Seq of Tumor-Educated Platelets Enables Blood-Based Pan-Cancer, Multiclass, and Molecular Pathway Cancer Diagnostics. Cancer Cell 2015, 28(5):666-676.
伯豪改进
伯豪生物的生物信息团队首先通过计算机对多种不同的特征选择和分类模型算法进行大规模计算评估,优化算法。
根据计算机模拟结果,特征选择模型为SVM,biomarker数量为400,逻辑回归作为分类模型。结果显示,伯豪算法的预测准确性为76%,优于文献中的71%。
2、乳腺癌分子分型
乳腺癌是由一群异质性很高的细胞组成的,具有多样的形态学亚型和生物学行为。癌症治疗中主要的挑战之一就是确定能够从某种辅助治疗中获益的患者亚群,这样就可以尽可能减少过度治疗或治疗不足。临床医生需要对很多经过临床验证的患者信息以及肿瘤相关因素进行综合考虑,以便为患者制定有效的辅助治疗方案。具有预后价值的两个代表性系统分别是TNM分期系统和组织学分级系统。
采用新的芯片技术在临床的乳腺癌样品中进行基因表达分析是一个巨大的进步。关于乳腺癌分析分型的最初证据来自于一个cDNA芯片研究,将乳腺癌分成luminal A,luminal B,HER2+,基底样和正常型5种亚型。基于RT-PCR的PAM50基因检测包含50个基因能够鉴别以上5个亚型,同时能够给样品提供一个连续性的风险评分。
伯豪生物利用TCGA数据库中大量的数据资源,通过随机森林算法筛选biomarker并建立风险模型,用更少的基因数目达到了跟PAM50相同甚至更高的分型准确性。