表型数据整合

一、表型数据平台介绍
根据临床科研的实际需求,将研究对象的各种临床科研数据结构化地录入表型数据平台中,实现对各种数据进行分类管理,数据涵盖研究对象的基本信息、既往史、家族史、生活史、用药史、生化检查结果、影像检查结果、诊断情况、治疗情况、手术情况、随访情况等等各方面因素。
表型数据平台可帮助临床科研专家按照临床数据的要求筛选数据,并最终导出符合条件的结构化数据,为进一步进行科学分析提供支持。其目的在于为临床科研专家提供队列研究的数据储备;为发现疾病相关的生物标志物提供统计学分析基础数据;为进一步揭示疾病的分子层面机制提供疾病表型的统计学基础数据。
二、表型数据平台特点
通过疾病临床数据模型记录研究对象的各种临床科研数据,实现临床科研数据分类管理、数据的自动计算、记录、导出,帮助临床科研专家根据临床数据要求快速导出相关疾病与临床数据之间存在的内在联系的符合筛选条件的临床科研数据集合,为进一步科研统计分析提供临床数据支持。
三、“基因+表型”显著提升模型预测的准确性
乳腺癌是由一群异质性很高的细胞组成的,具有多样的形态学亚型和生物学行为。癌症治疗中主要的挑战之一就是确定能够从某种辅助治疗中获益的患者亚群,这样就可以尽可能减少过度治疗或治疗不足。临床医生需要对很多经过临床验证的患者信息以及肿瘤相关因素进行综合考虑,以便为患者制定有效的辅助治疗方案。具有预后价值的两个代表性系统分别是TNM分期系统和组织学分级系统。
采用新的芯片技术在临床的乳腺癌样品中进行基因表达分析是一个巨大的进步。关于乳腺癌分析分型的最初证据来自于一个cDNA芯片研究,将乳腺癌分成luminal A,luminal B,HER2+,基底样和正常型5种亚型。基于RT-PCR的PAM50基因检测包含50个基因,能够鉴别以上5个亚型,并且能够给样品提供一个连续性的风险评分。同时,比较了几种不同模型的预测准确性(如下)。
Model 1: tumor size, grade, and ER status
Model 2: ROR-S = 0.05 * basal + 0.12 * HER2 -0.34 * LumA + 0.23 * LumB
Model 3: ROR-C = 0.05 * basal + 0.11 * HER2 -0.23 * LumA + 0.09 * LumB + 0.17 * T
Model 4: subtype + T + G
结果显示,Model 2和Model 3两种分子分型方法的准确性显著优于传统分型方法,并且Model 3在加入了Tumor Size之后,性能又有显著提升。
原文出处:Parker JS, Mullins M, Cheang MC, et al. Supervised risk predictor of breast cancer based on intrinsic subtypes. J Clin Oncol 2009, 27(8):1160-1167.