之前咱们在介绍TCGA筛到候选分子该如何往下做、介绍Oncomine的使用时,曾经提到过基础研究的数据构成,理想情况下应该包括四个维度,即分子、细胞、动物、组织(临床样本)。
从数据库或前期的高通量筛选课题中找到一些有潜力的候选分子后,需要在临床样本中看看它跟生存、预后的相关性,进一步确认它的研究价值。我们的单元课02就是来解决这个问题,怎么分析某个分子和临床的相关性。
再回顾一下《TCGA筛到了基因,如何继续往下做?》这一节,酸菜提到过此类研究的风险,有可能你拿到的候选分子做下来是没有表型的,这种风险还蛮常见。所以通常不会只选一个分子,而是有3-5个备胎。
这些备胎里有一个验证成功了,那就保本了;成了2个就赚一个,成了3个就是3篇SCI了。没错,一个分子发一篇。
只做临床相关性的线分是意料之中的。如果想冲上3-5分,可做亚组分析增加层次感,也给文章的讨论部分带来一些更深入讨论的空间。但再想往上就难了,需要增加其他的实验了。
有一点需要注意的是,本节课讲的是基础研究中,某分子与临床指标相关性的分析。它和临床研究中的病例对照研究、诊断性研究有相似的地方。
区别在于,此处观察的暴露因素是一个新型的待深入阐释作用机制的分子,离临床应用还有很远;而且在数据的处理上,也没有临床研究这么多严格的规范,酸菜总结了四个字:不太严谨。
不过也不代表可以胡来,该有的规矩还是有的。只是说如果你已经学习过临床研究的统计方法,今天的内容可能对你来说应该很Easy。如果啥都没学过,这便是很好的一个入门课。
小明想研究某基因(代号ABC)的表达与患者肿瘤恶性程度的相关性,于是回顾性收集了80例患者的信息和肿瘤样品的石蜡切片,通过免疫组化检测了ABC在肿瘤组织中的表达,数据见Excel“基线资料数据-作业”,请你帮忙做基线数据表:
基线岁为界线年为界线) ABC的表达(即“ABC(IHCScore)”),可按0至2=低表达,3至4=高表达
基线表是要对纳入研究的患者的一些特征做总结,也就是简单的描述性统计。其中包括人口学特征,以及跟所研究的疾病相关的一些临床信息,包括你考虑到的所有潜在的混杂因素。
先看看示例数据,80例去身份识别的临床资料保存在Excel表中。我就截取前10例展示一下。
先判断数据类型,不同的数据类型在基线表中会有不同的参数来表示。分类变量(如性别、年龄、是否肥胖等)通常用“例数(百分比)”的形式;而连续变量要看是否符合正态分布,符合就用“平均值±标准差”,不符合就用“中位数(1/4-3/4分位数)”。
主要提醒注意一些容易不小心弄错的数据类型,比如T分期,1~4看起来是数字,其实是等级变量,分类变量的一种,也可以写成T1~T4,所以也是用“例数(百分比)”去描述的。同理,Treatment那里1~3也只是3种处理方法的代号,实际工作中你应该是写处理名称比如“手术
还有年龄、病程和基因表达值,原来是数值型变量,但题目要求按照55岁为界分成两组,其实也就变成了二分类变量。
先要做些文字转换,因为到后边做回归分析的时候,对表格中的文字不能正确处理,所以要将文字转换成数字,比如性别一列中, “男”→
然后点工具栏上的筛选,表头右下角就会出现下拉框的箭头。上边的表是已经点好筛选的,所以你早就看到那个小箭头了。
55岁组,填上“1”。同样处理好其他需要分组的数据。接下来在SPSS中打开Excel表:
接下来的弹窗主要提醒确认勾选上“从第一行数据中读取变量名”,其他的默认就好。或者再在工作表那里检查一下是否覆盖了Excel表中的所有数据。
然后就做刚才说过的赋值。在转换过数字的那个变量的“值”那一格点一下,弹窗中填好各数字对应的值,比如刚才转过的性别中,“女”为0,“男”为“1”,那就是这样:
小明想研究某基因(代号ABC)的表达与患者肿瘤恶性程度的相关性,于是回顾性收集了80例患者的信息和肿瘤样品的石蜡切片,通过免疫组化检测了ABC在肿瘤组织中的表达,数据见Excel“基线资料数据-作业”,请你帮忙进行以下分析:
1) 年龄可按55岁为界线年为界线) ABC的表达(即“ABC(IHCScore)”),可按0至2=低表达,3至4=高表达
→交叉表”,然后把基因表达值做为交叉表的列,其他因素为行。点开“统计”选卡方。
所以此处选皮尔逊的0.34为P值。看完所有因素和基因表达的相关性分析后,将频数、P值整理成如下表格:
小明想研究某基因(代号ABC)的表达与患者肿瘤恶性程度的相关性,于是回顾性收集了80例患者的信息和肿瘤样品的石蜡切片,通过免疫组化检测了ABC在肿瘤组织中的表达,数据见Excel“基线资料数据-作业”,请你帮忙进行以下分析:
多因素Logist回归分析ABC的表达是否是肿瘤发生转移的独立风险因素。
肿瘤转移与否是作为结局,它个二分类变量,所以选择二元Logistic回归。如果结局是多元分类变量,比如好、中、差,则选择多元Logistic回归。
→回归→二元Logistic回归。然后因变量选择转移,把其他潜在的影响因素选作协变量。虽然年龄、病程、ABC表达我们刚才做了分组,但这里最好是选择原始的连续值数据。
显然治疗方法和肥胖都是p 0.05,ABC表达倒不是。所以ABC不是肿瘤转移的独立风险因素。
小明想研究某基因(代号ABC)的表达与患者肿瘤恶性程度的相关性,于是回顾性收集了80例患者的信息和肿瘤样品的石蜡切片,通过免疫组化检测了ABC在肿瘤组织中的表达,数据见Excel“基线资料数据-作业”,请你帮忙进行以下分析:
→Cox回归”。然后在把随访时间选到“时间”变量中,“状态”则是生存状态,把要分析的单变量放到“协变量”中,这里先做性别。
在输出的结果中,同样找到刚才的那几个值,Exp(B)就是Hazard Ratio。
可以看到在单因素Cox分析中,跟生存有显著相关的几个因素是治疗、病理分化、转移和ABC基因表达。
小明想研究某基因(代号ABC)的表达与患者肿瘤恶性程度的相关性,于是回顾性收集了80例患者的信息和肿瘤样品的石蜡切片,通过免疫组化检测了ABC在肿瘤组织中的表达,数据见Excel“基线资料数据-作业”,请你帮忙进行以下分析:
这和上边的操作差不多,区别就在于,多因素是把所有要分析的因素同时放到“协变量”中。就选择单因素Cox回归中得到有显著性差异的那四个。最后就得到一张汇集各因素结果的表。
太多了太多了,搞得我心生惭愧,好了,SPSS基础班的可以下课了,R语言搞事班的请继续看第二条,麦子首次原声讲解用R语言做作业。
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。阅读 (