教你挖掘TCGA轻松发表SCI(IF5

作者:  时间:2018-08-22  热度:

  看了这个流程图,是不是瞬间感觉自己也能做呢?那么下面咱们一起来解读一下这篇文章的思路吧。

  1、首先文章共分离出了7589个lncRNA,事实上TCGA上lncRNA的数量远不止于此。

  2、使用R包DEseq来筛选具有差异表达的lncRNA,共得到4225个差异的lncRNA。事实上lncRNA丰度都比较低,使用该包未必是最优的选择。

  3、对每一个差异的lncRNA做单因素生存分析,共筛选出41个有预后差异的lncRNA。这41个lncRNA在论文中不好展示,直接用表格作为补充材料提交。

  4、对这41个lncRNA进行多因素生存回归分析,最终构建出5个lncRNA的生存模型。

  5、得到这五个lncRNA后,首先要展示这五个lncRNA的染色体位置,预后的显著性等各方面信息,以便大家了解这五个lncRNA的基本情况。

  6、接下来就要看看不同风险分数(PI)下,这五个lncRNA的表达和预后情况,为之后的样本分类做好准备。

  这个图显示了五个lncRNA构建的预后模型中不同样本的风险得分以及表达水平上的对应关系。从图中可以看出随着风险得分的增高,样本的死亡时间有所加快(图B);且前两个lncRNA的表达有下降趋势,后三个的表达呈现上升趋势。这就说明三个问题:

  那么这个图是怎么做出来的呢?其实很简单,三个图横轴都是样本,按照风险得分进行排序,第一个就是散点图,第二个也是(将死亡的标记成红色),第三个是热图,三个图组合一下就完事,实在不行一个一个画,画完之后用AI拼一下就行了。

  7、通过对比这五个lncRNA的预后模型与现有的病理学分类的区别,最终发现这个模型比现有的要好一些(这就是这篇文章的全部意义。。。)。

  8、既然模型公式有了,那么选择一个好用的阈值来进行分类就显得至关重要了。这里使用ROC来评判模型的好坏,以及选择一个最优的阈值(A图中对应y轴-x轴最大那个点)。

  9、找到最优的阈值之后,对样本进行分类,然后对比一下五个lncRNA的表达情况。图一定要好看。

  10、使用WGCNA构建共表达网络来看这五个基因的功能。小博猜这一步应该是为了说明,如何找到这五个lncRNA中最关键的lncRNA-RP11-54H7.4。其实小博觉得如果跟基因表达一起构建的话,可能更有利于说明这个lncRNA的功能。

  11、通过其他数据集进行验证。作者不仅利用好多套GEO的来验证预后,还结合该课题组之前的lncRNA数据来验证差异表达。

  这样分析下来,是不是觉得5分也不是很难呢,赶快行动起来吧!有问题找小博,24 hours standby !返回搜狐,查看更多

美文.分享

人喜欢

上一篇下一篇
猜你喜欢
点击加载更多内容  ↓