公共数据库SCI怎么发？（一）-医家园

　　照这个趋势下去，本世纪会有超过10亿烟草相关的死亡。从流行病学角度，吸烟与至少17种人类癌症相关，但直到现在，还没有人找到吸烟导致癌症发生的背后机制。

　　多年来，科学研究发现吸烟可以对身体不同器官造成的灾难性的基因损伤，并不断试图寻找吸烟导致疾病发生的病理机制。

　　下面我们向大家介绍一篇SCI论文(Georgiadis, Hebels et al. 2016)，看它如何利用已有的数据，通过再次提出新的问题，并回答问题。

　　之前的研究主要关注于发现与吸烟暴露相关的生物标记（Biomarker）。

　　本文整合这些已发表的数据，回答科学问题：基于健康者血液样本，这些发现的与吸烟相关的转录组和甲基化组改变是否与吸烟相关的疾病发生有关。

　　首先，作者们分别对基因表达、DNA甲基化和miRNA表达数据进行了常规的差异分析，发现了一些差异基因。

　　A.吸烟者VS.非吸烟者，作者们发现了350个差异表达转录本（FDR0.1，其中231 FDR0.05），这些转录本可以定位到271个差异表达的基因上，且大部分基因是低表达基因。

　　B.吸烟者VS.非吸烟者，作者们发现了1,273个差异CpG位点（FDR 0.05），这些差异甲基化位点在吸烟者中是低甲基化的，它们定位到了725个基因上。

　　其中最显著的基因是AHRR，它上面有27个CpG位点显著（FDR0.05）。

　　这是很重要的结果，因为这个基因是吸烟甲基化研究中证据最多，结果最有力的。这里发现了它，可以有力的证明了结果的可靠性。不然就不好解释啦。

　　C.吸烟者VS.非吸烟者，作者们发现了34个差异表达的miRNA，其中26个高表达和8个低表达。

　　第一部分的分析发现了一系列的与吸烟相关的差异基因，这一部分作者们想建立这些发现的差异基因与疾病之间的关系。

　　通过这个数据库的疾病富集分析，可以找到差异基因富集的疾病List。这里作者们分别对差异表达基因集、差异甲基化基因集及它们的合并基因集进行了疾病富集分析（如图3）。

　　这里大家一定会意识到通过这样的疾病数据库分析，会有许多的疾病被富集，其中有一些疾病在流行病学研究中没有任何证据与吸烟相关。这个时候就要考虑到有可能是假阳性富集导致的这一现象产生。

　　所以作者们就想到了一个解决办法：利用已有的流行病学知识进行有效排除，即对那些有充足流行病学证据的疾病作进一步研究。

　　整合比较后找到一些较为可靠地富集疾病List，如一系列吸烟相关的癌症 (详见图4)

　　为了进一步研究吸烟相关的这些差异表达（DEG）/甲基化(DMG)基因在吸烟相关疾病中发挥作用的分子机制，他们进行了通路富集分析。

　　该软件是利用DEG基因集、DMG基因集和合集进行富集分析，总共有894个基因。

　　通过通路富集分析，发现了97个显著富集的信号通路（FDR0.05），这些通路都是与多种疾病相关，包括癌症与心血管疾病（如图5）。

　　所以可以利用生物信息学软件GORevenge进行鉴定hub基因，减少gene list的复杂度。

　　对于GORevenge软件：用户提供gene list, 软件利用Gene ontology（GO）进行富集分析，并根据GO条目的多少进行排序打分。通过这样的分析，本文总发现了40个基因是hub基因，关联的条目在30到120之间。

　　这个时候，作者想看看这些hub基因之间的关联关系，并通过网络构建作了一个全局性的展示。

　　这里用到的软件是STRING。发现它们之间存在一定的关联关系，并找到了几个重要的hub基因，方便后续研究。如下图6。

　　接着利用the Comparative Toxicogenomic Database数据库，对这40个hub基因做了疾病关联分析，结果发现同样富集了与吸烟相关的疾病，如肺癌和心血管疾病(图7)。

　　因为上面的研究都是基于健康者血液中的基因表达和DNA甲基化差异，来反映吸烟相关疾病发生的分子机制。

　　所以这一部分，作者利用已经发表的基于病人血液样本的数据对以上发现进行验证。

　　通过比较分析，发现在健康者中发现的差异基因也可以在病人的数据中发现（如下表），这一结果证明了本文发现的结果具有一定的可靠性。

　　老马小结：本文总体构思直截了当，通过组学数据的疾病富集与流行病学证据结合，找到与吸烟相关的疾病list。并通过一系列的生物信息学分析，发现与吸烟相关疾病发生的重要生物学通路和hub基因。再结合健康人与病人之间的结果一致性比较，证明发现结果的可靠性。总体来说，本文发表在Scientific Reports上是够了，但是可能仍有许多不足，需要改进，例如，本文采用了mRNA/DNA methylation/miRNA三种类型的数据，但通篇没有讨论他们之间是否有什么联系，而只是简单的把它们的结果合并在一起。