技术支持technology

您现在的位置:首页 > 产品中心

要学多少生信数据库,才能做好基础科研?
2017-11-17【点此返回】

大数据纷飞的年代,不学点数据库挖掘技能,你都不好意思跟人说自己是搞基础科研滴。

META已废,问世间不做实验不花钱就能发SCI的套路,貌似仅剩生信分析与临床研究两款。临床研究还需要高质量临床资料的支撑,诸君恐巧妇难为无米炊。而生信套路堪称“无中生有”,网上下载数据,唰唰唰那么一分析,出一堆语焉不详的靓图就组成一篇SCI。

于是,我在无数个场合听到学员说,老师,教教我怎么用数据挖掘发文章吧!同学,你看你哈喇子都流下来了,赶紧擦一擦。

生信套路有七十二般变化,然而饭是一口口吃的。在灵活应用生信工具发表SCI文章之前,你首先要做一个能在各大数据库之间自由穿梭的优雅男子/女子,唯有此,你才有机会进阶成为玩弄数据于股掌之间的生信高手。

驾驭生信策略,首先得了解数据库的分类用途。数据库可分四类:信息数据库、通路数据库、互作数据库和高通量数据库。信息数据库,如NCBI,UCSC,Ensenbl查DNA和RNA信息,Uniprot查蛋白信息,类似于个人身份证ID,集特征信息于一体(上周解螺旋有免费赠课)。

通路数据库如KEGG,DAVID,GSEA,提供信号通路与功能聚类相关的指引,做机制的时候先分析再验证逼格立马Level up(文章底部有福利)。

互作数据库主要用于预测分子与分子之间的相互作用,比如miRNA的靶基因,lncRNA的结合蛋白,启动子结合的转录因子等等,是机制环节展现深度的闪亮钥匙。以上这些,均不足以直接通过分析产生SCI文章,要用别人的数据发自己的文章,仅有挖掘高通量数据库可实现。

高通量数据,即基因芯片和二代测序数据,前人将他们的筛选结果无私地分享,上传至开放数据库存储,后人就可以依据自己的问题和理解二次分析产生新的结论发表。高通量数据仓库中经典有GEO、ArrayExpress和SMD,主要存储基因表达的芯片数据,做肿瘤的同学更幸福,有TCGA,Oncomine等专门的疾病数据库。

那么,到底要学会使用多少生信数据库(软件),才能做好基础科研呢?不好意思,我又想起了同学们谋求最小代价发SCI的世俗思路,酸菜知道,不假装清高,才能深入民心。好!最有效率的生信技能学习路径,我不妨来解一解。

在你追求低分灌水的阶段,学会使用GEO这一类的表达数据库是极有必要的,从数据库下载数据只是第一步,关键是学习分析的方法,这里面有大量的统计学知识,需要逐一攻克。

总体而言,高通量数据分析的结果是为了获得一个或者一组靶标,这其中可以用1个或者几个数据子集,然后利用有临床资料的数据子集,再去分析高表达和低表达对疾病发生、发展及预后的影响。这一套路中需要掌握2种具体技能:高通量数据筛选差异基因的分析流程,以及临床资料进行单因素、多因素和生存分析的统计操作。

有时候,单个靶标不太过瘾,高阶的统计学手法可将多个靶标根据评分组成多维度的分子预测模型,按照这一思路,基本步骤是一个数据集建立模型,再选择另一个数据集验证模型,最好再来点自己的样本做独立验证集,由此证明模型的有效性。

其实,差异分析加上临床相关性研究,已经能够产出一系列数据结果,如果再有细胞水平做表型验证,文章会很容易发表。

然而不想做细胞实验的同学,单指标分析看上去太水不容易发表,改用复合指标建立预测模型会是一个很好的提升逼格方法。这一类挖掘基因表达数据后用复合指标建模的操作流程难度类似于META分析,用学META的时间投入可一举攻克。

随着科研能力的递增,“干湿结合”的研究方法就自然而然成为主要策略,生物信息学谓之“干”,细胞分子实验谓之“湿”,只有大数据分析加上生物实验验证的结果才能发表高水平的paper。

到了这一阶段,信息数据库往往是实验入门的基础应用,设计引物,做表达克隆,siRNA都少不了查序列信息,做Western验证还应该考虑蛋白的大小、亚细胞定位等特性,相关数据库会高频用到。

细胞表型Gain of function和Loss of function的“湿”,配上前面数据挖掘获得的“干”,完美地组成一项层次分明的研究课题,是当下流行风气。

我们似乎还没有用到通路数据库和互作数据库?莫急,分子互作的预测只有当你细胞、动物实验表型做完,深入到分子机制的时候才会涉及,特别是研究miRNA,lncRNA这些非编码RNA的同学,对此心有戚戚,难舍难离。

用到分子互作数据库的文章档次应在五分往上,因此科研入门阶段,并不需要惦念过甚。倒是通路数据库,无论是做靶标筛选还是机制探索,都有其一席之地。给一组分子,还你一套调控网络图,怎么看都是价廉物美,童叟无欺的良心工具。


版权所有 © 2017 上海桂康生物科技有限公司、常州爱复康生物科技有限公司 网站制作:企炬中国管理入口