如何学好生物信息学？

来自：更新日期：早些时候

如何自学生物信息学~

先说一下自己吧，我硕士读的是细胞生物学，今年4月开始在boss要求下自学perl，打听了下，这本书不错，就买来开始看，等5月份去北京参加公司的培训班时，读了一遍，看了一部分。培训回来，我们的项目就开始做了，9月拿到所有原始数据和分析结果。然后，我对照着公司的分析报告，试着自己走一边分析流程，中间遇到问题，自己解决不了的，就发邮件求助。有几点需要注意：
1. 我能理解你想早些玩儿数据的愿望，但是在这之前，最好要有一个outline.需要知道数据从哪儿来的，怎么产生的?其实就是测序仪的工作原理。然后是数据质量检验，为什么需要数据过滤?接着是reads拼接和组装。总之，要对整个流程有一个认识，而后在学习的过程中，再不断回头对比这个流程，这样才不会有迷失的感觉。[这本书](BioInformatics for High Throughput Sequencing)推荐看一下。
2. 有了基础知识的铺垫，就可以尝试着自己做些练习了，paper上面都会给出他们的数据、原码地址，可以找来自己试试，先看看自己能不能做出一样的效果。当然，这时要是你手里正好有项目，那就更好了。
3. 学生物信息，paper肯定是要跟踪的。这两个网站可以经常看一下：
[homologous](Homologus - Frontier in Bioinformatics) 覆盖生物信息有趣的论文，算法，以及生物科学问题。这个网站还汇集了很多生物信息领域科学家的博客。再如BGI的主程罗瑞邦， SAMtools、BWA的作者Heng Li都有在这里出现。
[rna-seq Blog](RNA-Seq Blog) 推荐新的论文、工作、培训课程、大型会议等。
如果你是生物背景的，那么计算机方面的知识需要补一下：
- 需要能在linux环境下舒服的工作。比如从源码编译安装软件、PATH配置，再比如舒服地使用google找到问题的答案 :-)
- 学会使用python/perl。比如有的时候运行一个软件老是报错，可能就是因为在一个包含几十万行的文本文件里，有随机的那么几千行的末个位置，多一个冒号，[就像这里](using HTSeq | popucui), 这时候你知道需要怎么做了?
- 学会R。要从一大堆基因里面找出表达水平变化的基因来，需要统计分析和显著检验;而要把我们的数据更直观地展示出来，最好的方式就是图形了吧。这两个需要，R都能满足。当然matlab也是可以的，区别在于R是开源工具。
- 具备了上述技能，那么常用的软件就能用起来了。随着学习的深入，可能你的问题别人也没遇到过，这时候就需要自己动手，要么修改现成的工具，要么自己做一个出来。这时候，除了python/perl，或许还可以学学C/C++/java，或许需要研究下比如BWT、De Bruijn Graph背后的原理。

生物信息学，是一门综合学科。涉及到数学，生物学和计算机的内容。但在我看来，计算机的基础需要，但要求不是很高，关键是要有很好的生物学知识，包括遗传学的、生物化学的、发育生物学的、分子生物学的、植物生理学的知识等等，也就说需要达到这样的一个要求：在进行数据分析时，能对各种分析结果进行生物学的评价，并给出最优的分析策略。同时也应该有纯熟的数理基础，包括统计学的、拓扑学的，这样才能把待分析的问题转换成可计算的模型，最后能给出实现的程序。
从个人来说，因为生物信息学是一个非常大的领域，所以，关键是要确定自己的研究方向。比如，以关联分析为方向的生物信息学，那么就要掌握好各种关联分析的统计分析方法，有很强的数据管理能力，足够好的序列分析能力（这是进行variation查找和分析的基础）。
回到6年以前，如果决定在生物信息学上发展，那么我也许会做下面这些事情：
首先，从最不重要的计算机这个方面来说：
（1）要掌握好bash等脚本语言，一般的linux问题都能很好的解决
（2）熟练使用apache，mysql等基础软件工具，用joomla等CMS配置搭建网站
（3）应该努力精通perl，bioperl，以基于此的各种分析工具，比如gbrowser，cmap等
（4）足够好的c/c++语言能力，这是实现新算法的最高效语言。
（5）应该努力精通R语言，这是进行统计分析的基础工具
（6）如果有机会，学学erlang这样一些函数式语言吧
其次，从数学基础来说，我觉得应该：
（1）学好线性代数
（2）学好高等数学，或者数学分析
（3）学好统计学
（4）学好离散数学
（5）学好计算机算法和数据结构
其次，从生物学来说：
（1）如果没有进化论的基层，请把进化论学好
（2）学好发育生物学，植物生理学
（3）学好基因组学、遗传学等
千万不要认为这些没有什么用，当你在数据分析，怎么判断结果的合理性，或者对结果进行解释时候，都离不开这些生物学问题。最后，你对这些问题的理解成度，决定了你的生物信息学水平：只是一个有生物学知识的、会进行计算机操作的技术员，还是一个能给出解决方案的有良好计算机基础的能把握生物学问题的生物信息学家。
最后，从生物信息学的角度来说：
（1）对NCBI等各大数据库非常熟悉
（2）对各种生物学信息学的分析方法和策略非常的清楚，至少应该知道有那些工具软件，以及这些工具软件的原理和基于的生物学基础，包括：基因组学分析，表达谱分析，代谢组分析、调控网络分析、数据结果的整合展示等
最后，生物信息学是一个发展很快的学科，但因起涉及的内容比较多，因此，要想到底一定的要求，是需要付出巨大的努力的。此外，在进行生物信息学学习的过程中，对自己感兴趣的方法工具，一定要把文献上的数据拿来，自己独立分析一遍，自己去体会分析的过程，从而对这些方法和工具有更深入的理解。

我硕士读的是细胞生物学，今年4月开始在boss要求下自学perl，打听了下，<learning perl>这本书不错，就买来开始看，等5月份去北京参加公司的培训班时，<learning perl>读了一遍，<intermediate perl>看了一部分。培训回来，我们的项目就开始做了，9月拿到所有原始数据和分析结果。然后，我对照着公司的分析报告，试着自己走一边分析流程，中间遇到问题，自己解决不了的，就发邮件求助。有几点需要注意：1. 我能理解你想早些玩儿数据的愿望，但是在这之前，最好要有一个outline.需要知道数据从哪儿来的，怎么产生的？其实就是测序仪的工作原理。然后是数据质量检验，为什么需要数据过滤？接着是reads拼接和组装。总之，要对整个流程有一个认识，而后在学习的过程中，再不断回头对比这个流程，这样才不会有迷失的感觉。2. 有了基础知识的铺垫，就可以尝试着自己做些练习了，paper上面都会给出他们的数据、原码地址，可以找来自己试试，先看看自己能不能做出一样的效果。当然，这时要是你手里正好有项目，那就更好了。3. 学生物信息，paper肯定是要跟踪的。覆盖生物信息有趣的论文，算法，以及生物科学问题。这个网站还汇集了很多生物信息领域科学家的博客。再如BGI的主程罗瑞邦， SAMtools、BWA的作者Heng Li都有在这里出现。[RNA-Seq Blog](RNA-Seq Blog) 推荐新的论文、工作、培训课程、大型会议等。如果你是生物背景的，那么计算机方面的知识需要补一下：需要能在linux环境下舒服的工作。比如从源码编译安装软件PATH配置，再比如舒服地使用google找到问题的答案。学会使用python/perl。比如有的时候运行一个软件老是报错，可能就是因为在一个包含几十万行的文本文件里，有随机的那么几千行的末个位置，多一个冒号, 这时候你知道需要怎么做了？学会R。要从一大堆基因里面找出表达水平变化的基因来，需要统计分析和显著检验；而要把我们的数据更直观地展示出来，最好的方式就是图形了吧。这两个需要，R都能满足。当然matlab也是可以的，区别在于R是开源工具。具备了上述技能，那么常用的软件就能用起来了。随着学习的深入，可能你的问题别人也没遇到过，这时候就需要自己动手，要么修改现成的工具，要么自己做一个出来。这时候，除了python/perl，或许还可以学C/C++/java，或许需要研究下比如BWT、De Bruijn Graph背后的原理。

一、计算机基础，需要看三本书，一步步的学会学通，不需要刻意去找哪个书，一般linux是鸟哥私房菜，perl是小骆驼咯，R是R in action，但是看一本书只能入门，真正想成为菜鸟，必须每个要看五本书以上！我云盘里面有这基本上的高清打印版，大家可以去淘宝打印一下才几十块钱还包邮，对书比较讲究的也可以买正版，也不过是一百多块钱而已！二、生信基础知识，测序方面，在百度文库找十几篇一代二代三代测序仪资料仔细研读，然后去优酷下载各大主流测序仪的动画讲解，再看看陈巍学基因的讲解；数据库先看看三大主流数据库——NCBI,ENSEMBL,UCSC，还有一些也可以了解一些（uniprot,IMGT,KEGG，OMIN，TIGR，GO）同样也是百度文库自己搜索资料，但是这次需要自己去官网一个个页面点击看，一个个翻译成中文理解吃透；数据格式讲起了就多了，这个主要是在项目流程中慢慢学，或者你有机会去上课，不然你看来也是立马忘记的。

这类研究一般是分析自己或者合作者实验室里未发表的数据，并试图获得新的生物学发现。相比与0级，这已经有很大的进步，并且是训练生物信息学者最好的途径之一。可以练习将已有的生物信息学技术来做出真正生物学发现的技巧，学习更多的生信技术和生物学知识，可以启发、衍生出2级和3级的好课题。评价1级科研的功底和水平要看数据有多复杂, 是否需要生信人员写一些程序和算法（而不是只用他人的工具），生信分析在整个研究中的有重要性 (最重要的假设发现是不是由生物信息分析出来的，文章中生信图表的个数)，实验与计算的结合程度（实验与计算环环相扣，而不是高通量实验数据获得完跟个生信分析就拉倒），以及研究中生物学的发现是不是真的有意思，等等。因此兄弟我的看法是，1级虽然是“入门级”，但非常非常重要，所有生信专业研究生的必经之路，非生信领域的学者或学生，能达到1级中已可算是高手，进阶到1级上那就是凤毛麟角了。

如何学好生物信息学？视频

相关评论：

14711268742：如何才能学好生物信息学?
郦腾炎2.学习编程语言：生物信息学家通常使用Python、R或Perl等编程语言进行数据分析和处理。熟练掌握一门或多门编程语言对于学习生物信息学至关重要。3.学习生物信息学软件和数据库：熟悉常用的生物信息学软件（如BLAST、ClustalW、Cytoscape等）和数据库（如NCBI、UniProt、PDB等），了解它们的功能和使用方法。4....

14711268742：学好生物信息学专业的前提条件有哪些?
郦腾炎最后，沟通能力和团队合作精神也是学好生物信息学的重要条件。生物信息学是一个跨学科领域，需要与来自不同背景的人合作完成项目。因此，具备良好的沟通能力和团队合作精神能够帮助你更好地与他人协作，共同完成研究任务。

14711268742：怎么才能学好生物信息学?
郦腾炎2.参加培训课程或在线学习：通过系统的课程学习，掌握生物信息学的基本原理和技术。3.动手实践：通过实际操作，熟练掌握生物信息学的各种技能。4.参与项目或实验室工作：在实践中锻炼自己的能力，积累经验。5.与同行交流：参加学术会议和研讨会，与同行交流心得体会，拓宽视野。总之，学好生物信息学需要付出...

14711268742：如何学好生物信息学专业?
郦腾炎强化数学和统计学知识：生物信息学中大量使用统计学方法来分析数据，因此具备良好的统计学基础是必不可少的。掌握概率论、假设检验、回归分析等统计概念将大有帮助。学习编程语言：熟练掌握至少一种编程语言（如Python、R或Perl）是必要的，因为这些语言在生物信息学数据分析中广泛应用。Python和R特别适合进行...

14711268742：如何学好生物信息学专业?
郦腾炎寻找导师和建立网络：找到经验丰富的导师可以帮助你在学术和职业道路上取得进步。同时，建立一个专业的网络可以帮助你获取资源、信息和支持。时间管理和组织能力：学习生物信息学需要处理大量的信息和任务，有效的时间管理和组织能力可以帮助你更高效地学习和工作。总之，学好生物信息学专业需要多方面的努力，...

14711268742：如何学好生物信息学?没有计算机基础的学生
郦腾炎首先要具有生物学的基础，然后熟悉大部分的生物信息学软件，然后会机器学习方法或优化算法就行，计算机和英语一样，只是一种工具，可以找别人做，也可以自己学，半年就会了。

14711268742：如何学好生物科学专业?
郦腾炎学会使用专业软件：生物信息学在现代生物学研究中扮演着越来越重要的角色。学会使用生物信息学软件和数据库，如NCBI、BLAST等，可以帮助你更好地进行数据分析和研究。建立良好的学习习惯：定期复习、整理笔记、主动提问、与同学讨论等都是提高学习效率的好方法。寻找导师和榜样：找到一位好的导师或者学术榜样...

14711268742：如何学好生物科学专业?
郦腾炎参加学术活动：参加学术活动可以拓宽视野，了解最新的研究成果和技术动态。可以关注学术会议、讲座、研讨会等活动，与同行交流，提高自己的学术水平。培养跨学科思维：生物科学与其他学科有很多交叉领域，如生物信息学、生物医学、生态学等。要想在生物科学领域取得更好的成果，需要具备跨学科的思维能力。可以...

14711268742：搞生物信息学研究需要哪些计算机语言基础
郦腾炎熟练掌握一门就好了，非常推荐Python，当然生物信息学领域用的最多的还是Perl 对C,R什么的也得了解一点，能读别人的代码最好了。

14711268742：学习生物信息学对于数学有要求吗?
郦腾炎一般在网上看到说生物信息简单的都是公司里做测序跑流程的杂鱼，这些人对他手上的工作完全不懂原理。好在一般生物信息软件开发第一条就是保证不懂电脑的科研人员也能适应，所以傻瓜型的居多。然而数学不行对于做生物信息研究的人是极大的瓶颈，因为最了不起的生物信息领域都落在数学，物理，化学上了，你...

喜物网dongwu.xikan.tv

如何学好生物信息学？

相关主题精彩