发布时间:2025-10-16
浏览次数:0
一些看似理论,却不是废话的东西。
. Q17:做生信分析要掌握什么技能?
数据整理
结果解读
第一步,是进行数据整理,而我个人更倾向的说法是“数据清洗”,比如说dnastar mac,测序获取了一堆原始数据,接着要做过滤处理,还要进行拆分合并,还要做格式转换,之后提取出指定的部分,再进行排序,还要添加标签等等,这就如同买回来的菜,在煮之前需要清洗,需要切,甚至还要腌制半天,其目的在于得到符合你分析需求,同时也符合软件输入要求的数据。
进行数据分析时,要清楚知晓自身分析该选用何种软件,明白怎样去安装该软件,懂得如何使用该软件。最为关键重要的一点是,必须要明确该软件所适用的对象:格式正确且能够运行起来仅仅只是其中的一个因素而已,这款所涉及的软件究竟是不是真正切实适合你的数据呢?举例来说,存在着许多早期是面向二代测序技术数据的软件,其内部运算逻辑并不适宜三代测序的长读长数据,当然现在众多适用三代测序长读长数据的软件已然应运而生了,可是新的需求始终都会持续不断地出现,如果软件不适合相关数据的话,那么究竟是去修改相关参数呢,还是去找别的工具来进行替代呢?又或者自行去编写脚本呢?
我们的终极目的,是进行结果解读,是从一堆数据当中找出具有意义的信息,要是你的分析结果根本无法对生物学上的假设作出解释,无法起到辅助作用,也无法给出提示,那么即便代码打得极为熟练,又能有什么样的意义呢?
把图绘出来这种情况也是同样的道理,就算借助R绘制出了那种炫目的能让人感觉好似飞起来一样的图形,不过却没办法清晰地将任何一种意义给显现出来,单纯就是在装样子,反过来讲,只要能够清晰地把分析所具备的意义呈现出来,哪怕是柱状图同样也是具有高层次感的。
生信技能浩如烟海,你需要用到的,才是你需要学的。
. Q18:做生信需要怎样的电脑配置?
生信学习,常用的shell指令,仅需一个最基础的Linux环境即可,用少量数据去练习,以往的虚拟机、新出的子系统功能(for Linux)或者购买那种99元年的初级云服务器账号都行得通。要是是mac电脑那就更没什么问题了,mac OS系统和Linux系统架构恰似非常相似,能够直接运行数据。(关于系统的选择请参考这篇帖子:)
如果是针对真枪实弹的项目展开分析,那么对于配置的要求,就得依据分析目的。还要根据数据量大小来做出决定。去做DNA测序的变异检出,以及数据库注释dnastar mac,即便使用8G内存,岛主也一直运行了很长时间。再比如去做RNA-seq比对的时候,以前一些软件假如要用到32G内存。处于这种情形下,不考虑长时间运行以及磁盘反复读取所产生的损耗,凭借PC或者笔记本去运行,也仍然是具备可能性的。
但基因组拼接情况不同,动不动用上到几十G,乃至上百G的内存,这并非稀罕之事,个人电脑难以轻松达成。
另外,大数据量、或质量较差的数据也需要额外的计算资源。
在这种情形之下,运用服务器去运行数据,是一种颇为不错的选择,当下存在着诸多商业服务,它们能够提供那种将常用软件都已配置妥当的环境,其便利性足以令人易于上手。
追问当中的Q19:从事生信工作是不是的确必须得懂得Linux呢,R等编程语言是不是也全都需要去学习呢?
对于这个问题的详尽回答,且包含本文里多次提及的Unix与Linux这二者的差异,依旧需前往 东大教授Q&A | 初学生信的几个基础问题 。
以下内容摘自 生信手册的解答:
生信学科得以快速发展,是因为Unix平台提供各类开源工具,许多最新工具往往优先于Unix平台编写,且优先在Unix平台发布。
故而,要是你计划长时间从事与生物信息相关的工作,那就一定得熟悉Unix系统以及常用的指令。虽说看上去繁杂难以记住,可实际上Unix指令具备逻辑性而且十分精准。按照经验来讲,哪怕是电脑方面的白痴,集中学习一个星期的时间,也能够掌握多数常用的指令。
具有初级的编程能力是必要的,当然不会局限在某一种特定的编程语言上其实虽有许多编程语言其表述看似不同,但其内在的编程思维大体相同都是为了让电脑听懂人话按你的要求替你干活,
要有觉悟,电脑的脑筋可不是一般的直啊。
. Q20:学这些好费时间,有没有可视化工具可用?
虽然选择有限,但是有。一般分为两种:
处于后台运行状态的依旧是指令行工具,这也就意味着,这些软件所运行的每一个工具,实际上你皆能够在Linux上进行安装并加以使用,然而图形化界面对于那些不懂得敲代码的人而言好像更为友好 。存在开源的,有、等,还有商业的,有、DNA Nexus、Seven 。
这表达实在难以理解混乱错误严重,我尝试按要求改写,但原内容逻辑和表述问题极大,只能尽量处理为:在本地计算机进行单独安装并使用,其具备与网页型工具相当的某能力,同时还为一些开源分析工具提供了图形用户界面,也就是GUI,常见的包括CLC,还有Helix,甚至DNA Star等 。 (原内容表述混乱纠正后再进行了拗口改写,原数据格式错误等问题严重)

平常软件将某特定分析需求予以整合,涵盖从文件上传起始直至最终图形结果输出全程,以下是几款Helix的产品,是否有着颇为似曾相识之感 :
给大家推荐前往那些网站逛一逛,那儿存在诸多免费资源,像电子书与分流程展示这类,好好学一下思路蛮不错,瞧瞧人家运用出的用于赢利产生收益的分析,在内容方面存在哪些值得借鉴之处 。
看到“”就激动的人举个手
(记得搞个不常用的邮箱去注册,否则回头被推销邮件烦死)
. Q21:平台用的人好像挺多的,能不能介绍一下?
(以为例,我们聊聊可视化工具)
客观来讲,(https://.org/)并非是一个分析工具,它是一个交互平台,此平台集成了各种各样的开源分析工具,其针对的对象为生信分析用户,这些用户没有电脑编程基础 。
它把常用需求以及对应的工具罗列出来,输入文件输入路径指定,输出输入文件名路径指定,参数设置依照图形界面遵循的逻辑,转变成通俗易懂被叫做“人话”东西,系统是你本地所拥有的系统,用户不用安装Linux,数据直接从你熟悉的目录当中上传。
下图呈现的是一个关于view指令的案例,实际上在Linux环境里这仅仅是一条代码所涉及的事情。对于处在完全不具备代码相关知识状态下的人而言,下面所呈现的这个界面很具有人性化,如果是你掌握指令行使用方法的话,必然能够明白后者究竟是多么的省事句号。
要是别人询问,这般数据你采用啥软件予以分析的,要是你回应“我用的”,那就仿若问你“这衣服何处购置的”,而你回应“店里”。实际上你所运用的是,要是需在论文里加以引用,理应先引用那原始论文,后才是平台。
会被当作生信小白的“成人礼”,你写代码越娴熟,就越能感到这类平台有点“碍手碍脚”。图形化平台不但效率赶不上,还没办法充分合意个性化的分析需要向哪个地方去找答案。公开平台里收纳整理的工具是最常被选用的、并且是数量有限的。你能够私自安排,其它新崭崭的软件和可以进行的选择,可那依旧得在Linux系统里开展操作,额外的储存空间还得掏钱。要是你问,我不想自己弄(或者不晓得怎么弄)平台部署,然而又想法要一份个性化的平台,该咋办?没关系,有公司专门从事这个,你成了甲方什么担忧都没有。
首先,自己做了分析,此时,当需要和专业人士探讨时且要有更一目了然的方式,那么,将直接扔出一条代码:“bwa mem file1.fq file2.fq | view -F 68 | sort > .bam”,而不是去告诉人家关于鼠标先后点击的地方。
以下是岛主个人的碎碎念:
我最早接触生信分析之际,所使用的便是。彼时于一篇论文之上,目睹作者将分析代码罗列呈现,而后给予了其上的流程分享,(数据分析的重现性亦是运用这种统一平台的优点当中的一项)。那时我并不晓得Linux系统究竟是什么,费劲周折安装完毕后,怎样往上面传输数据,怎样安装软件等。当下的通常操作,在起始阶段却是困难重重 。
当时,网站上存在一套介绍课程,课程名为Data with ,此课程由创始人、来自约翰霍普金斯大学的James博士主讲,该课程一步步对这个平台的用法予以介绍,学习者看完后能很快实现上手,并且拿到了一些初步的结果,观看课程的过程中顺便还观摩了一些自己未曾接触过的工具及其用途。
当时觉着,费尽心力打造图形化生信分析平台之人皆为救他人于危难之神仙,并且并非全然黑箱式工具,你可瞧见分析参数与逻辑,知晓自身分析该如何延展,固然学会指令行操作乃早晚之事、不可回避,可当时于我而言是颇佳辅助与过渡。
当下谈及生信分析的可视化,好多人感觉颇为鸡肋,然而我依旧认为,做得出色的产品是会极具温度的,并且也有着相当的商业前景。
今年,赫然听闻James离世此消息之际,内心深受极大震撼,官方尚未对外去透露究竟是否是因新冠缘故,然而那已然并不再具备重要意义了。
去年,在东京参加学会之际,与来自约翰霍普金斯的另一个担任演讲职务的教授聊了聊,他言道,James正在满心热忱地开展针对研究生的生信培训 。
愿我们每一个人,在茫茫的天地之间,都能够寻觅到属于自身的,充满热爱之情的事业,从那个事业里,获取激情,获取养分,并且,用获取的那些激情与养分,去好好地滋养其他的人。
可能对你有帮助:
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
 
            微信二维码