一个人的全基因组测序下来大约会达到100GB的数据量,加上各类分析以及不同样本、时间点的数据,一个人的数据将达到1TB。而目前每台 HiSeq X Ten 每年将能够测序 18,000 个人类基因组,如此庞大的数据量还仅仅是一切分析的基础,生物科技人员需将这些测序后采集到的原始数据,与不断增长且日趋庞大的基因库按照一定的科学计算、对比最终才完成对个体样本的分析。
因此,对于生信分析来说,生物信息数据的采集、处理、存储、传输和解读就显得异常重要。尤其是数据解读环节,解读的准确度除了与样本量直接相关,还与疾病基因组数据库是否健全、样本量是否充足有着不可分割的联系。
生信分析能力比拼到最后,往往是数据计算能力的“军备竞赛”,而竞赛的关键在于能否构建一个完整强大的“云计算平台”。
“生物云”不得不提的六个坑
就云计算平台构建而言,生信类企业往往必须直面以下6个“坑”:
存储坑
海量数据如何经济、高效的存储
传输坑
数据如何快速地在测序端、计算端、临床医生或科研人员之间高速传输
搜索坑
如何在庞大的数据量中迅速找到候选的研究对象(如突变位点、差异表达的基因、各种类型的非编码RNA等)
解读坑
如何对研究对象和生理病理过程或表型进行关联解读
展示坑
如何借助大数据处理软件将复杂,繁琐的数据通过可视化的方式呈现出分析结果
成本坑
如何快速搭建IT公共服务体系,提供高效服务的同时,降低自身系统的运维成本
然而,面对云计算平台构建的种种难题,在荣联生物云提供的SaaS服务——UEC BioCloud看来,解决起来So easy!UEC BioCloud针对上述的6个坑,不仅可以提供一站式的解决方案,且足够安全,在海量的NGS数据分析、存储和共享面前,能为科研数据研究提供更便利、更有效的解决方案。
借力UEC BioCloud 做好生信分析
俗话说,没有被生信数据折磨过的生信人,不足以谈人生,但一定要跟他好好聊聊荣联生物云的UEC BioCloud,因为相比企业自行搭建“云”平台:
| UEC BioCloud使用门槛低、性价比高
用户不需要购买大规模的分析计算集群和存储设备,只需要一台电脑以及一个有效的互联网连接,就可以随时随地使用分析计算服务。用户不仅能够省去购买和维护IT设备的费用,还支持按量计费,使用多少付多少费用,性价比高。另外不需要配备专业的运维人员,从而更专注于实际业务问题的解决上。
| 拥有弹性资源可伸缩
UEC BioCloud建立在大规模的私有集群或公有云平台上,实现对计算资源的统一管理与分配,使得用户对IT基础设施、计算、存储、应用程序等各种资源的使用方式可以变得像今天我们用水、用电一样简单,按需使用、按需付费,不必进行重复性建设。
云平台会根据分析任务申请的资源配额信息从资源池分配相应资源,并自动完成服务容器的调度。例如当分析样本量大时,平台根据分析作业对资源的需求,自动从资源池申请开通计算资源主机,运行分析计算,当计算完成后,平台将计算资源主机注销,释放资源,这样可以根据负载自动实现弹性伸缩,帮助生信客户快速、低成本应对业务突增带来计算资源不足。
| 分布式调度 可突破规模瓶颈
随着数据规模的增长,计算的规模和复杂度也会不断增加,带来很多问题,首先是计算规模问题,因为数据量大了,必然会遇到计算规模的瓶颈。分布式调度引擎基于云计算技术和生物信息特征开发,本身为分布式设计,解决了原有SGE在大规模集群调度时的瓶颈问题,实现了多集群统一调度,多调度器之间相互协作,突破集群规模瓶颈。
目前生信分析软件越来越多样化,数据类型也越来越复杂,很难用传统的调度方式来满足,作业调度引擎采用容器粒度的调度,将分析软件容器化,用户不必关心复杂的工具版本冲突,库依赖关系问题,使用更加灵活、方便。
作业调度引擎不仅可以调度计算资源,更重要的是还可以根据应用的不同,调度存储和数据,这简化了生物基因应用过程紧耦合存储路径的问题,解耦合了分析和数据存储路径,使分析能够跨存储集群调度数据。最后云计算平台支持多计算框架的融合,除了HPC的计算模型,也会用到Spark、Hadoop的计算模型,甚至是Tensorflow的计算框架,云计算平台能兼容多种多样的计算技术,根据需要动态生成相应的计算资源。
分布式调度引擎专门针对生物信息分析的需求而设计,实现多调度器实例、多调度队列相互协作,负载均衡,能灵活高效的组织、调度生物信息作业,实现规模化生产。
| 可视化操作 简单易用
UEC BioCloud可通过Web 界面使用,可视化水平高,不要求用户具有UNIX/Linux 系统操作、编程等知识背景,可减少专业人员雇佣成本,新用户学习使用也十分便捷。
| 流程管理规范化
目前,多数基因公司的分析流程分散在生信人员手中,版本不统一,缺乏统一管理。人员离职往往伴随着分析流程的外泄,而分析流程是一个基因公司最核心的资源。使用生物云平台,可以对流程进行规范化管理,核心生信人员将流程开发部署到云平台上,其他分析人员只需要使用标准流程进行分析,提高了流程的一致性,也避免分析流程外泄造成公司损失。
荣联生物云创新开发的SaaS服务——UEC BioCloud,是数据分析、存储和共享的理想云方案,更重要的意义在于,为将来的基因数据分析提供了一种新的思路,通过租用SaaS模式的云计算服务,让客户减轻高性能计算和存储的负担,更轻快专注于项目研究,今后生物云计算服务必将在生命科学领域日益普及!