现有基因大数据云平台简单比较
大背景
大药厂一般会搭建自己的内部分析平台或者数据仓库, 用于聚合不同的数据, 这些数据可能来自化学或生物的论文, 可穿戴设备, 或基因组学数据等等. 基于这些数据得出一些统计分析, 药厂能够加速创新研发, 同时保持在AI方面的跟进. 但是在整合基因数据到药厂自己的分析系统时, 大部分公司往往力不从心. 这里面主要原因是由于基因数据的多维复杂度和数据量, 使得药厂需要一批既懂生信又懂计算机科学的人才, 而这样的人往往又不好招. 所以用于分析基因数据的专有云面世了, 本文主要对现有的国外基因数据分析平台做一个简单比较.
PasS比较
|—————–+————+—————–+—————-|
产品 | 商业/学术 | 特点 | 缺点 |
---|---|---|---|
Google Variant Transforms | 商业 | google出品 | 只支持部分变异varaints, 查询有限制, 企业级支持有限 |
Cloudera + Databricks | 商业 | 基于spark+hadoop的云, 企业级大数据咨询服务, 与大部分IasS是合作伙伴 | NGS数据经验有限, 不能直接支持基因序列查询, spark基于列式数据库不适合基因这样有顺序的数据结构 |
PLINK | 学术 | 开源, 偏学术分享 | 缺少企业级支持, 需要devops去部署和集成 |
Broad Fire Cload | 学术 | 出自broad, 有workflow工具支持查询hail , 支持定制化 |
缺少企业级支持, 需要devops部署和集成系统, 产品被设计成一个学术型沙盒而不是企业级产品 |
—————–+————+—————–+—————- | |||
Hail | 都有 | 开源, Broad出品 | 对变异有限制, 缺少企业级支持,数据需要建索引,需要devops团队支持 |
Paradigm4 | 商业 | 数据库技术先进, 支持可穿戴设备的数据 | 没有NGS数据的经验, 缺少针对基因数据库的扩展性设计和分析引擎设计 |
=================+============+=================+================ | |||
Seven Bridges Sonar | 商业 | 二级分析平台 | 缺少针对基因数据库的扩展性设计和分析引擎设计 |
BC Platforms | 商业 | 平台强于micro-array 数据,对于基因型有较好的服务 |
缺少针对基因数据库的扩展性设计和分析引擎设计, 缺少NGS数据经验 |
—————–+————+—————–+—————- |
结论
现在市面上还没有一款产品能够解决上述大药厂的烦恼, 要真正能够开发一款这样的产品, 可能需要做到如下几点:
- 易于部署
- 易于集成. 方便集成药厂现有的工作流/工具, 无论是通过API方式还是其他方式.
- ETL的能力. 标准化各种基因数据的能力.
- 最好有一个开放的社区支持.
- 较平的学习曲线
- 易于自定义工作流
- 能和其他大数据工具和机器学习平台整合.
- Post title:现有基因大数据云平台简单比较
- Post author:Kopei
- Create time:2018-12-11 00:00:00
- Post link:https://kopei.github.io/2018/12/10/cloud-2018-12-11-current-genomics-solutions/
- Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
Comments