现有基因大数据云平台简单比较

Kopei article

大背景

大药厂一般会搭建自己的内部分析平台或者数据仓库, 用于聚合不同的数据, 这些数据可能来自化学或生物的论文, 可穿戴设备, 或基因组学数据等等. 基于这些数据得出一些统计分析, 药厂能够加速创新研发, 同时保持在AI方面的跟进. 但是在整合基因数据到药厂自己的分析系统时, 大部分公司往往力不从心. 这里面主要原因是由于基因数据的多维复杂度和数据量, 使得药厂需要一批既懂生信又懂计算机科学的人才, 而这样的人往往又不好招. 所以用于分析基因数据的专有云面世了, 本文主要对现有的国外基因数据分析平台做一个简单比较.

PasS比较

|—————–+————+—————–+—————-|

产品 商业/学术 特点 缺点
Google Variant Transforms 商业 google出品 只支持部分变异varaints, 查询有限制, 企业级支持有限
Cloudera + Databricks 商业 基于spark+hadoop的云, 企业级大数据咨询服务, 与大部分IasS是合作伙伴 NGS数据经验有限, 不能直接支持基因序列查询, spark基于列式数据库不适合基因这样有顺序的数据结构
PLINK 学术 开源, 偏学术分享 缺少企业级支持, 需要devops去部署和集成
Broad Fire Cload 学术 出自broad, 有workflow工具支持查询hail, 支持定制化 缺少企业级支持, 需要devops部署和集成系统, 产品被设计成一个学术型沙盒而不是企业级产品
—————–+————+—————–+—————-
Hail 都有 开源, Broad出品 对变异有限制, 缺少企业级支持,数据需要建索引,需要devops团队支持
Paradigm4 商业 数据库技术先进, 支持可穿戴设备的数据 没有NGS数据的经验, 缺少针对基因数据库的扩展性设计和分析引擎设计
=================+============+=================+================
Seven Bridges Sonar 商业 二级分析平台 缺少针对基因数据库的扩展性设计和分析引擎设计
BC Platforms 商业 平台强于micro-array数据,对于基因型有较好的服务 缺少针对基因数据库的扩展性设计和分析引擎设计, 缺少NGS数据经验
—————–+————+—————–+—————-

结论

现在市面上还没有一款产品能够解决上述大药厂的烦恼, 要真正能够开发一款这样的产品, 可能需要做到如下几点:

  • 易于部署
  • 易于集成. 方便集成药厂现有的工作流/工具, 无论是通过API方式还是其他方式.
  • ETL的能力. 标准化各种基因数据的能力.
  • 最好有一个开放的社区支持.
  • 较平的学习曲线
  • 易于自定义工作流
  • 能和其他大数据工具和机器学习平台整合.
  • Post title:现有基因大数据云平台简单比较
  • Post author:Kopei
  • Create time:2018-12-11 00:00:00
  • Post link:https://kopei.github.io/2018/12/10/cloud-2018-12-11-current-genomics-solutions/
  • Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
 Comments
On this page
现有基因大数据云平台简单比较