1987,数据剖析:创立一致的公有基因组数据渠道,阿基米德

admin 2个月前 ( 04-24 03:34 ) 0条评论
摘要: 数据分析:创建统一的公有基因组数据平台...

基因组学的科研人员正越来越多地运用云核算效劳,谷歌的云核算效劳便是其中之一

本年三月基因组学范畴的科研作业者们迎来了一件大喜事:美国国立卫生研讨院NIH撤销了禁绝将其dbGap数据库中的基因组信努波顿的破釜沉舟息上传到云端的规则。这一规则设立于2007年,它的撤销无疑为科研作业者存储和剖析基因组信息供给了便当。

云核算效劳经过按需付费形式供给海量的存储和核算资源。运用云效劳要经过互联网,并且核算资源是同享的,这就引起了许多科研赞助组织的疑虑,他们忧虑云核算的运用会走漏样本供给者的隐私。NIH撤销禁绝上传到云端的规则是由于基因组学研讨中正面临着现实问题:怎么获取数据库中的许多数据。这现已阻止了科研人员的作业,尤其是当研讨作业涉及到现有的数据信息时。

为了充分利用云核算技能所供给的便当老樊的烦恼,咱们敦促NIH和其他科研赞助组织在常用的云途径中免费供给基因组数据。这样全球数以千计的科研人员就不用浪费自己的时刻和金钱将数据转移到自己了解的云途径,只需从这个共同的数据途径进行存储和剖析就能够了。

大数据

跟着基因组排序技能的进步,大型基因数据库中的信息都是以PB计的(1PB=1987,数据剖析:创建共同的公有基因组数据途径,阿基米德10^15字节)。比方世界癌症基因组联盟ICGC的数据库中不到五年时刻就积累了从17个国家搜集而来的超越2PB数据,这相当于50万张DVD的容量。

按一般大学的网速来算,将这些数据转移到研讨人员自己的内部网络中需求花超越15个月。先不说处理,就单单存储这些数据的硬件就要花大约100万美元。

云核算为咱们供给了核算资源上的弹性,研讨人员王钦和莲心能够需求多少核算资源就有多少核算资源。剖析完结之后只需求为核算剖析的一小段时刻付费。科研人员之间也能够更好超级微信百笑地进行分工合作,在虚拟机上就能轻松地同享数据和核算方法。曾经1987,数据剖析:创建共同的公有基因组数据途径,阿基米德要花廖嘉欣上几个月的基因组数据剖析现在或许只需求几天或许几周。(见下图)

时至今日,云效劳的安全性现已胜过了研讨组织自己的数据中心。供给云效劳的既有亚马逊、谷歌和微软这样的商业企业,也有专心于基因组研讨的小型公司,比方加利福尼亚的Anna情迷阴阳界i Systems和英国剑桥郡的欧洲生物信息研讨所。这些供给商采纳加密和防火墙或密保卡等方法来操控数据的运用权,并为数据一切者供给监测数据运用的东西。

一些人类基因组学的首要赞助组织仍是对云核算持谨慎态度饱足奶茶。如一些欧洲的赞助组织就主张将基因组数据操控在自己的统辖范围内以恪守欧洲的隐私法令。但咱们估计魏子煜,根据云核算的经济性、灵活性、牢靠性和安全性,未来几个月必定会有向云途径的大规模搬迁潮施胜杰现状。NIH的决议无疑会加快这一进程,咱们在此对NIH表示感谢。

现在让咱们来看看怎么在云途径用最少的花销到达最高的功率。

拜访操控

科研人员想要从dbGAP等数据库中获得人类基因组数据,必需求经过数据拜访委员会的同意。现在假如有不同的科研人员想要在云途径上运用同一数据集,他们各自有必要得到相应的数据拜访委员会gangbangtube同意。然后要将小神探点检仪数据仿制到自己的云途径才干开端作业。

一切这些科研人员都有必要等着数据仿制,也有必要向自己运用的云途径付出费用。假如100组科研人员都这么做,那么这个进程很明显浪费了科研人员许多的时刻和金钱。就算是能够随便把数据仿制到自己的云途径,大多数科研人员恐怕也法医狂妃废材七公主负担不起这一进程需求的时1987,数据剖析:创建共同的公有基因组数据途径,阿基米德间和花销。

有一个更好的方法能够处理这个问题:相关的赞助组织能够要求将首要的基因组数据集上传到常用的云途径中并付出存储的费用,这样一切数据只需求仿制一次并且科研人员自己只需求付出进行剖析时的一点点开支。

现在不少云核算供给商为科研数据供给极低价格的存储乃至彻底免费以onlygay鼓舞科研人员运用自家的云效劳。亚马逊AWS为千人基因组计划供给免费存储(有超越200TB数据),Annai Systems也为一部分ICGC数据集供给免费存储。

假定搬迁到云途径之后现在的数据库供给者和数据拜访委员会的设置坚持不变的话,在基因组云核算的范围内乃至或许诞生一个商场。比方供给了有价值数据的基因生物学1987,数据剖析:创建共同的公有基因组数据途径,阿基米德家能够获得云核算途径的剖析时刻作为奖赏。核算机科学家假如供给了能够进步剖析功率的程序,也能够在他人运转它的程序时得到必定的报答。

经过一段时刻这便会构成一个良性循环。这些大的数据下下片集交融在一起能够令科研人员更快发现基因与疾病之间的联络,这反过来会鼓舞更多人同享数据集或开发更强壮的软件。

这种方法也有必定的危险。假如把一切数据都会集到同一个云核算途径,此云核算途径就会由于独占而涨价1987,数据剖析:创建共同的公有基因组数据途径,阿基米德,而这些本钱就会转嫁到科研经费中。为了防止这种状况发作,应该将重要的数据集放在多个云途径上。这也能够处理之前说到的欧洲赞助组织的忧虑,只需将欧洲所奉献的数据约束在欧洲的云效劳供给商即可。

基因组学规范

当然要到达咱们终究的意图还需求许多技能和法令方面的尽力。比方现在囊性纤维变性研讨人员彻底不能经过软件在dbGap数虫鸟据库中查找病患的基因快憣序列。经过体系性地进行数据符号,例如样本的来历将有助于处理这个问题。从2001年开端,期刊发行商们达成了一个共同:只承受契合MIAME规范的1987,数据剖析:创建共同的公有基因组数据途径,阿基米德RNA微阵列研讨。关于基因组数据,咱们也需求一个相似MIAME的规范。

维护云途径之上的敏感数据需求牢靠的协议以及赋予宽和除权限的手法。短期内各个项意图数据拜访委员会仍应对数据的拜访进行把关,但终究保存几个能够掌控云端一切数据库的拜访委员会将会是更好的计划。

在法令层面则有必要区分清楚赞助组织、数据监管部门、云效劳供给商以及运用基因组数据的科研人员各自的人物和职责。比方说有人在微博上发基因组的信息,这几个几璃人物中谁应该负职责?为了处理这一问题,全球基因组学与健康联盟现已拟定了一个同享基因组及健康相关数据的职责结构。

与此同时,NIH以及其他赞助组织在1987,数据剖析:创建共同的公有基因组数据途径,阿基米德借基因组学的点子在评论其他公共途径的或许性。NIH部属的国立癌症研讨所现已展开了几个在云途径进行基因组学数据的同享和剖析的试验项目。

神经学和流行病学这样的学科与基因组学相同面临着数据方面的问题。假如能正确地运用云核算,不但基因组台州天气预报一周学,连这些学科的研讨人员也将能够获益。

英文原文:Data analysis: Create a cloud commons(译者/刘旭坤 审校/朱正贵 责编/仲浩)

【预告】首届我国人工智能大会(CCAI 2015)将于7月26-27日在北京友谊宾馆举行。机器学习与形式识别、大数据的机会女囚吧与应战、人工智能与认知科学、智能机器人四个主题专家聚集。人工智能产品库将同步上线,预定咨询:QQ:1192936057。欢迎重视。

本文为CSDN编译收拾,未经答应不得转载,如需转载请联络market#csdn.net(#换成@)

文章版权及转载声明:

作者:admin本文地址:http://www.babyqiming.cn/articles/863.html发布于 2个月前 ( 04-24 03:34 )
文章转载或复制请以超链接形式并注明出处竞技宝官网_竞技宝官网app_竞技宝官网app苹果版