中国团队首次将人类全基因组分析缩短至分钟级 此前需要24小时

831次阅读  |  发布于3年以前

(其中,“30X”是指全基因组测序的深度)

而在这个团队之前,同等条件下完成这项任务所需的时间,却长达近24小时之久。

所以咱就是说,现在的“battle”结果就是——24小时 vs 7分钟,性能整个提升了200多倍!

与此同时,在相同条件下的计算成本还降低了80%,存储成本也下降30%

但更重要的一点是,这事可能和你我都息息相关。

因为基因预测的一个用途,就是检测罹患多种疾病的可能性,锁定个人病变基因,以此来提前预防和治疗。

(P.s.世界著名演员安吉丽娜朱莉就这么做过。)

听起来确实是个好事,但如果放到过去,由于既耗时又费钱,能做得起基因预测的人屈指可数。

但今时不如往日,随着算力、AI、大数据技术的不断发展和融合,让基因测序这样数据密集型应用变得越发亲民。

而这一次的“7分钟”,可以说是把基因测序这件事往“平民时代”更推近了一步。

图源:美国国家卫生研究院(NIH)

那么接下来的问题便是,为什么这支队伍的方法,就能做到“快好省”呢?

从24小时到7分钟,他们是怎么办到的?

人类全基因组测序要做的事,就是对未知基因组序列的物种进行个体的基因组测序。

但非常明显的一个难题,就是其数量过于庞大

毕竟对象可是组成人体2.5万基因的约30亿碱基对,换算成容量大小则约为3GB

但这还不算完,为了保障基因数据的完整性,在此基础上还需要做30次的平行测试。

如此一来,在最终测序完成之后,全基因组的数据量便将达到约100G

而且随着技术的不断迭代演进,数据的存储已经从最初的人类基因组开始细分扩展,逐步涉及到肿瘤、遗传病的检测等等。

也正是因为数据量和数据种类的日益庞大,使得这方面的工作数据存储,动辄便以PB为单位来保存。

这就直接影响到了诸如基因采样、样本制作、数据下机、生信分析以及后基因测序等环节。

但更为重要的是,诸如基因这样的数据,隐私安全是非常值得注重的一环,而也正因为数据量的爆发式增长,使得数据安全管理、存储和分析变得异常困难。

团队在面对这些挑战所选择的突破口,并不是大多数人以为的强行堆算力,而是用底层数据存储的飞跃来做到提速。

简单来说,就是通过把以往不能合并处理的海量数据,打破它们之间的壁障,让整体的处理效率“更上一层楼”。

具体而言,他们所提出的解决方案便是大规模多组学数据并行加速分析平台**。**

据介绍,华西医院在这项工作中主要负责顶层设计,包括多模态组学数据分析和基因应用等。

华为在存储方面,提供高性能数据存储和基因数据管理系统的技术支持。

……

而纵观整个流程,数据存储的环节最为重要,可以说是贯穿始末:

基因测序阶段:存储系统需要足够的稳定性,来保障过程不被中断;

基因数据分析阶段:要有足够处理小文件等任务的能力;

数据归档阶段:能够将基因数据长期、安全、完整地保存起来。

由此可见,存储系统就像是一根“定海神针”,牢牢地把握着海量数据任务的“命脉”。

那么接下来的一个问题便是——团队此次能够打破世界纪录,它的专属“定海神针”又是什么?

世界顶级选手在背后发力

不卖关子,团队在这项任务中的存储系统,便是来自华为面向高性能数据分析(HPDA)的分布式存储OceanStor Pacific系列。

它是一种可大规模横向扩展的智能分布式存储,可以hold住高性能计算、AI应用、数据库、大数据分析和海量数据备份归档等业务需求。

而OceanStor Pacific之所以能协助团队在此次任务中打破世界纪录,是因为它自身就是头顶“世界顶级选手”光环的那种存储系统。

在国内范围来看,更是独秀一枝,不论是整体、文件存储、对象存储还是块存储方面,都是稳居市场第一。

而且不仅是市场方面的表现,从性能榜单上来看亦是如此。

这不,就在前不久IO500 (高性能计算领域针对存储性能最权威世界排行榜之一)发布的最新榜单中,华为存储HPDA Lab(由华为OceanStor Pacific存储支撑)位列第二。

那么问题来了,OceanStor Pacific系列存储凭什么?

从官方对它的介绍中,我们挖到了一条线索,那便是“新一代”

这个“新”,可以总结为三个方面。

首先是超高密设计

以OceanStor Pacific 9950为例,它具备单框8节点,5U、80盘位的特性。

而之所以能如此“能装”,是因为它将各种SSD(固态硬盘)都设计的非常小巧:

另外一款5U、120盘位的OceanStor Pacific 9550,更是能够达到单框最大可提供2.4PB的裸容量。

如此超高密度的设计,便可以支撑海量数据的存储。

基于这样的硬件设计之下,便是华为存储的第二个特性——“多到一,一到多”,具体来讲就是:

多套存储变一套,一套存储支持多样化算力。

导致这样做的原因,根本上是高性能存储面临的负载类型越发复杂多样。

传统的做法就是来一个负载类型,就部署一个对应类型的存储;但这样做的结果,就是容易产生“孤岛现象”,而且不利于提高整体的效率。

而理想的状态就是存储系统可以满足一个“既要又要”——高带宽、高IOPS。

(带宽型方面的衡量标准是单位时间内的数据总吞吐量;而IOPS则是单位时间内能处理的总的IO请求量、以及每个IO的处理时延。)

对此,华为存储所采用的策略就有点“随机应变”的味道了。

例如存储系统在面对大文件时,就对应“大I/O”,采用直通方式将数据写到磁盘。

这样做的结果,就让大文件的宽带处于业界2倍的水平。

而当与之相对的小文件到来时,就对应“小I/O”,主要是将数据聚合后写到磁盘:

如此一来,就可以在理想的时延下提升磁盘空间的利用率,而且小文件的随机性能也达到了业界的5倍。

OceanStor Pacific系列存储的第三个独特性,便是打通协议的“任督二脉”

华为存储提出这个特性的大背景,是因为现在在处理诸如基因测序这样的任务时,数据往往会呈现多种格式,例如文件、对象、大数据等等。

也正因如此,以往在整个数据处理过程中,单是数据转化、拷贝、加载这样的工作就占到了35%的时间。

于是,为了这方面的提高效率,就需要新的“协议互通”技术。

而这种新技术并不是指“共池”,在本质上是有着很大的区别。

“共池”主要共享硬件资源池,是在一套硬件上划分出多个独立的逻辑资源池,并根据不同的数据类型做部署。

但问题在于每个逻辑资源池只支持一种协议访问,也就是说跨协议的时候,还是需要经过“数据拷贝”的过程:

华为存储提出的“协议互通”技术则不然,实现的是多个协议共用一个硬件资源池。

而且还是同时支持文件、对象、大数据等多种协议访问的那种:

换言之,现在当一份数据“走进”存储系统后,不再需要做任何的转换了,可以直接被其它协议直接访问。

这便是打通协议“任督二脉”的奥义所在了。

而也正是因为刚才讲到的这些独有“功夫”,华为存储,这个世界级选手所涉足的领域早已不仅限于基因测序。

还有众多诸如此类的海量数据场景,例如能源勘探、气象海洋、智能制造、超算中心等等。

……

不难看出,华为在数据存储这一块,可谓是内修功法、外用其力。

那么最后一个问题便是:

数据存储,为什么这么重要?

因为一个非常明显的趋势是:

在智能时代之下,数据存储已经成为数据密集型应用瓶颈

或许你会说,数据量大,哪怕是PB级别,把算力堆上去不就可以了吗?

确实,在过去一段时间里,在处理像基因测序、生物制药等数据密集型应用时,大家似乎都会关注其背后的高性能计算(HPC)的效果如何。

每年的HPC Top 500 高性能计算机排行榜,也成为公众备受关注的“保留节目”。

但随着数据爆发式的增长,以及AI技术的不断推陈出新,数据密集型应用的发展不再仅仅聚焦在算力方向。

正如IDC所统计的那般:

全球67%的高性能计算中心已经在使用AI、大数据相关技术。

换言之,HPC、AI和大数据,它们三个融合的速度正在加快。

也正因如此,数据密集型应用正在步入一个新的时代—— 高性能数据分析 (HPDA)。

在这个时代之下,类似自动驾驶、基因测序等任务,对于数据分析的实时性要求越来越高。

而要实现这一点,也正如刚才我们所阐述的,离不开“数据存储系统”这一夯实的底座。

唯有这根“定海神针”足够稳固、扎实,且需得具备技术上的创新,才能保证其上层的工作以及上层与之的交互畅通无阻。

但比起应用方面的丝滑,通过推进新一代存储系统(即HPDA)来进一步发展数据密集型应用,这件事还具有更深远的意义。

例如油气地震勘探也在进入海量数据时代,需要采用大量的高性能计算和大数据分析技术。

但痛点也正如刚才我们提到的,其间的任务绝不是单一的,所产生的数据类型、结构也是纷繁复杂。

而通过新一代存储系统的优势,就可以做到规模化统一部署,以此来提高整体流程的效率。

再如超算中心、智能医疗、自动驾驶,甚至是宇宙探测等,均是需要HPDA的能力来完成对海量数据的高效分析。

这些亟需注入“新力量”的领域,恰恰正是科技、经济强国所发力的地方。

从另一种角度来看,新一代数据存储正在成为国家的关键基础设施,堪称“国之重器”。

而华为OceanStor Pacific系列存储,无论是从市场份额、技术实力排名等等,均已成为国产新一代数据存储系统中的不二之选。

但比起亮眼的成绩,在最重要的实际行动方面,华为OceanStor Pacific系列存储也已经是处于“进行时”了。

至于接下来在HPDA时代中,新一代数据存储的技术进步还将结出怎样的硕果,是值得拭目以待了。

推荐文章

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8