原标题:“神威·太湖之光”团队创造世界超算应用奇迹他们搬动了百万行代码“大山”(走近创新团队⑤)
运行中的“神威·太湖之光”超级计算机。 国家超级计算无锡中心供图
位于江苏省无锡市国家超级计算无锡中心的“神威·太湖之光”超级计算机。 国家超级计算无锡中心供图
“神威·太湖之光”超算应用团队与“神威”超级计算机合影。 国家超级计算无锡中心供图
2018年,甘霖(右一)获国际电气和电子工程师协会“高性能专委会杰出新人奖”。 国家超级计算无锡中心供图
又是夏季。在江苏无锡蠡湖畔一座大楼里,1000平方米的房间内,除了空调声,听不到任何声音。
5年前的一个夏日,付昊桓走进了这座大楼。彼时,这位“80后”清华大学教授带领20多名师生来此,想借用这里的超算资源,研发气候模拟软件。当付昊桓抬头看到“国家超级计算无锡中心”10个大字时,他没有想到,1年后,这个名字会蜚声海内外。
2016年6月,新一期“全球超级计算机500强”公布,安装在国家超级计算无锡中心的“神威·太湖之光”夺冠。此后“神威·太湖之光”连续四次雄踞“全球超级计算机500强”榜首。
2016年11月,基于“神威·太湖之光”的应用成果折桂“戈登·贝尔奖”,实现了中国在该奖项上“零的突破”。
近日,本报记者采访了“神威·太湖之光”超算应用团队,听他们讲述中国超算奇迹背后的努力与付出。
首次亮相——
展位上的资料被一抢而空
2016年6月20日,在德国法兰克福举行的国际超算大会上,付昊桓受邀作了报告。此时他的头衔已是国家超级计算无锡中心副主任。
原来,2015年底,无锡在全国范围内寻找运营和管理超算平台的团队。因为有暑期合作的基础,无锡相中了清华大学教授杨广文的团队。作为团队中的研发负责人,付昊桓跟随杨广文奔赴无锡。
“神威·太湖之光”也来到了无锡。2016年,“神威·太湖之光”在国家超级计算无锡中心安装使用。
付昊桓在国际超算大会上做的报告结束后,无锡中心展位突然涌来了大批参观者,展位的地毯都被踩得卷起边儿。参观者好奇地问着各种问题,几百本宣传资料被一抢而空。
这是“神威·太湖之光”首次亮相国际舞台,可谓一鸣惊人。国际超算大会发布了新一期“全球超级计算机500强”榜单,“神威·太湖之光”荣登榜首。
“神威·太湖之光”有多快?它是世界首台峰值运算能力超过每秒10亿亿次、拥有千万核的超级计算机,1分钟的计算能力,相当于全球70多亿人同时用计算器不间断计算32年。
超级计算机是为解决工程和科学中的重大难题而生,因此如何应用是关键。“神威·太湖之光”成为世界最快计算机后,不少超算专家抛出这样一个问题:中国赢得了超算“速度战”,还能不能赢得“应用战”?
零的突破——
让评审委员会主席感到惊讶
2016年,无锡中心团队作出了一个雄心勃勃的举动——申报“戈登·贝尔奖”。“戈登·贝尔奖”被称为世界高性能计算应用领域的“诺贝尔奖”,自1987年设立以来,从未有中国团队获奖。
在冲刺“戈登·贝尔奖”的最后一个月里,团队成员们开启了“7×24小时”模式。对于那次备战,并行优化部主管刘钊记忆犹新。
“大量数据需要在‘神威·太湖之光’上处理。办公室角落里堆放着行军床,每个人的办公桌上都摆着洗漱用品。”刘钊说,他们有时候每天只睡两三个小时,经常有人忙到凌晨三四点钟才休息。
大伙儿这么拼,还有一个原因,那就是怕浪费钱。超级计算机用电量大,“神威·太湖之光”运行一天,电费就要20万元左右。“我们通宵调试和运行程序,这样机器的利用率才能最大化。”刘钊说。
经过一个个灯火通明的夜晚,时间走到了2016年11月17日。这一天,在美国盐湖城,一年一度的“戈登·贝尔奖”正在揭晓。
基于“神威·太湖之光”的“千万核可扩展全球大气动力学全隐式模拟”应用项目获奖!这个项目是由中科院软件所等单位与国家超级计算无锡中心合作完成的。项目名称被念出来后,付昊桓淡定地从座位上站了起来。
这是中国超算应用团队近30年来首次获得“戈登·贝尔奖”。有评论指出,这次“零的突破”标志着中国科研人员正将超算的速度优势转化为应用优势。
1年后,由付昊桓团队完成的“非线性地震模拟”应用再次斩获“戈登·贝尔奖”,实现了中国超算应用在此项大奖上的蝉联。
有一组数字同样令人振奋。2016年,全球有6个项目获“戈登·贝尔奖”提名,其中基于“神威·太湖之光”的应用占3个,占据半壁江山。2017年,有3个项目获提名,其中基于“神威·太湖之光”的应用占2个,占比达到了2/3。
“戈登·贝尔”奖项评审委员会主席曾这样表示,“我们很惊讶你们有这种毅力,把这样一座‘大山’搬了过来。”“大山”指的是百万行代码,付昊桓团队为什么要“搬”这百万行代码?
冲破封锁——
核心部件全部国产化
30多年前,摆在中国超算用户面前的是一个神秘的“玻璃房”:美国人把一台超级计算机卖给中国,用不透明的玻璃包裹得严严实实,中国技术人员未获授权不得入内。
“以今天的眼光来看,那个所谓的超级计算机,充其量只是一台高性能电脑。但对当时的中国来说,却是一个难以企及的高峰。”国家超级计算无锡中心主任杨广文说。
上世纪末,中国迈入独立设计和制造超级计算机的国家之列,但在核心处理器等关键部件与技术方面受制于人。
步入“十二五”,在国家“863”项目重点支持下,中国超级计算机发展不断取得突破。在“全球超级计算机500强”榜单上,“中国制造”的身影越来越多。内置英特尔芯片的“天河二号”异军突起,成为世界上第一台实现“全球超级计算机500强”六连冠的超级计算机。
然而,2015年4月,美国政府宣布,把与超级计算机相关的4家中国机构列入限制出口名单,这直接导致“天河二号”无法如期完成攻关目标。
每次技术封锁带来的都是自力更生。经过大力研发,2015年底,国家并行计算机工程技术研究中心成功研制出“神威·太湖之光”,它首次采用国产核心处理器“申威26010”,实现了所有核心部件的国产化。随后,“神威·太湖之光”在无锡安装运行。
只有5厘米见方的薄块“申威26010”成为中国打破技术封锁的一柄利器。25平方厘米的方寸之间,集成了260个运算核心、数十亿晶体管,达到了每秒3万多亿次计算能力。
从此,中国在高性能计算及应用领域拥有了更强的话语权。今年6月发布的“全球超级计算机500强”榜单中,中国的超级计算机占据226席,数量继续位列全球第一。
硬件诞生了,软件开发就成了下一个挑战。“神威·太湖之光”采用的是全国产的新型片上融合异构芯片,原有基于国外x86架构设计的大量科学及工程计算软件,无法直接在“神威·太湖之光”上高效运行。
在进行“全球气候模式的高性能模拟”研究时,甘霖就要面对这个挑战。他是付昊桓在清华大学带的第一个博士生,还是国家超级计算无锡中心主任助理。
甘霖说,一般的应用也就几千到几万行代码,而地球系统模式代码近百万行。这些是各国气候学家在过去几十年里积累的对大气、海洋、陆面等各个圈层变化机制的理解,每个人写代码的风格不同。为此,他们需要逐条进行代码的转换、移植乃至重新设计,最后才能为“神威·太湖之光”所用,这是个“愚公移山”的过程。
“移山”之路是布满困难和阻碍的,“神威·太湖之光”在应用之路上能迈开步子吗?
广受认可——
从“毛头小子”到“专家”
2016年6月,“神威·太湖之光”一举成名后,很多人慕名而来,寻求合作。乔宇是2017年进入应用平台开发部的。入职不久,他所在团队接到了上海一家发动机生产企业的合作项目。
出乎乔宇意料的是,他第一次与上海方面的人见面时,对方竟是一脸不屑。原来,无锡中心的这支团队平均年龄不到30岁。瞧着一张张稚嫩的脸,客户心里没底:这群“毛头小子”能行吗?
一年时间,团队不仅出色完成了项目,还顺手帮对方解决了一些技术难题,结项时,对方改称他们为“专家”。“我们的团队逐渐受到认可,合作项目也越来越多了。”乔宇说。
从2016年6月20日平台开放以来,国内外多个应用项目通过使用“神威·太湖之光”获得突破,诞生了100多项应用成果,涉及气候气象、海洋、航空航天、生物、材料、高能物理、药物、生命科学等众多领域。
“神威·太湖之光”成功实现对“天宫一号”回收路径的精准模拟,20天完成了原本需要12个月的计算量;“千万核可扩展大气动力学全隐式模拟”可以让天气预报精确地推测出下一分钟一公里范围内的气候详情……
尽管取得了这些亮眼的成绩,团队成员们仍在马不停蹄地奋战,为的是让运算再快一些。
最近,刘钊在忙一个项目——对500年来全球大气和海洋数据进行模拟。根据计划,这个项目将耗时1年。“后来,我们又不断对算法进行优化,预计三四个月就能完成这个项目。”刘钊说。
在“神威·太湖之光”不断创造奇迹的同时,很多人将目光投向了背后的应用团队:这是一群怎样的人?
聚集人才——
在高铁上写完博士论文
甘霖是国际电气和电子工程师协会“高性能专委会杰出新人奖”获得者,是摘得该奖的首位中国学者。
攻读博士期间,甘霖加入了“神威·太湖之光”应用研发团队。有两个多月的时间,他几乎每周都要往返北京和无锡一次,单程5个小时,这成为甘霖宝贵的论文写作时光。
甘霖回忆说:“高铁座位舒服,干扰也比较少,很适合写文章。”他的博士论文,大约3/4是在高铁上完成的。有意思的是,一次,他的邻座是一位地球物理勘探领域的教授,交谈一番后,他还收获了一些论文修改意见。
2016年初,即将博士毕业的甘霖,拿到了几家企业的工作邀请,工作环境和薪水都很诱人。那时,“神威·太湖之光”的应用研发工作也走到了关键节点。是去企业,还是留在“神威·太湖之光”应用团队?甘霖选择了后者。“能将个人努力和国家科学进步联系在一起,是一件非常幸福的事。”甘霖说。
很快,在导师的带领下,甘霖与团队其他成员一起来到无锡,开始为国产超级计算机打造属于自己的应用。
甘霖说:“年轻就是我们最大的优势。我们有足够的时间去尝试,10个想法里只要有1个是对的,就能创造出巨大的变革。”
为解决特定领域专业人才短缺的问题,无锡中心推出一种全新的机制——与应用单位共同成立专题联合实验室,实验室负责人由应用方学科带头人担当,无锡中心提供计算与应用支持。
杨广文认为,超算是一门交叉性很强的学科,“要让不同专业方向的科研人才聚集在一起,合力干一件件大事。”
“神威·太湖之光”大事记
2015年底,国家并行计算机工程技术研究中心完成“神威·太湖之光”的研制。
2016年6月,“神威·太湖之光”荣登“全球超级计算机500强”榜首,此后连续四次蝉联第一。
2016年11月,基于“神威·太湖之光”的“千万核可扩展全球大气动力学全隐式模拟”项目获得“戈登·贝尔奖”。
2017年11月,基于“神威·太湖之光”的“非线性大地震模拟”项目获得 “戈登·贝尔奖”。
资料来源:国家超级计算无锡中心(潘旭涛)