“天河一号”研制纪实 数字详解“天河一号”

2009-10-30 09:23:00 [来源:湖南在线-湖南日报] [作者:记者 刘文韬 通讯员 司宏伟] [编辑:文新征]
字体:【
  跨越千万亿次——国防科大“天河一号”超级计算机系统研制纪实 

    通讯员 陈明 本报记者 刘文韬

    “天河一号”横空出世,在我国高技术领域增添了浓墨重彩的一笔,为新中国成立60周年献上了一份厚礼。

    由国防科技大学研制的我国首台千万亿次超级计算机系统 “天河一号”的诞生,是我国高性能计算机技术发展的又一重大突破,是国家和军队信息化建设的又一重要成果,标志着我国超级计算机研制能力实现了从百万亿次到千万亿次的重大跨越,成为继美国之后第二个能研制千万亿次超级计算机系统的国家,为解决我国经济、科技等领域重大挑战性问题提供了重要手段,对提升综合国力具有重要战略意义。

    面对严峻挑战,瞄准国际前沿,

    抢占科技制高点

    当今世界,高性能计算已成为理论和试验之外的第三种科学研究手段,是推动科技创新和经济社会发展的战略高技术。2007年11月,美国研制出世界首台千万亿次超级计算机,峰值计算速度每秒1456万亿次。在2009年6月公布的世界超级计算机500强(TOP500)中,美国占据291席,欧洲占据145席,且前10名均为美国产品。与发达国家相比,我国不仅在计算能力上相差一个量级,装机数量也相去甚远。

    在日新月异、竞争激烈的超级计算机研制领域,不进则退是十分现实而残酷的生存法则。面对高性能计算领域的严峻挑战,国防科大计算机学院的科研人员再次吹响了攀登世界科技高峰的冲锋号——瞄准国际前沿,实施超前部署,加强技术积累和预先研究,积极抢占战略制高点,争取早日研制出我国的千万亿次超级计算机系统。

    这支被中央军委授予“科技攻关先锋”荣誉称号的优秀团队,在高性能计算领域有着辉煌创新成果:1983年研制出我国第一台亿次巨型计算机,实现了我国巨型机“零”的突破,之后又相继研制出不同量级的“银河”系列巨型机,一步步将我国巨型机研制水平推向世界前列。但他们清醒地知道,要实现从百万亿次到千万亿次的跨越,将比过去任何一次创新进步都要艰难得多。

    该院根据国际高性能计算发展趋势与最新动态,组织专家教授进行深入论证,确立了以国家和军队战略需求为牵引,以原始创新与集成创新相结合,实现自主创新能力整体跃升的发展思路。他们组织精干的技术力量,针对高性能计算发展的前沿技术、关键技术和新兴交叉技术等方面开展基础研究和前沿探索,相继突破了大规模可扩展共享存储体系结构等一系列技术难题,掌握了一批拥有自主知识产权的关键技术,为研制更高性能的超级计算机奠定技术基础。

    机遇总是垂青有准备的人。当我国将发展千万亿次超级计算机系统列入《国家中长期科学和技术发展规划纲要》时,该院凭借充分的技术储备和先进的研制方案,以及天津市滨海新区的大力支持,顺利获得国家“863”计划重点课题的支持。

    群策群力攻关,坚持自主创新,

    突破核心关键技术

    世界超级计算机的发展表明,计算能力每提高一个量级,都需要体系结构的创新和一系列关键技术的新突破。

    作为我国超级计算机研制的重要基地,国防科大计算机学院虽然具有较为雄厚的技术积累和丰富的工程实践经验,但要实现从百万亿次到千万亿次的技术跨越,同样是阻碍重重。面对多方面的技术难题与严峻挑战,科研人员在总结过去超级计算机研制经验的基础上,群策群力,集智攻关,坚持自主创新,努力攻克核心关键技术,推动我国高性能计算事业向前发展。

    在千万亿次超级计算机的体系结构设计中,他们创造性地提出了多阵列、可配置、协同并行体系结构,通过实现“CPU(通用微处理器)+ GPU(图形加速处理器)”的异构协同计算,融合多种计算资源并对其灵活配置,最大限度提高计算效能。他们经过长期封闭攻关和反复探索,一举将GPU的计算效率从国际上通常的20%提高到70%,系统运算速度得到大幅提升。

    为满足各类用户对超级计算机的开放性和安全性要求,科研人员开发了国内最高的B2级安全标准的操作系统,并通过软件安全隔离和虚拟域技术,构造相互隔离的用户独立工作环境,有效实现了开放网络环境下用户保密信息的安全隔离。多个用户共同使用“天河一号”时,都有独立的计算空间和完全隔离的工作环境,满足用户对安全性的特殊要求。

    系统容错性能是评价超级计算机系统的重要指标。科研人员在“天河一号”软硬件规划中,专门设计了监控诊断子系统,采用分布式集中管理结构,实现全系统的实时安全监测、系统控制和调试诊断等功能。他们还建立了多层容错技术,通过操作系统的检查点功能、资源管理的任务级和作业级容错技术,以及容错并行算法和断点续算功能,有效提高了系统的可靠性。

    随着一系列关键技术的突破与工程实现,“天河一号”具有了高性能、高安全、高能效和易使用等显著特点,拥有卓越的性能和显著的应用优势。

    以“胸怀祖国、团结协作、志在高峰、奋勇拼搏”的“银河精神”,

    科学推进重大项目攻关

    千万亿次超级计算机系统的研制是一个复杂的系统工程,技术起点高、研制难度大、研制时间紧。科研人员在突破一系列关键技术的同时,在工程组织管理与质量控制方面也面临着重大考验。

    在“天河一号”的研制中,国防科大计算机学院优化人才资源配置,充分发挥领军人物的主导作用和团队的集体智慧,每周召开难题会诊例会,发动大家积极建言献策,在集思广益的基础上形成正确决策,确保了项目研制的正确方向,提高了研制效益。

    “天河一号”研制之初,他们就制定了“质量保证大纲”和“可靠性大纲”。在硬件设计上,科研人员遵循严格的设计程序和检测环节,确保系统的质量标准。在软件开发中,他们引入国际先进的CMM(能力成熟度模型)管理体系,不仅质量和进度得到有效保证,也实现了软件开发与硬件开发同步,有效缩短了总体工程进度。

    “天河一号”的研制,集中了该院200多名科研人员。学院党委和总师组在工程组织中,坚持全院一盘棋,实施一体化人力资源管理,统一调配人才资源,并建立行政、技术、质量三条指挥线,充分发挥团队的整体作战优势,为自主创新提供了有力的组织保证。

    在课题攻关中,科研人员以“胸怀祖国、团结协作、志在高峰、奋勇拼搏”的“银河精神”为攻坚克难的不竭动力,密切协同,集智攻关,追求卓越,勇攀高峰,用“天河一号”千万亿次超级计算机系统的成功,续写了“银河”巨型机事业新的辉煌。

  数字详解“天河一号”

  新华社长沙10月29日电(记者 白瑞雪 王玉山 喻菲)中国首台千万亿次超级计算机“天河一号”究竟有多“超级”?以下是一组相关数字。

    数字一:全系统峰值性能为每秒1206万亿次,Linpack实测性能为每秒563.1万亿次。这意味着,“天河一号”计算一天,一台配置Intel双核CPU、主频为2.5GHz的微机需要计算160年。

    数字二:共享存储总容量为1PB。按国内数字图书馆应用软件的图片格式PDG为例计算,如果平均每册书大小约10MB的话,“天河一号”的存储量相当于4个国家图书馆(藏书量为2700万册)之和,能够为全国每人储存一张大小接近1mb的照片。

    数字三:“天河一号”由103台机柜组成,每个机柜占地1.44平方米、高两米、重1.5吨,系统总重量相当于19个神舟飞船。把通风等条件考虑在内,放置“天河一号”需要一个近千平方米的房间。

    数字四:全系统包含6144个通用处理器(CPU)和5120个加速处理器(GPU),仅系统级软件就有20多万行代码。按照每人每个小时写20行代码的速度,需要写1万小时。

    数字五:互联通信网络的单根线传输速率为10Gbps,这是目前国际上最快的速率,相当于在“天河一号”计算机内部修了一条信息高速公路。

    数字六:直接参与“天河一号”研发的科技人员有200多人,平均年龄为36岁。

    数字七:“天河一号”目前投资为6亿人民币。从信息技术的发展速度预计,使用寿命预计为10年。

    数字八:全系统运行情况下,每小时耗电1280千瓦时。能耗比即每瓦电创造的计算效能为4.3亿次运算,与目前峰值性能排名世界第一的美国“走鹃”超级计算机相当。

今日热点
焦点图