Top
首页 > 智能生活 > 智能硬件 > 正文

沙超群:曙光寒武纪联手 全球首款神经元计算服务器有何特色

10月24日,2017中科曙光智能峰会在青岛盛大开幕。包括中国工程院原常务副院长、院士潘云鹤,中国工程院院士、曙光公司董事长李国杰、中国工程院院士潘德炉在内的一大批专家和企业界代表参加大会。
发布时间:2017-10-30 23:19        来源:新浪        作者:

10月24日,2017中科曙光智能峰会在青岛盛大开幕。包括中国工程院原常务副院长、院士潘云鹤,中国工程院院士、曙光公司董事长李国杰、中国工程院院士潘德炉在内的一大批专家和企业界代表参加大会。在大会上,曙光发布了全球首款在推理应用上采用神经元计算的服务器产品;以及能够快速释放计算能力的人工智能管理平台SothisAI。那么,这款搭载了20片寒武纪芯片的服务器有何独到之处呢?人工智能管理平台SothisAI又用怎样的用武之地?我们邀请了曙光公司副总裁沙超群为大家答疑解惑。

潘云鹤院士

科工力量:作为服务器厂商,曙光为何这么重视人工智能?

沙超群:了解曙光的朋友们都知道,曙光这家公司从李院士和历军总裁创立之初,我们专注于计算,在过去的高性能计算、云计算、大数据处理等通用计算,我们都是专注在计算领域,别得也干不了,计算我们干得还不错。今年国务院也印发了我国人工智能的发展规划,人工智能技术是信息产业发展的新方向,也是我们曙光所从事的高性能计算机发展的未来新的应用领域。曙光在未来大型计算机的研发和应用过程中,人工智能也一定是最重要的发展方向。

科工力量:曙光已经有哪些应用和产品?

沙超群:曙光在过去几年当中,高度重视人工智能技术和产品发展。我们已经在一些超级计算机的应用方面,大量采用了人工智能的技术。比如新疆的云计算中心通过超级计算机进行实时视频图像的分析和处理,以便为平安城市等带来社会效益。同时,曙光的百城百行云计算发展计划当中,城市数据已经经过了近十年的积累,形成了比较大规模的数据量。在曙光的发布会上,我们公布了三款产品,分别是“PHANERON”推理专用服务器、曙光的X860-LE全浸没式液冷的AI训练专用服务器和曙光人工智能管理平台SothisAI。

在2016年数据中国加速计划的会议上,曙光和寒武纪签约了战略合作,经过一年的时间,两个研发团队研发出了一款“PHANERON”推理专用服务器,这是世界首款在推理应用上采用神经元计算的服务器产品,这个名字的意思大概是这样的,是取自“显生宙”的词头,象征着采用神经元进行在线推理计算。

科工力量:这款“PHANERON”推理专用服务器有什么特别之处么?

沙超群:这样一款产品在4U空间中部署20个人工智能前端推理模块,能够为推理提供强大的计算支持,单位节点峰值推理计算能力达到120TFlops,还通过提高密度来降低总体服务器的部署数量,可显著降低项目总体投资。今天推理用的在线服务器产品,由于它的应用模式,大概一台机器可以顶上20台通用的服务器产品,也就是1:20,大家可以想象在成本空间的节约上,优势非常大。

其实更让我个人兴奋的不是这款产品,而是计划明年年底推出PHANERON2这个产品,性能提升5-6倍,那时候一台这样的服务器可以顶上100台通用的服务器产品。

李国杰院士

科工力量:能介绍下曙光的X860-LE全浸没式液冷的AI训练专用服务器么?

沙超群:在机器学习方面,我们由于需要大量图片深度分析,最早从提供2U,到现在是8U,一个2U的设备空间基本没有办法解决散热。数据中心42U可以放20台这样的设备,功耗是60千瓦,大概在一个柜子里面,500瓦的电炉子,可以放120个电炉子。风冷解决方案对该量级的散热问题已经束手无策。

曙光的X860-LE全浸没式液冷的AI训练专用服务器就是专门解决能耗和噪音的问题,我们把它浸没在液体当中,通过蒸发把热量带走。这个产品有两个特点:第一个是业界最高密度的GPU的训练平台。它是世界上PUE(注:Power Usage Effectiveness的简写,是评价数据中心能源效率的指标)最低的训练的服务器产品,它的PUE能到1.02。刚刚谈到了噪音的问题,这个系统第二个特点就是零噪音。

回到PUE的问题,今天我们的数据中心大概PUE会在1.6-2.0,我们这个产品的PUE是1.02。大概算一下,一个300瓦的GPU,在制冷方面的能耗节约大概180瓦,如果现在PUE是1.6的话,一个GPU每年省电是1200元。今天很多客户这种GPU的采购已经是2万片-3万片,仅仅在这一块的节能就是巨大的,同时也节约了大概两三千万的运营费用。

专题访谈

合作站点
stat