Jaa


第8章 用户体验:上海汽车工业集团(上)

刚参加完中国高性能计算2010年会 (HPC China 2010),HPC的几位工程师们忙着相互校审徐博士的《 微软高性能计算服务器 》的英文翻译,准备在几周后的SuperComputing10上发表。某日下午,突然传来一声”惨叫“,原来有人发现有几段文字漏了翻译,尤其这些段落读来极具有“娱乐性”,又鲜活地展现了高性能计算在目前工业界应用的现实挑战,因此在这里与各位读者分享。

中国是个制造业的大国。但在制造业中高性能计算普及度并不高。原因如同郎咸平教授所说,中国制造业企业大部分从事来料加工,处在制造业下游利润最低处。没有自主产品的设计,就无法获取丰厚的利润,也无法使企业的可持续增长有任何保障。本章我们走近我国一个具有自主设计能力的制造业公司——上海汽车公司。在上汽,高性能计算在产品设计中起到了举足轻重的作用。

过去,基于Linux系统的集群给IT部门和工程师带来诸多管理和使用的障碍,使高性能计算技术在上汽各部门难以推广。从2009年开始,上汽IT部门成功地部署了Windows HPC Server集群及应用,成功地将高性能计算资源提供给多部门、上百个设计工程师,大大地提高工程师的设计的效率,同事降低了IT部门的管理开销。

我们在本章介绍上汽的商务需求,过往使用Linux系统遇到的挑战和Windows HPC Server 解决方案带来的优势。 在以前的章节里,读者了解到Windows HPC Server 如何能够简化上汽系统和作业调度的配置、定制和管理。在本章,我们着重介绍简化提高工程师运行应用、监控结果的另外一个常用的解决方案 —— 仿真门户系统。

本章的8.3~8.6节内容是摘录泛云公司的《仿真云计算平台SimCloud解决方案—Windows HPC 架构》白皮书,8.3~8.6节的内容属泛云公司的知识产权。笔者得到泛云公司对8.3~8.6节内容的书面许可,特此鸣谢!

本章要点

  • 上海汽车工业集团简介和商务需求
  • 计算机辅助仿真(CAE)在高性能计算环境的应用现状和挑战
  • 泛云SimCloud:基于Windows HPC Server 的门户环境

8.1 上海汽车工业集团简介和商务需求

作为中国三大汽车制造商之一,上海汽车工业公司(简称上汽)主要致力于生产、销售、研发客车、商务车及其部件。在2008年,上汽销售超过182.6万辆车、营业额超248.8亿美金居全国榜首,在全球五百强企业中居第359位。上汽也在自主设计、生成和销售自己的品牌的小轿车,包括荣威750、550,MG 3-SW,MG 7和MG TF的品牌在中国成功推出,增强了上汽的品牌形象。上汽高性能计算中心是为了支撑自主品牌的小轿车的设计和安全分析。

上汽开始主要为其他汽车厂商,如大众和通用。 自2004年其, 上汽开始自主设计和生产自己品牌的汽车。一开始他们使用的是租用的设计和测试设备。到了2006年,上汽开始创建自己的设计中心。

2007年,上汽购买一个基于RedHat Linux操作系统高性能计算集群并使用此集群运行汽车设计模拟仿真应用。上汽在此集群上运行多种商业计算机辅助设计应用,包括FLUENT, STAR-CD, STAR-CCM, LS-DYNA, MSC.Nastran 和 ABAQUS。

对于熟悉Windows工作站的工程师和管理人员来说, 管理、定制和使用一个基于Linux的集群是有很大的挑战的。 工程师被迫使用Linux的命令行界面与集群交互。这种体验既不友好又费时,极大地限制了IT部门向其他部门推广计算资源的能力。许多工程师情愿继续使用安装在Windows工作站上的应用。

8.2 基于Windows HPC Server解决方案和优势

2009年夏, 上汽决定采纳基于惠普刀片机和Windows HPC Server 2008 的集群。 他们发现应用在HPC Server集群在性能上和Linux集群是同等可比的,而在使用和管理的便捷性上远超Linux集群。尤其是系统的可定制性极强,可以满足不同部门的需求。

上汽、北京微软计算中心和泛云公司一同开发了门户系统,在Windows HPC Server集群上成功部署了10个不同的工程仿真应用,前后只用了两个工程师两个月的时间。门户系统将HPC Server 2008 作业调度器和管理工具和上汽的工程应用无缝集成,为提交和管理作业提供了一个可视化的用户界面。门户系统也和活动目录域服务集成使得工程师能够如同使用任何上汽企业网上的资源一样方便地使用Windows HPC Server 集群。

使用Windows HPC Server 作业调度器,上汽能够高效地提交并有策略地调度作业,使最关键的作业得到应有的优先级别。 上汽可以很容易地定制这个门户系统来满足不同部门的负载管理需求,这对于Linux集群来说是很困难的。 迄今,已有5个部门的200个工程师使用Windows HPC 集群,用户的人数还在增加。某些远程现场的用户也可以简单地通过Web界面访问HPC资源。 工程师能够在熟悉的工作环境里使用友好的用户界面,因此他们能够集中更多的精力在他们最擅长的工作上:设计顶尖水准的汽车!

转换到Windows HPC Server 集群后, 上汽极大限度地简化了使用HPC资源的模式,大大地提高了工程师的效率,将有价值的计算资源推广到更多的部门。使用Windows HPC Server 的管理控制台界面,IT人员在管理效率上提高了至少20%。 近期内上汽计划将现有的集权扩容一倍,逐渐将Linux集群上的负载迁移到Windows。

8.3 计算机辅助工程(CAE)在高性能计算环境下的应用现状和挑战

8.3.1 应用场景

CAE、CFD为代表的工程仿真软件是高性能计算的重要应用方向,同时HPC也是各类工程仿真软件应用过程中的最为重要的性能优化解决方案。近十年来,工业界、HPC方案商不断的沟通需求,企求逐步明确、深化、提升彼此价值,维系、增强、拓展合作关系,然而由于视角的不同,一直未能产生真正理解客户需求、方便客户部署使用的面向仿真应用的高性能计算解决方案。

泛云科技作为独立的HPC/CAE方案提供商,在不同工业领域的仿真应用客户中进行了广泛调研与深入探讨,归纳总结出以下几类典型场景:

场景一,工程师小张从学习某款仿真软件开始,就一直习惯使用个人电脑PC进行计算,可是随着PC的CPU主频技术出现了瓶颈,小张的计算工作效率就出现了停滞,无法针对工程问题进行大规模网格的解析仿真,小张因此苦恼不已;

场景二,公司IT部门的小李得知小张的困境之后,建议小张利用多台PC组建了一个小型的计算网络,同时向公司领导申请引进了仿真软件并行License,利用分布式并行计算技术缓解了计算任务无法进行的燃眉之急。然而,过了不久,小张又开始犯愁了,PC组网极其不稳定,经常让计算工作半途而废,工作效率无法保证,并且,仿真团队由于任务多又引进了一位新人小王,而软件License价格昂贵,目前二人只能协调共享一个License,但是小王经常无法及时获得软件License权限,难以有效开展工作;

场景三,IT部门经理老杨在得知这些情况之后,果断拍板引进高性能计算集群,并且从国外引进了任务调度软件,小张看着用户手册依样画葫芦的输入一些命令,总算成功的调用集群进行仿真计算了,小王也在集群空闲的时候过来学习使用调度器,仿真团队正常运转了,真是可喜可贺啊!可是,过不了多久,老杨就发现小张、小王都不来计算中心了,反而在自己的PC上装了仿真软件开始计算了,老杨这可生气了:“公司花了大价钱配套了计算设备和任务调度软件,你们怎么这么不知道珍惜呢?”其实小张、小王也有很大的委屈:“输入那一堆命令太麻烦了,根本就没有在PC上面那么方便,而且提交一个计算任务上去了,我就得时不时地往计算中心跑,担心计算状态,多麻烦啊!小规模的题目我还不如在PC上面计算呢!”

场景四,小王逐渐熟悉了仿真软件,工作量也渐渐多了起来,某天领导将一个非常紧急的计算任务交给了小王,小王马不停蹄赶到计算中心准备提交计算,可是却发现小张有一个非常大的算例已经在集群里面运转了。小王非常着急,可是又不能贸然停下小张的计算,没办法只能打电话请示领导,领导从小张处详细了解情况之后,又好不容易说服小张达成一致,小张这才很不情愿的走到计算中心,输入命令、保存中间数据并且退出计算,这才让小王的题目先算。这样一圈下来,大半天的时间已经耽误了,小王已经基本无望按照约定时间完成计算工作了。

场景五,小张好不容易盼到了休假,正在海南沙滩晒太阳,突然接到了一个紧急计算任务,而小王又不能顶替接手,小张在随身携带的笔记本上设置好了算例,可是却无法连上企业计算中心的服务器提交计算,没办法只好ftp传给小王,然后让他在服务器上跟踪调试。度假结束回来,小王无奈的告诉他,算例没有成功,自己不了解如何调节参数,所以只能等小张回来再做。又多了一个无法及时完成的仿真任务!

场景六,小张经过多年的工程计算锤炼,已经在行业内小有名气,某天被一知名企业挖角了,这一下领导可着急了:“小张你可不能走啊!你走了,企业又要重新培养新人了,再者说,你这么多年积累的那些工程仿真经验怎么传给你的继任者啊?”小张也很无奈:“我可以把我的硬盘上的文件交给公司,但是我也一下子说不清这些文件的具体情况了,说实在话,那些仿真经验都在我的脑子里,也没有什么机会整理啊!”

8.3.2 困境:HPC能力建设曲高和寡

场景三中,HPC能力建设之后的事与愿违令人扼腕,究其原因,还是因为当前的任务调度软件使用太过复杂,并且其主要功能都是面向硬件资源的,并无针对各种仿真软件的不同特点进行量体裁衣,仿真工程师在全心投入计算工作的同时,仍然需要背诵那些晦涩的命令,调试庞杂的不知所谓的计算集群,实在苦不堪言。此外,如场景五中所描述,工程师一旦离开了企业的局域网环境,就被屏蔽于企业计算资源之外,遇到紧急任务时却是“巧妇难为无米之炊”,工作效率大打折扣。

理想的仿真云计算平台应该彻底屏蔽计算集群的硬件与调度系统,让工程师在普通网络浏览器中即可完成计算工作,并且可以在任何地方安全调用企业的计算资源,这正是SimCloud的“平易近人”之处。

8.3.3 缺陷:License资产管理混乱

场景四突出表现了许多企业的一个共同弊端:“软件License资产管理混乱”。由于仿真软件价格昂贵,企业在购置时往往精打细算,然而紧急的项目常常无法用到软件License,领导在分配License时也是人为平衡、疲于应付。这种混乱的管理状态长期存在,会影响整个仿真团队的工作效率,甚至造成团队内部的不和谐气氛。

SimCloud仿真云计算平台首创实现了精确化管理仿真软件License Feature的功能,无论是在线用户数还是并行CPU Core都可以实现实时最优化管理,成功解决License资产管理难题。

8.3.4 短板:仿真数据及流程急需监管

场景六所描述的人才流失令人痛心,但是市场经济下这又是不可避免的问题,企业领导是否“因噎废食”呢?其实大可不必,关键是要建立合适的仿真数据及流程管理系统,有效监管仿真团队工作,真正将仿真研究成果转变成为企业知识库。

SimCloud Enterprise版本内置工作流引擎,可以针对客户仿真工作流程及数据管理进行快速部署,度身定制仿真知识库采集系统,帮助企业消除CAE仿真团队的“信息孤岛”现象,完善企业的核心创新知识储备机制。