随着半导体行业的高速发展,芯片工艺及制程越来越精密,模拟仿真也已经成为制造企业在进行目标系统设计时,为满足功能、性能、功耗和其他指标要求所需要的一项重要业务流程。由于实际系统的复杂度、精细度的快速提升,要进行模拟仿真的需求的不断增长,以及效率要求的提升,模拟仿真对于算力基础设施提出了苛刻的要求,对仿真、模拟、测试等方面的工作面临巨大的算力瓶颈。
本期线上同行交流 twt 社区特别邀请五位制造企业技术专家一同参与线上的交流探讨,本期重点从 “ 汽车制造行业如何进行有效 HPC 算力需求预测? ” 、 “ 制造企业在推广利用 HPC 进行仿真测试时 , 可能遇到哪些挑战 ? 如何推进 HPC 在企业中的应用 ?” 、 “ 是否可以考虑混合云的 HPC 解决方案 , 根据计算需求弹性调用云资源 , 降低投入成本 ?” 、 “ 如何监控和分析 HPC 平台的资源利用状况 , 评估工作负载与硬件之间的匹配情况 ?” 四个方面交流主题进行总结,帮助同行快速进行 HPC 仿真需求与资源配置规划。
主稿嘉宾:杨承龙 某机械制造企业 资深工程师
互动嘉宾:
陈强 某大型汽车制造企业 架构师&技术经理
李瑞雄 某大型汽车制造企业 集团流程与数字化部IT共享服务中心高级经理
陈毅 某制造企业 HPC负责人
宗磊 某大型制造企业 IT资深运维专家
对于 HPC 算力需求的不断增加和计算需求的不确定性,是否可以做到有效的资源需求预测,以免多建浪费,少建满足不了需求?
嘉宾: Qq 红宇精密
汽车制造行业有效预测 HPC 算力的需求,通常从以下四个方面进行综合预估:
嘉宾:一一 某制造业
对于算力需求的预测,其实根源来自于对业务的预测
业务算力的需求其实是可以大概测算出来的,比如一个产研研发 分成 5 个阶段需要使用 HPC 算力资源 ABCDE 阶段,
假如 A 阶段 需要计算 5 轮次,每轮需要计算 100 个作业,每个作业大致需要 3 天,按照自然日排列
假如 B 阶段 需要计算 3 轮次,每轮需要计算 200 个作业,每个作业大致需要 5 天,按照自然日排列
假如 C 阶段 需要计算 10 轮次,每轮需要计算 300 个作业,每个作业大致需要 4 天,按照自然日排列
假如 D 阶段 需要计算 5 轮次,每轮需要计算 100 个作业,每个作业大致需要 4 天,按照自然日排列
假如 E 阶段 需要计算 3 轮次,每轮需要计算 100 个作业,每个作业大致需要 2 天,按照自然日排列
再结合每个项目的开发周期的实施路径,不同项目,不同阶段,叠加后,自然后就可以评估处 平均值,峰值,峰谷,集中阶段。
嘉宾: lrx00056015 福田汽车 IT运维主管
对于 HPC 算力的需求预测,主要还是从以下两方面分析:
1 、业务需求评估,加强与用户沟通,了解用户的新需求,如电池仿真业务、智能驾驶的需求
2 、历史数据分析,建立一个动态的监控和评估机制,定期评估 HPC 资源的使用情况和性能表现,以及市场需求的变化。通过系统监控,历史数据分析,对 HPC 算力需求进行预测, 及时调整资源分配和优化策略,确保资源的有效利用
3 、基于云的服务,目前部分企业使用混合云的基础架构进行 HPC 算力执行,因此可以基于云的服务优化资源分配,提高计算效率,同时降低初期投资成本。
汽车制造行业进行有效的 HPC 算力需求预测,需要综合考虑市场需求、技术创新、合作共享等多个方面,通过持续的监控和评估,灵活调整策略,来适应快速变化的技术环境和市场需求。
嘉宾: rayz 某大型制造企业 IT经理
HPC 平台遇到的挑战我认为除了大量的软硬件基础设施的建设成本外,还有对于 HPC 集群平台的资源进行有效地管理和利用这些资源,确保任务可以高效地执行,是个挑战。
还有对数据的安全管理,容量管理也是挑战,仿真测试通常涉及大量的输入数据和生成的输出数据。在 HPC 环境中,如何高效地处理和存储备份这些数据,并确保数据的安全性和一致性也至关重要的。
HPC 环境中常用的软件和工具集与传统的计算环境有所不同,研发员工需要适应和掌握这些工具,以有效地利用 HPC 系统进行仿真测试。
嘉宾:强哥之神 上汽云计算中心 架构师 & 技术经理
仿真测试,我觉得成本与技术是两大挑战:
1 、成本比如硬件设备、软件许可,所以现在一般采用云计算,混合云(主要是看哪家成本低,性价比高)等方式,减少初期的资本投入。
2 、技术比如开发、管理和维护 HPC 、仿真系统, 一般需要云计算和仿真、 AI 专业的技术和经验,而制造企业可能缺乏此类人才,可以与专业的 HPC 服务提供商合作、仿真软件厂商合作,这样稍微容易一些。
3 、 HPC 测试时,所需要的数据量较大,对数据的管理及数据的安全管理本身就是一个挑战。测试时,一般涉及到数据存储、备份、传输和安全等方面的难点。
4 、 HPC 在测试时,还需要针对具体的生产流程和产品设计进行定制化的应用开发和集成,所以需要考虑定制、集成的挑战。
嘉宾: lrx00056015 福田汽车 it 运维主管
企业在推广利用 HPC 进行仿真测试时,可能遇到的挑战主要包括:
嘉宾: lrx00056015 福田汽车 it运维主管
在线下 HPC 资源紧张的情况下,混合云解决方案是一个不错的方向,可以利用云资源的快速、弹性能力,但是需要注意公有云资源的使用成本,以及数据传输的安全,建议本地负责 HPC 日常计算资源需求, 云端负责突发的、峰值资源需求。
使用公有云可以实现,以下三方面的好处:
嘉宾:强哥之神 上汽云计算中心 架构师 & 技术经理
在满足企业对数据安全要求的前提下是可以根据实际计算需求灵活利用公有云 HPC 计算资源 , 降低成本的,
根据实际使用情况灵活选择使用公有云 HPC 资源。对于一些临时、突发性的或不经常使用的计算任务,可以选择根据时长计费方式使用公有云 HPC 资源,避免长期的资本投资和维护成本。
不过在混合云 HPC 环境中,对数据安全管理方面是很重要,由于数据可能在私有 HPC 集群和公有云之间迁移,需要确保数据的安全性、完整性和一致性。同时还需要考虑数据的传输速度和延迟,以便在不同云环境之间进行高效的加密数据传输。
而且在跨云平台集成方面,需要确保本地 HPC 集群和公有云 HPC 环境之间的互操作性和兼容性,以便无缝地迁移和管理工作负载。
嘉宾: Qq 红宇精密 工程师
目前混合云 HPC 方案逐渐成为行业主流的、性价比较高的解决方案,对于常态化仿真业务通常使用本地 HPC 集群,云端 HPC 集群主要应对临时、紧急的仿真,用户可以根据实际工作负载自动扩展或收缩计算资源,真正实现按需分配。但在数据安全方面,使用云端 HPC 集群时,建议先将数据样本进行预处理,云端仅仿真处理过后的数据。
嘉宾: rayz 某大型制造企业 IT 经理
除了在 HPC 平台节点上部署 Zabbix 、 Prometheus 等监控软件进行资源利用的监控外,也需收集 HPC 集群的日志和事件,进工作行负载评估,资源利用分析。
HPC 平台会产生大量的日志和事件数据,记录了系统的运行状态和操作历史。这些数据经过清除后,可以进行系统性能、资源利用情况和故障排除。通过日志分析工具如 ELK ( Elasticsearch 、 Logstash 和 Kibana )可以对日志数据进行集中管理、搜索和可视化,以便了解系统的运行情况,和硬件资源的情况
也可以通过性能分析工具来评估工作负载与硬件之间的匹配情况,这些工具可以帮助检测性能瓶颈和优化方向,例如, Intel VTune 、 AMD ROCm Profiler 、 Allinea MAP 等工具提供了对应用程序的性能分析和调优功能,可以帮助识别瓶颈,并提供优化建议。
嘉宾:匿名用户
高性能计算 (HPC) 平台的资源监控和分析是确保其高效运行的关键组成部分。对 HPC 平台进行有效监控可以帮助您评估工作负载与硬件的匹配情况,优化资源分配,并确保应用程序高效运行。以下是一些建议和策略:
嘉宾:强哥之神 上汽云计算中心 架构师 & 技术经理
我们是采用 Prometheus 来监控资源,这个也是业界用的较多的,包括 CPU 利用率、内存利用率、磁盘 IO 、网络带宽等,还可以自定义暴露一些指标,比如监控作业调度系统(如 Slurm 、 PBS 等)的工作队列情况、作业运行状态以及资源分配情况,了解各个作业的运行时长、优先级、资源需求等信息。
另外,也可以收集历史数据,对资源利用率进行统计与分析,了解不同时间段和不同节点的资源利用情况,评估资源的瓶颈和短板。
最后,综合考虑硬件配置和工作负载的特点,评估是否存在资源浪费或者资源不足的情况,调整硬件配置或者优化工作负载,以实现更好的匹配和利用。
综合专家观点,制造行业在进行 HPC 算力需求与资源配置时,需全面考虑业务需求、算力预测、硬件选型、成本效益,以及面临的挑战与应对策略,形成综合且适应市场变化的规划方案,可以有效地预测资源需求,以避免多建浪费,少建满足不了需求的情况。同时,还需要根据实际情况进行灵活调整和优化,以满足不断变化的需求,最终实现资源利用合理化、计算效率最大化。
( 1 )业务需求分析 :
( 2 )算力需求预测 :
( 3 )硬件类型选择 :
( 4 )成本效益分析 :
( 5 )挑战应对与推进策略 :
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞3
添加新评论3 条评论
2024-04-28 09:03
2024-04-26 13:28
2024-04-26 12:42