青云QingCloud EHPC超算平台:为实现高性能算力配置更优找到新路径

  • 时间:
  • 浏览:0
  • 来源:开心文章网

F1赛车是速度和激情的完美结合。但是,为了让比赛更具竞争力,你知道吗?在每场比赛开始之前,车队都会对赛车进行测试。每次移动到新赛道或天气变化时,团队都必须仔细调整F1赛车。这种调整需要将卡车的特点与驾驶员的驾驶风格相结合,包括方向盘、轮胎、发动机和尾翼等车身部件。但是,你可能不知道的是,在每场比赛之前,车队都会根据下一个赛道的特定环境进行模拟。它使用虚拟风洞来优化空气动力学,模拟动力加热系统,以最大限度地发挥汽车的动力,并通过碰撞模拟来优化车身结构,以符合比赛安全规定。利用超级计算平台的计算能力,只需7天即可完成这些目标模拟和优化,使F1赛车手在每场比赛中获得最大优势。F1赛车“背后”的这些东西,与超级计算平台这一关键技术分不开,而超级计算平台背后则是高性能计算。根据QingCloud的说法,高性能计算是指对大量服务器进行并行处理,这些服务器用于解决工程和科学问题。在宏中,卫星图像、遥感数据、气象数据等可以使用高性能计算来模拟地球、海洋和气候环境。在微观上,分子原理和原子原理可以模拟,使药物开发更快、更准确。新场景下的机遇与挑战的斗争今天,随着技术迭代和应用需求的增加,高性能计算的应用范围正在迅速扩大。除了现有的应用场景外,QingCloud还看到了一个新的场景:大数据与人工智能、超级计算在高性能计算领域的融合。它提出了一个新的场景:大数据、人工智能和超级计算的融合。这是因为数据量的增加和数据类型的多样化将推动数据中心和计算中心的融合,当人工智能进入深度学习阶段时,需要大量的浮点运算,并且需要更多的GPU节点来实现足够的计算能力。以具体应用场景为例,在医疗领域,冠状病毒的爆发加速了大数据在医疗和生命科学领域的应用,推动了核酸疫苗和核酸药物的研发。例如,BioNTech公司利用超级计算平台,基于病毒基因序列,在短短4小时内设计出了一种新型mRNA冠状病毒疫苗。在金融领域,大数据与人工智能和超级计算相结合,分析不同层次和维度的数据,通过深度学习技术训练模型,并应用于风险管理,可以将不良贷款率降低35%。因此,虽然新场景带来的机遇无疑是毋庸置疑的,但此时往往会带来挑战。不同的业务场景在计算能力、存储效率、网络带宽和延迟需求方面都有自己的重点,因为数据处理量和计算任务之间的相关性等不同。早期的超级计算中心是围绕计算资源构建的,存储基本上只是Lustre并行文件存储,容量有限,很难支持大数据场景。虽然新一代超级计算中心已经具备足够的容量来承担模拟建模等大数据服务,但超级计算中心本身提供的服务相对单一,因此无法承载一种纯粹的大数据服务MapReduce。此外,人工智能应用的爆炸性增长要求超级计算中心拥有足够的GPU资源,并提供相应的软件框架。这些公司倾向于希望以云原生方式部署和操作它们。需求的多样化自然会导致挑战的急剧增加。用户想要无限的存储容量,最好的性能和非常便宜。“需要,需要,需要”不能同时满足。因此,超级计算中心必须为不同的业务提供合适的存储类型。在这一点上,集成超级计算平台将是一个不错的选择。QingCloud EHPC超级计算平台应该是未来的主要发展趋势,因为企业级高性能计算往往会遇到不可预测的计算能力高峰,云计算可以在短时间内获取大规模计算资源,并立即使用、关闭。它可以实现对现有计算资源的最佳配置。青云EHPC产品是基于青云公有云IaaS平台、PaaS平台的云基础设施,主要为青云用户提供公有云服务,为部分客户提供私有云、混合云等多种形式的产品。从技术架构的角度来看,QingCloud EHPC主要分为资源层、管理层和客户端层三层。资源层主要包括AQ云的计算、存储和网络资源,以及相应的后台调度器、调度管理平台和可视化服务平台。管理层主要提供SaaS服务,从工作开始到工作结束,系统会自动进行折扣信息计算、称重计费、工作监控等服务,并在用户进入后保证对团队项目、团队项目权限等进行相应的管理。客户端是用户控制台,用户可以创建集群,管理集群,执行弹性缩放,作业提交,作业编排和作业性能分析。用户控制台允许用户轻松地与作业交互。QingCloud EHPC为各种新业务场景提供全面支持。对于超级计算最常见的仿真和建模服务,AY云提供低延迟、高带宽的InfiniBand网络、高速并行文件存储和CPU/GPU计算能力的组合,不仅支持大规模解决方案计算。它提供了一个GPU桌面,用于图形的前后处理,以完成闭环业务场景。在大数据服务方面,QingCloud云平台提供高达245PB的对象存储容量,与计算节点相结合,可用于大规模数据处理和分析。从计算节点到对象存储的网络带宽为1.6T,可以确保大数据计算的超高性能。对于人工智能培训业务,AQingun提供具有850PFlops计算能力的A100GPU资源池和全闪存并行文件存储,与容器平台相结合,提供终极性能优化、轻量级便捷的开源AI平台。借助云平台上的各种存储服务,用户可以根据自己的业务选择合适的存储类型,包括冷热类型的对象存储、全闪存并行文件存储、块存储等。得益于虚拟化技术,Qingun可以快速构建不同业务所需的运营环境,随时在MPI、TensorFlow和MapReduce软件平台之间切换,充分利用超级计算中心的硬件资源,满足不同业务场景的需求。QingCloud EHPC为用户提供了两种类型的服务集群:第一种形式以青云为平台端,提供400多个节点的共享队列,采用传统的超级计算形式,用户进来提交作业,并根据核心数和作业执行时间收费。第二种形式是用户自己构建EHPC集群,购买节点进行定制安装,支持root权限,可以对集群进行最高权限配置。在这种格式下,用户构建自己的计算节点,并根据计算节点的配置和计算节点的使用时间计费。灵活、多样化、低成本的高性能计算服务模式使用户有更多的选择自由。