将新实施的群集框架迁移到可用的高性能计算群集的第一个挑战是安装操作系统,例如第三方软件包。在4到8点的集群中,您可以手动安装每个节点。但是,的工业化集群需要更有效的方法。本文介绍了不同类型的群集配置和有效的Linux安装方法。还有每种方法的好处。
高性能计算群集的主节点和计算节点的配置使用三种主要类型:松耦合,中耦合和紧密耦合。每种配置都描述了计算节点与主节点之间的依赖关系(请参见图1)。尽管所有这三种类型都需要主节点的可用性来确保任务的运行,但是主节点的状态对于计算节点的可用性不是必需的。
图1:主群集的计算节点配置从操作系统的角度来看,松散集成的群集中的计算节点是完全自主的机器。每个节点都有一个操作系统(OS)的副本,该副本允许任何人在不联系主节点的情况下启动系统并登录到该节点,除非网络使用动态Internet协议(IP)地址。
无法获取动态IP地址不会阻止节点成功启动,但只能通过本地控制台进行访问。集群的适当组合将使计算节点与主节点紧密结合。在此配置中,计算节点的引导节点需要主节点的干预。在最简单的模式下,程序和信息需要在引导过程中定位主节点。计算节点从主节点接收到所有必需的文件系统后,它将作为独立计算机运行,并可以通过所有定位的文件系统登录。
紧密集成系统进一步依赖主节点。计算节点必须通过网络从主节点加载操作系统。紧密耦合的群集中的计算节点不在本地存储文件系统,并且可能存在交换或临时(tmp)文件系统。从操作系统的角度来看,计算节点和列节点之间没有太大区别。实际上,没有能力独立登录到计算节点。
处理空间是平衡的,因此该群集看起来更像是大型单芯片计算机,而不是基于小型计算机的群集。以下各节说明可用于构建和安装理想类型的群集的应用程序和方法。每种配置都有其独特的优缺点,并且已经讨论和研究了哪种配置最适合特殊需求。安装松散集成的集群在松散耦合的群集中,每个计算节点都具有操作系统的本地副本。
最繁琐又烦人的工作是每次都使用CD进行安装。自动安装松散集群的方法包括:Kickstart文件TheRedHat&Kickstart的安装方法是允许用户创建一个简单的文本文件,以允许RedHatLinux执行许多安装操作,例如语言选择,网络配置,键盘选择和引导文件加载器安装(例如LinuxLoader(LILO)或GRandUnifiedBootloader(GRUB)),磁盘分区,鼠标选择和XWindows配置。
Kickstart文件包含三个部分:命令,程序包列表和脚本。命令。命令部分包含所有安装选项,例如语言和分区特征,网络配置和安装方法。例如,管理员可以使用网络配置选项来指定节点的IP地址,主机名和网关。包装。从%packages命令开始的Kickstart文件部分显示要安装的软件包的类表。
您可以包括组件名称(对于一组相关软件包)或独立软件包的名称。RedHatLinuxCD(Redhat/base/comps)上的comps文件显示了一些预定义的组件。用户还可以构建自己的体系结构和所需软件包的列表。(注意:要构建框架,用户必须创建一个新的标准化(ISO)镜像CD-ROM,其包含国际标准化组织的其修改过的comps文件。
)该文件的第一个组件显示Linux软件包的基本组件。操作必需的。脚本。管理员可以使用Kickstart文件中的“安装后执行”命令来安装CD-ROM中未包含的软件包或进行进一步的协调,例如自定义主机文件或允许SSH(安全外壳)。安装后执行的部分通常在Kickstart文件的末尾,并以%post命令开头。
必须从服务器或网络(通常在主节点上)可以获取要添加的软件包。%post部分的外观如图2所示。这些示例命令将从IP地址为10。180。0。2的服务器上安装名为my_driver。rpm的rpm软件包。图2:安装Kickstart文件后执行命令RedHat7。
1包括Kickstart配置工具和用于创建Kickstart文件(而不是键入)的图形用户界面(GUI)工具。选择Kickstart操作后,用户可以单击“保存文件”按钮来生成Kickstart文件。该配置工具允许用户选择Kickstat文件所需的更多操作,并为需要更改常规文件以满足其需求的用户提供更多选择。
Kickstart安装方法Kickstart文件中的installmethod命令允许管理员自定义安装方法:使用本地CD-ROM或本地磁盘,或通过网络文件系统(NFS),文件传输协议(FTP)或超文本传输?协议(HTTP)。最麻烦的事情是为每个节点创建一个Kickstart文件,并将该文件保存到RedHat安装引导软盘中。
当系统从软盘引导时(RedHatLinuxCD必须在CD-ROM中,并且Kickstart文件必须指定从CD-ROM安装),安装过程将根据由CD-ROM设置的特殊选项自动启动。软盘上的Kickstart文件。每个节点具有不同的网络设置(IP地址和主机名)高性能计算机集群方案,并且显然需要放置在不同的磁盘上。
这种方法对于集群安装非常繁琐:需要手动干预才能将软盘和CD从一个节点移动到另一个节点,除非您有大量的软盘和CD可以同时安装在所有节点上。一种更有效的方法是通过网络执行安装。同样,每个节点必须具有自己的软盘,但不再需要CD。需要更改Kickstart文件的“安装方法”部分以支持FTP或NFS安装。
红帽使用Kickstart文件启动安装后,它将从特定的网络服务器接收安装映像文件(通常是主节点)。在最常用的安装方法中,管理员将Kickstart文件和CD映像文件放置在网络上。选择引导协议/动态主机配置协议(BOOTP/DHCP)服务器和NFS服务器,并将它们放置在本地网络中,通常在群集的主节点中。
BOOTP/DHCP服务器必须包含要在群集中安装的所有设备的配置信息。BOOTP/DHCP服务器向网络客户端提供网络信息,例如引导核心的位置以及虚拟磁盘和Kickstart文件的可能位置。如果未提供Kickstart文件的位置,则安装程序将尝试读取/kickstart/1。
2。3。4-kickstart文件,其中1。2。3。4是DHCP服务器中安装的设备的IP地址。最后,NFS客户端安装文件路径,将特定文件复制到本地硬盘,然后按照Kickstart文件中的说明开始安装计算机。使用系统镜像程序(Systemlmager)安装群集是一个远程系统复制和维护系统,用于减少在集群中创建自治系统的重复步骤。
系统镜像要求管理员在克隆其余的计算节点之前先安装和配置示例计算节点。这种方法的优点之一是,在安装过程中,管理员无需编写特殊脚本即可安装其他软件包或配置系统设置。在系统镜像器模式下,将用作源或示例系统的计算节点称为“黄金客户端”。管理员必须首先使用传统方法进行安装和配置,以使其代表所有计算节点。
系统映像程序安装在主节点上,然后使用getimage命令创建整个黄金客户端计算机的系统映像。该映像仅包含远程设备的文件,而不包含整个分区的映像,从而节省了空间。prepareclient命令创建分区信息表和已安装文件系统的列表。这样就可以使用相同数量的安装点和大小来构建分区。
客户端副本的信息(请参见图3)。在安装计算节点期间,addclient命令允许管理员调整每个节点的系统特定的配置信息。Addclient命令提示您输入主机名,客户端映像和IP地址的基本信息和范围。基本信息表示主机名的静态部分,范围表示其他主机名的开始和结束值。
例如,如果node是基本信息,而1-3是范围,则安装路径将建立node1,node2高性能计算机集群方案,node3。图3:系统镜像安装方法完成名称转换后,系统将提示管理员为这些计算机分配安装映像和IP地址。主机名和相关的IP地址将添加到主机名列表中,并在安装和引导过程中使用。
取决于主节点上这些步骤的完成,必须为计算节点选择引导方法。可以从介质(例如,软盘和CD-ROM(分别由makeautoinstallflopy或makeautoinsyalled命令创建))引导系统镜像程序核心和虚拟磁盘。此外,可以通过预启动执行环境(PXE)通过网络启动核心和虚拟磁盘。
letterbox镜像程序包含LinuxPXE服务器(PXELinux)的预配置文件,该文件必须在主节点上运行。PXE是一种简单的协议,它允许计算节点联系BOOTP/DHCP服务器。BOOTP(和DHCP,是BOOTP的扩展)允许服务器提供客户端(由硬件媒体控制(MAC)地址标识)许多初始配置信息,例如IP地址,子网掩码,广播地址,网络地址,网关地址,主机名称,核心和虚拟磁盘下载路径。
一旦节点启动,它必须重新获得其IP地址和主机名。通过在主节点上的DHCP服务器分配所有值或将所有值放置在每个节点的引导软盘上来完成此操作。系统镜像提供了一个DHCP配置创建协议makedhcpserver,它将与映射主机名和IP地址的DHCP配置文件联系。
Makedhcpstatic命令在计算机与主机名/IP地址对之间创建静态映射。通过系统镜像维护集群系统管理员还可以将黄金级客户映像用作主管日志和单个管理点,以实客户端上进行所需的更改。然后,管理员可以从群集的基础上更新当前正在使用的映像或创建新映像。
安装Linux高性能计算(HPC)集群涉及多个步骤,包括硬件准备、操作系统安装、网络配置、共享存储设置以及HPC软件的安装和配置。以下是一个基本的指南:
1. 硬件准备: 确保你有足够的服务器节点,每个节点应配备高性能的CPU、足够的RAM、大容量的本地存储以及高速的网络接口。此外,还需要一个高速的网络交换机来连接各个节点。
2. 操作系统安装: 在每个节点上安装一个支持HPC的Linux发行版,如CentOS、RHEL、Ubuntu等。安装时,建议选择最小安装以减少不必要的软件包,这有助于提高系统性能。
3. 网络配置: 配置每个节点的网络,确保它们可以相互通信。通常,HPC集群会使用专用的网络接口进行高速通信,这可能需要配置静态IP地址、子网掩码、网关等。确保所有节点都能通过专用网络接口相互访问。
4. 共享存储设置: 设置一个共享存储系统,可以使用NFS(Network File System)或GlusterFS等。共享存储可以让集群中的所有节点访问同一个文件系统,这对于分布式计算非常重要。
5. HPC软件安装: 安装必要的HPC软件,这可能包括MPI(Message Passing Interface)库、作业调度系统(如Slurm、PBS Pro)、编译器(如GCC、Intel编译器)等。MPI是HPC中最常用的通信库之一,作业调度系统用于管理集群中的任务。
6. 配置作业调度系统: 按照作业调度系统的文档配置集群。这通常涉及定义计算节点、配置资源分配策略以及设置作业提交和管理的方式。
7. 测试集群: 在安装和配置完成后,运行一些测试程序来确保集群正常工作。测试程序可以是简单的MPI程序,也可以是更复杂的HPC应用程序。
8. 优化集群性能: 根据测试结果和你的工作负载,优化集群的性能。这可能涉及调整作业调度系统、优化网络配置、调整硬件设置等。
请注意,安装和配置一个HPC集群是一个复杂的过程,可能需要专业的知识和经验。如果你是初学者,建议从简单的集群开始,逐步学习和积累经验。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号