システムH概要
システム全体概要
システムHは、合計2,020基のNVIDIA H100 GPUアクセラレーターを備えた505台の計算ノード(H)を始めとする計算リソース、約41.0PBの容量を有する共有ファイルシステム、これらを高速に結合するInfiniBandネットワーク、ファイアウォールなどからなるハードウェアと、これらを最大限活用するためのソフトウェアから構成されます。また、システムHは学術情報ネットワークSINET6を利用して、100 Gbpsでインターネットに接続しています。
システムHの主要な諸元は以下のとおりです。
項目 | 計算ノード(H) 合算性能・容量 |
---|---|
理論ピーク演算性能 (AI-FLOPS) | 2.1028 E-AI-FLOPS |
理論ピーク演算性能 (FP64) | 138.4 PFLOPS |
メインメモリ合算容量 | 505 TiB TiB |
GPUメモリ合算容量 | 147 TiB |
ローカルストレージの合算容量 | 3,878 TB |
計算リソース
システムHの計算リソースの一覧を以下に示します。
項目 | ホスト名 | 説明 | ノード数 |
---|---|---|---|
アクセスサーバ | qas.q.abci.ai | 外部からアクセスするためのSSHサーバ | 2 |
インタラクティブノード | qes | システムHのフロントエンドとなる計算ノード(H)向けログインサーバ | 5 |
計算ノード(H) | qh001-qh505 | NVIDIA H100 GPUを搭載するサーバ | 505 |
Note
運用・保守上の合理的理由により、計算リソースの一部が提供されない場合があります。
このうち、インタラクティブノードはInfiniBand NDRを1ポート、計算ノード(H)はInfiniBand NDRを2ポート備えており、後述のストレージシステムとともに、InfiniBandスイッチにより接続されます。
以下ではこれらのノードの詳細を以下に示します。
インタラクティブノード
システムHのインタラクティブノードは、FUJITSU Server PRIMERGY RX2530 M7で構成されています。 Intel Xeon Gold 6442Yプロセッサーを2基搭載し、512 GiBのメインメモリが利用可能です。
インタラクティブノードの構成を以下に示します。
項目 | 説明 | 個数 |
---|---|---|
CPU | Intel Xeon Gold 6442Y Processor 2.6 GHz, 24 Cores (48 Threads) | 2 |
Memory | 32 GiB DDR5 4800 MHz RDIMM (ECC) | 16 |
SSD | NVMe SSD 3.4 TB | 4 |
Interconnect | InfiniBand HDR (400 Gbps) | 1 |
10GBASE-T | 2 |
システムHのフロントエンドであるインタラクティブノードには、アクセスサーバを経由したSSHトンネリングを用いてログインします。インタラクティブノードではコマンドの対話的実行が可能であり、プログラムの作成・編集、ジョブ投入・表示などを行います。インタラクティブノードにはGPUが搭載されていませんが、インタラクティブノードで計算ノード向けのプログラム開発も可能です。
ログイン方法の詳細はシステムHの利用開始、ジョブ投入方法の詳細はジョブ実行をそれぞれ参照してください。
Warning
インタラクティブノードのCPUやメモリなどの資源は多くの利用者で共有するため、高負荷な処理は行わないようにしてください。高負荷な前処理、後処理を行う場合は、計算ノード(H)を利用してください。 インタラクティブノードで高負荷な処理を行った場合、システムにより処理が強制終了されますのでご注意ください。
計算ノード
計算ノード向けのプログラムを実行するには、バッチジョブもしくはインタラクティブジョブとしてジョブ管理システムに処理を依頼します。インタラクティブジョブでは、プログラムのコンパイルやデバッグ、対話的なアプリケーション、可視化ソフトウェアの実行が可能です。詳細はジョブ実行を参照してください。
計算ノード(H)
計算ノード(H)は、Supermicro SYS-221GE-TNHT-LCCで構成されています。 計算ノードは、Intel Xeon Platinum 8558プロセッサーを2基、NVIDIA H100 GPUアクセラレーターを4基搭載しています。システム全体では、総CPUコア数は48,480コア、総GPU数は2,020基となります。
計算ノードの構成を以下に示します。
項目 | 説明 | 個数 |
---|---|---|
CPU | Intel Xeon Platinum 8558 Processor 2.10 GHz, 48 Cores (48 Threads) | 2 |
GPU | NVIDIA H100 SXM5 80GB HBM2 | 4 |
Memory | 64 GB DDRR5 5600 MHz RDIMM (ECC) | 16 |
SSD | NVMe SSD 3.84TB | 2 |
Interconnect | InfiniBand NDR (400 Gbps) | 2 |
参考: 計算ノード(H)のブロック図
ストレージシステム
システムHは、人工知能やビッグデータ応用に用いる大容量データを格納するためのストレージシステムを備えており、これらを用いて共有ファイルシステムを提供しています。合算で最大41.1PBの実効容量があります。
構成 | ストレージシステム | メディア | 用途 |
---|---|---|---|
1 | DDN ES400NVX2 x10 | 55.9 TB NVMe SSD x 960 | ホーム領域(/home)、アプリケーション領域 グループ領域(/groups) |
上記のストレージシステムを用いて、システムHが提供している共有ファイルシステムの一覧を以下に示します。
用途 | マウントポイント | 容量 | ファイルシステム | 備考 |
---|---|---|---|---|
ホーム領域 | /home | 3.1 PiB | Lustre | ホーム領域を参照 |
グループ領域 | /groups | 38 PiB | Lustre | グループ領域を参照 |
インタラクティブノード、計算ノードは、共有ファイルシステムをマウントしており、利用者は共通のマウントポイントからこれらのファイルシステムにアクセスすることができます。
これ以外に、これらのノードはそれぞれローカルスクラッチ領域として利用可能なローカルストレージを搭載しています。以下に一覧を示します。
ノード種類 | マウントポイント | 容量 | ファイルシステム | 備考 |
---|---|---|---|---|
インタラクティブノード | /tmp | 7.0 TB | XFS | |
計算ノード(H) | /local1 | 3.5 TB | XFS | ローカルストレージを参照 |
/local2 | 3.5 TB | XFS | ローカルストレージを参照 |
ソフトウェア
システムHで利用可能なソフトウェア一覧を以下に示します。
Category | Software | Interactive Node | Compute Node(H) |
---|---|---|---|
OS | Rocky Linux | - | 9.4 |
Red Hat Enterprise Linux | 9.4 | - | |
Job Scheduler | Altair PBS Professional | 2024.1.2 | 2024.1.2 |
Development Environment | CUDA Toolkit | 12.6.2 12.9.1 |
12.6.2 12.9.1 |
Intel oneAPI (compilers and libraries) |
2024.2.1 | 2024.2.1 | |
Intel VTune | 2024.2.1 | 2024.2.1 | |
GCC | 11.4.1 13.3.0 |
11.4.1 13.3.0 |
|
cmake | 3.26.5 | 3.26.5 | |
Python | 3.10.16 3.11.11 3.12.8 3.13.2 |
3.10.16 3.11.11 3.12.8 3.13.2 |
|
Ruby | 3.0.4 | 3.0.4 | |
R | 4.4.2 | 4.4.2 | |
Java | 1.8.0.402 21.0.2.0.13 |
1.8.0.412 21.0.3 |
|
Scala | 3.5.2 | 3.5.2 | |
Perl | 5.32.1 | 5.32.1 | |
Go | 1.24.1 | 1.24.1 | |
Julia | 1.11.2 | 1.11.2 | |
File System | DDN Lustre | 2.14.0_ddn195-1 | 2.14.0_ddn195-1 |
BeeOND | - | 7.4.4 | |
Container | SingularityCE | 4.1.5-1 | 4.1.5-1 |
MPI | Intel MPI | 2021.13 | 2021.13 |
OpenMPI | 4.1.7 | 4.1.7 | |
Library | cuDNN | 9.8.0 | 9.8.0 |
NCCL | 2.24.3 | 2.24.3 | |
UCX | 1.18.0 | 1.18.0 |