コンテンツにスキップ

システムH概要

システム全体概要

システムHは、合計2,020基のNVIDIA H100 GPUアクセラレーターを備えた505台の計算ノード(H)を始めとする計算リソース、約41.0PBの容量を有する共有ファイルシステム、これらを高速に結合するInfiniBandネットワーク、ファイアウォールなどからなるハードウェアと、これらを最大限活用するためのソフトウェアから構成されます。また、システムHは学術情報ネットワークSINET6を利用して、100 Gbpsでインターネットに接続しています。

システムH Overview

システムHの主要な諸元は以下のとおりです。

項目 計算ノード(H) 合算性能・容量
理論ピーク演算性能 (AI-FLOPS) 2.1028 E-AI-FLOPS
理論ピーク演算性能 (FP64) 138.4 PFLOPS
メインメモリ合算容量 505 TiB TiB
GPUメモリ合算容量 147 TiB
ローカルストレージの合算容量 3,878 TB

計算リソース

システムHの計算リソースの一覧を以下に示します。

項目 ホスト名 説明 ノード数
アクセスサーバ qas.q.abci.ai 外部からアクセスするためのSSHサーバ 2
インタラクティブノード qes システムHのフロントエンドとなる計算ノード(H)向けログインサーバ 5
計算ノード(H) qh001-qh505 NVIDIA H100 GPUを搭載するサーバ 505

Note

運用・保守上の合理的理由により、計算リソースの一部が提供されない場合があります。

このうち、インタラクティブノードはInfiniBand NDRを1ポート、計算ノード(H)はInfiniBand NDRを2ポート備えており、後述のストレージシステムとともに、InfiniBandスイッチにより接続されます。

以下ではこれらのノードの詳細を以下に示します。

インタラクティブノード

システムHのインタラクティブノードは、FUJITSU Server PRIMERGY RX2530 M7で構成されています。 Intel Xeon Gold 6442Yプロセッサーを2基搭載し、512 GiBのメインメモリが利用可能です。

インタラクティブノードの構成を以下に示します。

項目 説明 個数
CPU Intel Xeon Gold 6442Y Processor 2.6 GHz, 24 Cores (48 Threads) 2
Memory 32 GiB DDR5 4800 MHz RDIMM (ECC) 16
SSD NVMe SSD 3.4 TB 4
Interconnect InfiniBand HDR (400 Gbps) 1
10GBASE-T 2

システムHのフロントエンドであるインタラクティブノードには、アクセスサーバを経由したSSHトンネリングを用いてログインします。インタラクティブノードではコマンドの対話的実行が可能であり、プログラムの作成・編集、ジョブ投入・表示などを行います。インタラクティブノードにはGPUが搭載されていませんが、インタラクティブノードで計算ノード向けのプログラム開発も可能です。

ログイン方法の詳細はシステムHの利用開始、ジョブ投入方法の詳細はジョブ実行をそれぞれ参照してください。

Warning

インタラクティブノードのCPUやメモリなどの資源は多くの利用者で共有するため、高負荷な処理は行わないようにしてください。高負荷な前処理、後処理を行う場合は、計算ノード(H)を利用してください。 インタラクティブノードで高負荷な処理を行った場合、システムにより処理が強制終了されますのでご注意ください。

計算ノード

計算ノード向けのプログラムを実行するには、バッチジョブもしくはインタラクティブジョブとしてジョブ管理システムに処理を依頼します。インタラクティブジョブでは、プログラムのコンパイルやデバッグ、対話的なアプリケーション、可視化ソフトウェアの実行が可能です。詳細はジョブ実行を参照してください。

計算ノード(H)

計算ノード(H)は、Supermicro SYS-221GE-TNHT-LCCで構成されています。 計算ノードは、Intel Xeon Platinum 8558プロセッサーを2基、NVIDIA H100 GPUアクセラレーターを4基搭載しています。システム全体では、総CPUコア数は48,480コア、総GPU数は2,020基となります。

計算ノードの構成を以下に示します。

項目 説明 個数
CPU Intel Xeon Platinum 8558 Processor 2.10 GHz, 48 Cores (48 Threads) 2
GPU NVIDIA H100 SXM5 80GB HBM2 4
Memory 64 GB DDRR5 5600 MHz RDIMM (ECC) 16
SSD NVMe SSD 3.84TB 2
Interconnect InfiniBand NDR (400 Gbps) 2

参考: 計算ノード(H)のブロック図

ストレージシステム

システムHは、人工知能やビッグデータ応用に用いる大容量データを格納するためのストレージシステムを備えており、これらを用いて共有ファイルシステムを提供しています。合算で最大41.1PBの実効容量があります。

構成 ストレージシステム メディア 用途
1 DDN ES400NVX2 x10 55.9 TB NVMe SSD x 960 ホーム領域(/home)、アプリケーション領域
グループ領域(/groups)

上記のストレージシステムを用いて、システムHが提供している共有ファイルシステムの一覧を以下に示します。

用途 マウントポイント 容量 ファイルシステム 備考
ホーム領域 /home 3.1 PiB Lustre ホーム領域を参照
グループ領域 /groups 38 PiB Lustre グループ領域を参照

インタラクティブノード、計算ノードは、共有ファイルシステムをマウントしており、利用者は共通のマウントポイントからこれらのファイルシステムにアクセスすることができます。

これ以外に、これらのノードはそれぞれローカルスクラッチ領域として利用可能なローカルストレージを搭載しています。以下に一覧を示します。

ノード種類 マウントポイント 容量 ファイルシステム 備考
インタラクティブノード /tmp 7.0 TB XFS
計算ノード(H) /local1 3.5 TB XFS ローカルストレージを参照
/local2 3.5 TB XFS ローカルストレージを参照

ソフトウェア

システムHで利用可能なソフトウェア一覧を以下に示します。

Category Software Interactive Node Compute Node(H)
OS Rocky Linux - 9.4
Red Hat Enterprise Linux 9.4 -
Job Scheduler Altair PBS Professional 2024.1.2 2024.1.2
Development Environment CUDA Toolkit 12.6.2
12.9.1
12.6.2
12.9.1
Intel oneAPI
(compilers and libraries)
2024.2.1 2024.2.1
Intel VTune 2024.2.1 2024.2.1
GCC 11.4.1
13.3.0
11.4.1
13.3.0
cmake 3.26.5 3.26.5
Python 3.10.16
3.11.11
3.12.8
3.13.2
3.10.16
3.11.11
3.12.8
3.13.2
Ruby 3.0.4 3.0.4
R 4.4.2 4.4.2
Java 1.8.0.402
21.0.2.0.13
1.8.0.412
21.0.3
Scala 3.5.2 3.5.2
Perl 5.32.1 5.32.1
Go 1.24.1 1.24.1
Julia 1.11.2 1.11.2
File System DDN Lustre 2.14.0_ddn195-1 2.14.0_ddn195-1
BeeOND - 7.4.4
Container SingularityCE 4.1.5-1 4.1.5-1
MPI Intel MPI 2021.13 2021.13
OpenMPI 4.1.7 4.1.7
Library cuDNN 9.8.0 9.8.0
NCCL 2.24.3 2.24.3
UCX 1.18.0 1.18.0