Comp2.mb -- ISUT Infiniband Opteron-Cluster

Aktuelles:

Rechnersystem-Kurzbeschreibung

Mit der Installation des Infiniband-Clusters der Firma Megware im Februar 2011 steht den Nutzern des Instituts ISUT und anderen Instituten der Universität ein Hochleistungsrechen-Cluster mit ausreichend Hauptspeicher und Parallelisierungsmöglichkeit zur Verfügung. Die Comp2 ist für spezielle Anwendungen mit hohen Anforderungen an Netzwerk-Bandbreite und Compute-Leistungen bestimmt. Gleichzeitig ist der Stromverbrauch bezogen auf Performance und Hauptspeicher sehr günstig.

Hardware

Architektur: Infiniband-Cluster aus 16-Core-Nodes
Prozessor (CPU): 44x 8-Core-Opteron 6134 - 2300MHz
Hauptspeicher (RAM): 22x 128 Gbytes (8GB/Core ECC-DDR3-1333)
Festplatten (HD): 22 x 1 TBytes Scratch, zentrales 20 TB RAID5 Home
Netzwerkanschluss: 22 x QDR-IB + 1Gb-Ethernet
Stromverbrauch: 4.5 kW (idle) - 8 kW (full load)
Besonderheiten: Messung Stromverbrauch, Raumtemperatur und Feuchtigkeit

Systemsoftware, Kommerzielle Software

Quickstart

   --- ACHTUNG --- muss noch ueberarbeitet werden --- ACHTUNG ---

   ssh -X comp2.mb.uni-magdeburg.de   # login to master via ssh-key

   pbstop   # text based job overview, "q" for quit
            # shows wrong CPU number if job is submitted on specific nodes

   # mpi-selector --set  openmpi_gcc-1.4.2    # einmalig aufzurufen
   module avail
   module load openblas/0.2.14
   module load gcc-4.9.2
   module load mpi/gcc/openmpi-1.8.4
   module list
   mpicc -O2 -o mpiprog mpiprog.c           # compile parallel program

   qsub -I -l nodes=10:ppn=16 # starting interactive Job, "Ctrl-d" for quit
                              # ppn = processes per node (maximum 16)
                              # max. 22*16 = 352 tasks
                              # login to first available node

   mpiexec -f $PBS_NODEFILE -np $(cat $PBS_NODEFILE | wc -l) ./mpiprog
                              # starting your parallel program

   qsub -l nodes=10:ppn=16 jobscript   # start 160 processes on 10 nodes
   qsub -l nodes=node001:ppn=16 jobscript # start 16 processes on node001
   # stop jobs by: qdel $jobnumber

   # please adapt the CPU needs to your memory needs (CPUs=memory/8GB)
   # if you dont need much memory, let a minimum of one CPU per node free for
   #   those users, which need a lot of memory (for example ppn=7)
   #   for maximum overall efficiency of the cluster, thanks
   # contact Joerg Schulenburg Tel. 18408 for help

Zugang/Ansprechpartner

Der Zugang erfolgt aus der UNI-Domain über ssh comp2.mb.uni-magdeburg.de (IP=141.44.132.2, see OpenSSH, PuTTY). Wenn Sie Windows und Excced für den Zugang (grafisch) benutzen, beachten Sie bitte die Konfigurationshinweise des URZ. Accounts können ueber Herrn Woche oder Herrn Gille per EMAIL beantragt werden. Für Fragen und Probleme wenden Sie sich bitte an mailto:Joerg.Schulenburg((at))URZ.Uni-Magdeburg.DE?subject=WWW-Comp2 oder Tel.18408.

Termine/Infos/Planung:

 17.02.11 - Lieferung und Inbetriebnahme durch Megware
 14.03.11 - Probleme node06 (sporadisch reboots)
 16.03.11 - node15 down, reboots nach 5-90s
 18.03.11 - Konfiguration grub + agetty fuer IPMI.ttyS1
 24.03.11 - Knoten 5+6 wieder eingebaut (hatte Kontaktprobleme RAM?)
 24.03.11 - Knoten 15+16 zur Reparatur (defektes Speichermodul identifiziert)
 29.03.11 - Knoten 15 zurueck, defektes Speichermodul wurde getauscht
 18.04.11 - Reboot + Bios-Config Nodes ipmi.LAN1=static (DHCP-Logs=100MB/7d)
          - pbs_mom disabled on frontend (bad entries in log-file)
 10.05.11 - shutdown wegen Ausfall Klima
 01.06.11 - Abschaltung der Knoten wegen Klimaausfall
 03.06.11 - Komplettabschaltung wegen Klimaausfall bis vorraussichtlich 7.6.
 22.06.11 - node13 spontaner(?) reboot um 15:01
 23.06.11 - node21 spontaner(?) reboot um 10:28 
 23.06.11 - node13 spontaner(?) reboot um 18:35 
 24.06.11 - node13 spontaner(?) reboot um 02:14, Ursache unklar
 26.06.11 - node13 10:03 crash (network?)
 28.06.11 - node13 power off + on, alte Prozesse (mpi-connect to node13) gekillt
 29.06.11 - node13 04:13 offline, spontaner reboot 04:14 + 04:32 (load=0)
          - node13 10:48 spontaner(?) reboot, 10:51 kernel traces
 05.07.11 - node19 crashed (OOM = Out-of-Memory)
 06.07.11 - node22 crashed (gleiches Programm, OOM = Out-of-Memory)
 06.07.11 - node13 defekt (reboots oder VGA=tot in bios oder memtest)
 22.07.11 - node13 defekter Stromverteiler (Power Distributor) getauscht
 18.07.12 - Stromausfall (eine Phase, node1-8)
 25.07.12 - Stromausfall (2 Phasen, incl. Master, Clustsafe defekt?)
 28.08.12 - Uniweiter Spannungsdrop 03:41:41, Knotenausfall
 11.09.12 - Automatische Abschaltung wegen RF=80%
            (Default nach Reparatur ClustSafe, neuer Grenzwert 90%RF Kaltluft)
 18.09.12 - node03 SATA-Error + Crash, reboot + monitoring
 23.09.12 - Klimaausfall + Notabschaltung bei 33C
 25.09.12 - Anschlusswechsel zur USV, temporaere Entlastung Sicherung
 27.09.12 - mehrfache Crashs node03 auch wenn nur idle
 02.11.12 - node03 nach Reparatur (Plattentausch) neu aufgesetzt
 14.01.13 - 9 spontane reboots node03 + crash, idle (SATA + khubd panics)
 08.03.13 - node03 ohne Fehlerbefund wieder eingebaut (monitored)
 10.03.13 - node20 aufgehangen (keine Ursachen sichtbar, monitored)
 02.05.13 - node03 erneut spontaner reboot
 28.05.13 - Datenfehler node16+22 ab ca. 2.5. nfs error 88, reboot + set overcommit_ratio=98%
 18.06.13 - node19 node 3.0 K8 ECC error
 25.06.13 - node20 aufgehangen (13:18) console: amd64_edacError Overflow
 01.07.13 - node20 ECC-Fehler + 1 crash, node19+20 zur Reparatur RAM
 0x.07.13 - node10 ECC-Fehler (bisher ohne Auswirkungen)
 08.07.13 - node20 fehlerhaftes RAM-Modul ersetzt
 05.09.13 - ansys14 installed
 20.09.13 - node10 repariert, RAM getauscht (laengere Fehlersuche)
 25.06.14 - job-Abbruch wegen disconnect Gb-eth (i82574L mod=e1000e TSO?)
 28.06.14 - node20 ipmi nicht erreichbar (21:44-23:44)
 17.09.14 - bei Netzwartung Netzwerkkabel versehentlich gezogen (30h offline)
 19.09.14 - Stromabschaltung wegen Wechsel der USV
 23.09.14 - node10 startet nicht (power distributer defect, to repair)
 04.03.15 - Gb-Switch getauscht (zunehmende Ausfaelle Ports seit 2013)
 15.04.16 - install openblas modules, best openblas/0.2.14
 04.10.16 - Ausfall, IB-card node12, 07.10. node12 off+on, OK
 05.10.17 - Stromaussetzer (Sturmfront) Knoten off
 29.10.17 - Stromaussetzer (Sturmfront) Knoten +USV+Master off (ClustSafe error)
 05.12.17 - Stromaussetzer, Knoten off (3x2016,7x2017 max=70s)
 30.12.17 - Ausfall Sicherung S1 (alle Switche power off)
 02.01.18 - nach einschalten S1 master gecrasht, pwr=on, dsk+usb+vga+eth+ib=off
 02.01.18 - nach reset wieder ok, Stromversorgung ipmi-switch + PSU1 via bigUSV
 16.10.18 - 13:56 lokaler Spannungsdrop, USV zieht Sicherung S1, Nodes down
 14.06.20 - letzte regulaere Jobs, Ausfall 2er disks (raid6 still working)
 16.09.20 - master node crashed, reset ok, storage zeroed, nodes set down

Probleme:

Uns sind im Laufe der Zeit folgende Probleme aufgefallen:

 (1) bei Auftreten von Out-of-Memory (OOM) auf einem Knoten, 
    funktioniert der OOM-Killer nicht und kernel panic tritt auf (OOM-dead),
    mittels Testprogrammen kann man den OOM-dead in 20-30s ausloesen,
    der Knoten bleibt nicht erreichbar, 
    ausserdem funktioniert das Rueckschreiben des
    Job-Outputfiles bei weiteren Jobs nicht mehr bis zum Reboot des Knotens,
    auf console erscheint:
     node01.service login: nfs: RPC call returned error 88
     nfs: RPC call returned error 88
     INFO: task ypbind:5464 blocked for more than 120 seconds.
     "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
     ypbind  D ffff81083c13b7a0  0  5464  1  5482 5461 (NOTLB)
    # kernel 2.6.18-194
    # d.h. OOM-Situationen bitte unbedingt vermeiden!
    Workarround (tested +buffer+cache+/dev/shm) for /etc/sysctl.conf:
      vm.overcommit_memory = 2
      vm.overcommit_ratio = 98
      echo 98 > /proc/sys/vm/overcommit_ratio   # 98% for use, 2% for nfsd...
      echo 2  > /proc/sys/vm/overcommit_memory  # no overcommit memory!
 (2) spontane reboots, node13 (nach PDU-Tausch ok), node03 (wegen ECC, behoben)
 (3) ECC-Errors (meist ohne Auswirkungen)
 (4) spontane disconnects eth0 on Nodes, Vermutung: TSO-Problem?
     fuehrt selten zu Job-Abbruechen
     TSO abschalten hilft nicht
     tritt bei starkem NFS-Traffic auf (MTU=1500, nfs-block-size=8k)         

Links: ISUT-SMP-Rechner comp1,
       ITP-Cluster quantum,
       URZ-SMP-Rechner meggie,
       URZ-MIPS-Cluster kautz

Author: Joerg Schulenburg, Uni-Magdeburg URZ, Tel. 18408 (2011-06-03)