URZ Compute-Server Kautz

Kautz - SiCortex SC5832

Aktuelles:

  • 07.10.09 Bitte vermeiden Sie Out-Of-Memory und Full-/tmp Situationen

Rechnersystem-Kurzbeschreibung

Mit der Installation einer SC5832 der Firma SiCortex im Januar 2009 steht den Nutzern unserer Universität ein massiv paralleler MPI-Rechencluster zur Verfügung. Die Kautz ist für spezielle Anwendungen mit hohen Anforderungen an Kommunikations- und Compute-Leistungen bestimmt.

Hardware

Architektur: distributed memory
Prozessor (CPU): 972 x MIPS64 x 6 Cores - 700MHz
Hauptspeicher (RAM): 3888 GB (4 GB/Knoten, 3.6 GB free)
Festplatten (HD): 27 TB LUSTRE Filesystem (ca. 1GB/s)
6 I/O-Nodes, 12 FC-4Gbps, 3 RAID-Boxen (je 9+3 SATA 1TB)
Netzwerk: spezielles MPI-Netzwerk (Kautz-Graph, spinpack.mpi_stress 340GB/s)
Netzwerkanschluss: 2 x Gigabit Ethernet
Stromverbrauch: ca. 21 kW bei Volllast, Idle: 11 kW
Performance-Daten: 8.2 TFLOPs peak, ca. 300 GB/s MPI-BW, Linpack 4.73 TFLOPs, 5.13 TFLOPs = 64% peak using hpl-2.0 (mpicc,mpif77,libf77blas.a,libatlas.a N=570000 NB=48 P*Q=75*76 WR00C2C2 -n 5700 -N 950, 20.5 kW Aug09)

weitere Informationen finden Sie unter: wikipedia/SiCortex, www.SiCortex.com (Insolvenz 2009, offline seit 2010), sowie www.Megware.de, Datasheet (PDF)

Systemsoftware, Kommerzielle Software

Zugang/Ansprechpartner

Der Zugang erfolgt aus der UNI-Domain über ssh kautz.urz.uni-magdeburg.de (141.44.8.32) mit Public-Key. Wenn Sie Windows und Excced für den Zugang (grafisch) benutzen, beachten Sie bitte die Konfigurationshinweise des URZ. Accounts können im Kontaktbüro des Rechenzentrums beantragt werden.
Füllen Sie dazu bitte Formular A aus.

Bitte beachten Sie, dass unsere Computeserver nicht der Aufbewahrung von Daten dienen. Deshalb sind die Plattensysteme nur teilweise mit Redundanz ausgestattet und auf Backups wird zugunsten von Performance und Stabilitaet verzichtet. Sichern Sie bitte selbst Ihre Resultate zeitnah und entfernen Sie angelegte Dateien, um anderen Nutzern genug Speicher fuer deren Rechnungen zur Verfuegung stellen zu koennen. Danke! Für Fragen und Probleme wenden Sie sich bitte an mailto:Joerg.Schulenburg(at)URZ.Uni-Magdeburg.DE?subject=WWW-Kautz oder Tel.0391-67-18408.

Termine/Infos/Planung:

 19.01.09 - Lieferung (Fotos) + Inbetriebnahme der SC5832
 29.01.09 - MPI-Benchmark Vergleich (mpi_stress.c from SpinPack)
 03.02.09 - Lustre FS rekonfiguriert
 21.02.09 - Lustre Stabilitaetsprobleme, kein login moeglich (Fehlkonfiguration)
 03.02.09 - 6*dd und IOR-2.10.2 erreicht max. 1080MB/s (6 Streams on OST_00..05)
            bei mehr Streams 400-800 MB/s (summarisch)
 05.03.09 - 400 Nodes down durch Nutzer (srun ... srun), kill + slurmd restart
 08.03.09 - Ausfall Lustre FS /home, 11:11 reboot!
 09.03.09 - Lustre auf TCP via SC-Fabric umgestellt, stabiles Lustre (/home = 150MB/s)
            m20n13-tx2=disabled (possible trigger of lustre bugs)
 19.03.09 - Erfahrungsbericht (pdf) beim Treffen des ZKI Arbeitskreis Supercomputing
 31.03.09 - Ausfall Lustre FS /home (?), 15:00 reboot
 07.04.09 - System down for maintenance, board m20 replaced (reboot)
 17.04.09 - head node crashed, head node rebooted, jobs not affected
 22.04.09 - Einweihung (Talks: T. Blum, J. Schulenburg, H.-W. Meuer, J. Richter, L. Tobiska, G. Janiga)
 03.05.09 - 17:11 Ausfall Temperatursensor msp1.PoL_11 + shutdown, 05.05. Board getauscht
 05.05.09 - LustreError on head-Node, head-node rebooted, jobs not affected
 08.06.09 - IO-node m10n1 hanging
 10.06.09 - LustreErrors (/lustre, /lustre1, 3.6. m11n26+m17n13 + 9.6. m17n13 fabricd errors) - reboot 
 15.06.09 - LustreErrors (/lustre1, 13.6. fabmon errors at m23n10) - reboot
 18.08.09 - LustreErrors (fabmon errors 16.6.+17.08. 23:22 m17n13,m21n9, 22.6. m11n26) - reboot + stress test
 20.08.09 - 04:26 new fabmon-errors on m17n13,m21n9 (m0n1?) (2 nodes disabled) ca. 16:00 reboot + stress test
 22.08.09 - 06:00 Ausfall Klimaanlage (Power off bis Montag 24.08.09)
 22.09.09 - reboot node m17n0, dead lustre client (caused by bit-errors?)
 09.10.09 - 2bit-Memory-Error on scx-m17n0 explored (Node disabled)
 16.11.09 - reboot machine (Lustre inkonsistent)
 29.11.09 - ca. 17:00 Ausfall Klimaanlage (Power off)
 12.12.09 - Ausfall Node m29n8 ECC Error (am 18.12. auskonfiguriert)
 13.01.10 - 18:00 Ausfall Klimaanlage (Wasser-Rueckkuehlung)
 08.03.10 - 13:30 Connection timed out to m29n18, L2 CSW ECC Error, Jobs crashed
 17.06.10 - 20:00 Ausfall Klimaanlage + Notabschaltung
 25.07.10 - 02:16 Crash Node m24n18 Error: "ICE9-dma"
 04.09.10 - 18:45 Crash Node m24n18 Error: "ECC" (6.9. reboot + set down)
 06.09.10 - 2bit-Memory-Error on scx-m24n18 explored (Node disabled) 
 08.09.10 - Crash Node m34n26 Error: "ECC" (set down) + Job6339 crashed
 13.09.10 - 08:50 maintenance - test stability at 633 MHz
            (Test-Ergebnis: m34n26=stabil, m17n0,m24n18=2-bit-errors)
 21.09.10 - kernel panic m10n1 (unused IO-node, reboot m10n1 on 11.10.)
 13.10.10 - kernel panic m10n1 (unused IO-node, PCI-Probleme, reboot m10n1)
 13.10.10 - partitionsparameter angepasst (MaxTime=15d zur Schadensbegrenzung)
 08.11.10 - ca. 14:47 Ausfall m17n13 unknown reason ... ??? (full reboot)
 11.11.10 - crash m29n8 Error: "ECC" (reboot m29n8 + set down)
 14.11.10 - crash m10n1 (unused IO-node, reboot m10n1)
 23.11.10 - node m10n1 + m34n26 crashed, boot problems ... bad RAM m34n26
 25.11.10 - Board m34 getauscht
 06.12.10 - crash m10n1 (unused IO-node)
 09.12.10 - 21:30 Job 6611 (n=6*250) crashed (Bus error), no reason found
 18.12.10 - 03:48 USV meldet Kurzschluss, Hauptsicherung ausgeloest, OFF
 20.12.10 - 09:15 48V*100A Netzteil (1 von 6) ausgefallen, getauscht
 26.03.11 - Ausfall Lustre, Reboot
 27.05.11 - ab 14:00 Abschaltung wegen Arbeiten an der Klimaanlage (bis max. Montag)
 10.06.11 - 146GB-HD des RAID-5 am SSP getauscht (Predictive Failure)
 23.01.12 - 4 Nodes ausgefallen (m16n20,m20n10,m21m17,m25n24 not_reachable)
            bisher laengste uptime von 967 nodes fuer ca. 6 Monate
 25.01.12 - seit ca. 14:00 Probleme mit Lustre (kein login, timeout)
            2*reboot, Problem mit Timer CPU2 m21n17, node deaktiviert
 27.04.12 - partition (queue) modifiziert, scx-comp bis 100 Nodes, neu: big
            um grossen Jobs zeitweise eine bessere Chance zu geben
 16.05.12 - neue fill-partition "short" max. 4h (oder weniger)
            alle Partition-MaxTimes werden zyklisch geaendert, so dass
            Kurzlaeufer (z.B. 4h) schneller drankommen,
            Langlaeufer kommen seltener zum Start
            (z.B. kommt ein 10d Job erst nach etwa 10d seine Chance)
 ToDo: lustre durch nfs ersetzen (robuster?)

Projekte:

Probleme:

...

Weitere HPC-Systeme:

HP GS 1280 marvel, 8-Wege-QuadOpteron meggie, der kleine Bruder SC072-PDS asgard, ISUT-Cluster comp2,
weitere Infos zu zentralen Compute-Servern im CMS


Author: Joerg Schulenburg, Uni-Magdeburg URZ, Tel. 58408 (2009-2012)