URZ Compute-Server Meggie


Meggie -- 8 Wege QuadOpteron-System

Aktuelles:

  • Jan09 - Inbetriebnahme

Rechnersystem-Kurzbeschreibung

Mit der Installation des Opteron-Systems der Firma Megware im Januar 2009 steht den Nutzern unserer Universität ein Mehrprozessor-Hochleistungsrechner mit Parallelisierungsmöglichkeit (SMP) zur Verfügung. Die Meggie ist für spezielle Anwendungen mit hohen Anforderungen an Compute-Leistungen oder für Software, die nur auf x86 Plattformen läuft, bestimmt. Sie löst die älteren SMP Systeme ab.

Hardware

Architektur: SMP, cache-coherent Non-Uniform Memory Architecture (ccNUMA)
Prozessor (CPU): 8 x QuadOpteron 8378 - 2411MHz, L1=2*64KB (6.4GB/s 1.3ns), L2=512KB
Hauptspeicher (RAM): 256 Gbytes (32GB/4cores, nVidia CK804 Memory Controller)
Festplatten (HD): 2 x 320 GBytes (82MB/s, RAID0=161MB/s)
Netzwerkanschluss: 2 x Ethernet, 1Gbit/s
Stromverbrauch: ca. 1600W
Performance-Daten: MemStream single=770MB/s, sum=14.7GB/s
MemLatency 200ns(4MB)..580ns(1GB)
32*MPI_sendrecv 4GB/s
Peak = 308 GFLOPs (0.83GB/GFLOP)

Systemsoftware, Kommerzielle Software

Zugang/Ansprechpartner

Der Zugang erfolgt aus der UNI-Domain über ssh meggie.urz.uni-magdeburg.de (141.44.8.33). Der Zugang erfolgt passwortlos mit ssh-public-keys. Wenn Sie Windows und Excced für den Zugang (grafisch) benutzen, beachten Sie bitte die Konfigurationshinweise des URZ. Accounts können im Kontaktbüro des Rechenzentrums beantragt werden. Bitte beachten Sie, dass unsere Computeserver nicht der Aufbewahrung von Daten dienen. Deshalb sind die Plattensysteme nur teilweise mit Redundanz ausgestattet und auf Backups wird zugunsten von Performance und Stabilitaet verzichtet. Sichern Sie bitte selbst Ihre Resultate zeitnah und entfernen Sie angelegte Dateien, um anderen Nutzern genug Speicher fuer deren Rechnungen zur Verfuegung stellen zu koennen. Danke! Für Fragen und Probleme wenden Sie sich bitte an mailto:Joerg.Schulenburg(at)URZ.Uni-Magdeburg.DE?subject=WWW-Meggie oder Tel.18408.

Termine/Infos/Planung:

 20.01.09 - Inbetriebnahme Meggie
 11.02.09 - Installation Fluent-lnamd64-2.3.16 + EDEM
 17.02.09 - ca. 10:30 Stromausfall bei Elektroarbeiten
 25.02.09 - ca. 15:30 Out of memory crash
 08.03.09 - ca. 23:02 Out of memory crash (Massnahme: ssh-login mit nice)
 24.03.09 - interaktive graphische Jobs nun moeglich (qsub -V -I -X ...)
 21.06.09 - ca. 09:30 Out of memory crash (Massnahme: pbs_mom mit nice)
 19.08.09 - ca. 16:45 Power Off (Ursache in Untersuchung)
 22.08.09 - 06:00 Ausfall Klimaanlage (bis Montag)
 28.08.09 - ca. 08:35 Out of memory crash 
 19.10.09 - ca. 16:30 Power Off by Out of memory crash (set resources_max.mem=250gb, resources_default.mem = 8gb)
 04.11.09 - matlab2009b + java-1.6.0 installiert (start via qsub -V -I -X -N matlab ...)
 29.11.09 - 17:00 Ausfall Klimaanlage (bis Montag)
 11.12.09 - ansys-12 + fluent-12 (fuer edem-2.2) installiert
 18.12.09 - zombiekiller-script installiert (killt per Crontab Prozesse mit verlorenen stdin/stdout, meist fluent)
 23.12.09 - pam-limits gesetzt (bitte nicht nohup, sondern Job-system nutzen!)
 04.01.10 - hoeherer Nice-Level fuer Torque-Jobs eingestellt
 13.01.10 - 18:00 Ausfall Klimaanlage (Wasser-Rueckkuehlung)
 14.03.10 - 16:00 Out of memory crash (set resources_max.vmem=250gb, neues jobscript)
            ... hilft aber nicht bei Paralleljobs! Kennt jemand eine Loesung?
            ... z.B. ulimit-v/NP vom Nutzer
 17.06.10 - 21:00 Ausfall Klimaanlage (Notabschaltung)
 30.06.10 - crash (unknown reason, OOM=Out_Of_Memory ?)
 02.07.10 - crash (unknown reason, OOM?, enhanced logging started)
 22.09.10 - crash (OOM, parallel job ohne ulimit-v/NP als Verursacher)
 17.04.11 - crash OOM
 28.04.11 - crash, Update to CentOS-5.6 + k2.6.18-238 + oom_adj=15 still crashes on OOM
            set server resources_max.vmem=240gb, user-crontab disabled
            bitte mpi-Jobs neu compilieren und im Jobscript Option ncpus zufuegen!
 27.05.11 - ab 14:00 Abschaltung wegen Arbeiten an der Klimaanlage (bis max. Montag) 
 10.06.11 - 14:45 new queue q1 created for single cpu-jobs (max. 4)
 21.06.11 - Ansys-13 installed (ansys_workbench)
 07.07.11 - System gegen OOM gehaertet (overcommit_memory=2, see below)
 27.02.12 - uptime 275 days (no OOM crashs anymore)
 13.03.12 - Anpassungen der Queues (max_user_queuable)
 29.03.12 - weitere Queue-Anpassungen und Nutzerbeschraenkungen (auch zukuenftig)
            bitte statt vielen Singlejobs, einzelne Multitaskjobs nutzen
            bash-script: for x in $(seq $NP);do(do_task$x)&done;wait
            uptime 306 days
 09.05.12 - queue batch: max.walltime von 480 auf 100h reduziert, um Warteiten
            zwischen Nutzerjobs zu reduzieren
 21.05.12 - reboot zur Disk-Erkennung, 359 days uptime

Projekte:

Probleme:

...

Weitere HPC-Systeme:

HP GS 1280 marvel, MPI-Cluster SC5832 kautz


weitere Infos zu zentralen Compute-Servern im CMS


Author: Joerg Schulenburg, Uni-Magdeburg URZ, Tel. 58408 (2009-2012)