Seite 1 von 1

kurze Pause

BeitragVerfasst: 10. Jun. 2012 17:19
von Nils
Mir ist gestern mein Hauptrechner abgefackelt - lautes PFFFT gefolgt vom Klack der Festplatten. Außer zwei geplatzten Elkos im Netzteil sind auch noch ein paar auf dem Board dick, die getauscht werden müssen. Nach 5 Jahren Dauerbetrieb mit Last ist das nicht ganz so überraschend... Ersatzteile sind bestellt. :rolleyes:

Re: kurze Pause

BeitragVerfasst: 23. Jun. 2012 20:51
von Spocky
may he rest in peace

Re: kurze Pause

BeitragVerfasst: 24. Jun. 2012 20:51
von Nils
läuft doch schon längst wieder ... ;)

Das billige Sharkoon-Netzteil (WPM 400 - 80+ mit Cable Management für <40€) gefällt mir übrigens recht gut - mal sehen wie lange es hält.

Re: kurze Pause

BeitragVerfasst: 01. Aug. 2012 18:17
von Cherel4
Wo seid ihr denn alle?

Re: kurze Pause

BeitragVerfasst: 01. Aug. 2012 18:38
von Nils
Wir sind doch da.... ;)

kleiner Nachtrag zum Netzteil: das war ein altes Chieftec 350W - allerdings wohl noch aus der Athlon K7 Zeit. Viel Leistung auf 3,3/5V und nur 15(!) A auf 12V. Ein Wunder, daß es mit einem Athlon II 635 (2,9 GHz x4) und einer GTS450 bei Volllast überhaupt noch lief. Ich hab mich nur immer gewundert, warum's dann etwas knurrt... :rolleyes: :eek: :lol:

Re: kurze Pause

BeitragVerfasst: 24. Aug. 2012 13:39
von Nils
Wir machen jetzt mal einen kleinen Lasttest mit unserem Cluster.
Am Start sind insgesamt 67,2 GHz (24 Lisbon-Opteron-Kerne) - mal gucken, was es bringt... :D

Re: kurze Pause

BeitragVerfasst: 31. Okt. 2012 13:13
von Springer45
Und? Was hats gebracht?

Re: kurze Pause

BeitragVerfasst: 03. Nov. 2012 11:32
von Nils
Nun ja - VMware wird anscheinend instabil(!) wenn alle Kerne durch Gäste ausgelastet sind (Snapshots klemmen, Backups werden extrem langsam). Wie weit man gehen kann, habe ich noch nicht ganz ausgelotet, da ein Host in größeren Umstellungen ist (musste gestern Netzteil(!)-Firmware updaten, was unbegreiflicherweise nicht einfach über das Management geht sondern man muss dafür die Maschine 2x booten). Momentan laufen 6 Kerne, aber ich gehe davon aus, daß wir das demnächst nochmal länger mit 20-22 Kernen wiederholen.

Re: kurze Pause

BeitragVerfasst: 09. Nov. 2012 16:25
von Nils
Bevor ich VMware zu Unrecht beschuldige: eine ganz gezielte Fehlersuche hat ergeben, daß anscheinend ein einzelner Kern(!) in einem der Opterons Blödsinn macht. Solange dieser Kern gezielt umgangen wird, macht der Host alles mit, was ich drauf werfe.

Cool bei der Geschichte war, das Testsystem im Betrieb von einem Kern auf den nächsten zu schieben und immer an derselben Stelle zu sehen, daß der Folding@Home-Client innerhalb von Sekunden abschmiert. Sieht so aus als ob der Lasttest eine richtig gute Idee war - sonst hätten wir das wohl monate-/jahrelang nicht gemerkt... :O

Re: kurze Pause

BeitragVerfasst: 16. Nov. 2012 21:51
von Nils
Dell hat heute die verdächtige CPU getauscht - jetzt folgt ein kleines Burn-In zum Testen mit 23 Kernen... ;)

Re: kurze Pause

BeitragVerfasst: 28. Dez. 2012 18:27
von Nils
... das Burn-In hat sich etwas hingezogen, dafür waren es auch 23-24 Kerne mit einem schicken Output (übrigens heute 15M geknackt) - heute scheint allerdings die nächste CPU verreckt zu sein. Einige VMs wurden instabil, ich habe dann schnell den Host geräumt.

Im Unterschied zum letzten Mal lässt sich das Problem nicht sehr schnell mit
Code: Alles auswählen
dnetc -stress ogr-ng
sehen - ich habe auf L2-Cache-Probleme getippt, RC5 lief problemlos - sondern dnetc sowie Prime95 laufen in allen Varianten durch. Nur der F@H-Client und diverse Anwendungen sind hochgradig instabil. Mal gucken, wie ich das Dell beibringe...

Ach ja: den anderen Host habe ich sicherheitshalber erstmal entlastet und der suspekte ist natürlich im Test - erstmal deutlich weniger Output von hier. :(

Re: kurze Pause

BeitragVerfasst: 04. Apr. 2013 17:55
von Nils
... und gestern fing dann der dritte Opteron (von insgesamt vier) an zu spinnen - wir scheinen da eine ganz schlechte Charge erwischt zu haben. Wird morgen früh getauscht, dann müssen wir eben noch ein paar Wochen testen. :-P

Interessanterweise ist der F@H-Client die einzige Software, die auf dem kaputten Kern sofort abschmiert - schon bevor der eigentliche Client startet kommen lustige Zeichen in FAHControl.
Der ESXi kriegt auch einige Probleme wenn man alle anderen Kerne voll auslastet und ihn damit auf den kaputten zwingt - aber die meiste andere Software scheint normal zu laufen. Nach einem Reboot (des Hosts) ist der Fehler ein paar Stunden bis Wochen wieder völlig weg, dann aber konstant wieder da. Alles äußerst mysteriös...

Die extrem ominösen Probleme, die wir im letzten Frühjahr mit zwei Windows-Servern (VMs) hatten, waren vermutlich auch schon von dem ersten Defekt verursacht worden. Bin mal gespannt, ob von AMD noch irgendwas kommt - Dell sagt, die testen die CPUs ziemlich gründlich durch und Zeit hatten sie ja inzwischen. Eigentlich sollten sie die letzte CPU auch gleich tauschen...