Bluescreen nur einmal täglich

Hallo,

vielleicht kann mir jemand weiterhelfen:

Seit einiger Zeit stürzt mein PC einmal täglich nach dem ersten Kaltstart nach etwa einer bis drei Stunden ab. Das kündigt sich immer durch den vorhergehenden Absturz der GUI des Browsers an.
Beim Bluescreen treten die unterschiedlichsten Fehlermeldungen auf:

driver_irql_not_less_or_equal stop 0xd1
page_fault_in_nonpaged_area stop 0x50
bad_pool_caller stop 0xc2
irq_not_less_or_equal stop 0x0a
pfn_list_corrupt stop 0x4e

Danach läuft das System den Rest des Tages stabil.
Interessanterweise tritt kein Bluescreen auf, wenn ich den PC nach einer Viertelstunde freiwillig neu starte, ohne den Absturz abzuwarten.
Der Rechner läuft auch fehlerfrei, wenn ich statt Windows XP ein parallel installiertes Linux nutze.

Den üblichen Verdächtigen RAM kann ich mittlerweile als Fehlerquelle ausschließen.

Hat jemand eine Idee, wo ich bei meiner Fehlersuche weiter ansetzen könnte?

Mein System:

AMD Athlon XP1700+
Motherboard MSI MS-6382
Chipsatz VIA VT8366A Apollo KT266A
RAM 512 MB DDR SDRAM PC2700 (166MHz)
Grafikkarte NVIDIA GeForce2 MX/MX400

Hallo Fragewurm,

Danach läuft das System den Rest des Tages stabil.
Interessanterweise tritt kein Bluescreen auf, wenn ich den PC
nach einer Viertelstunde freiwillig neu starte, ohne den
Absturz abzuwarten.

Warm oder Kaltstart (Also mit abschalten des Netzteils) ??

Der Rechner läuft auch fehlerfrei, wenn ich statt Windows XP
ein parallel installiertes Linux nutze.

Hat jemand eine Idee, wo ich bei meiner Fehlersuche weiter
ansetzen könnte?

Möglicherweise ein Treiberproblem im weitesten Sinn oder ein Hardware-Problem.

Die Abstürze sehen nach einem Treiber-Problem aus. Das kann aber auch durch eine Hardware, welche erst „warmlaufen“ muss, damit der Treiber richtig initialisiert wird, ausgelöst werden.

Ursache könnte auch das BIOS sein, da es ja die PnP-Geschichte als erstes initialisiert.

Manchmal ist es schwierig zu entscheiden ob das Problem an der Hardware oder an der Software liegt. Manche Hardware benötigt etwas Zeit um Befehle zu verarbeiten und darf deshalb nicht so schnell angesteuert werden, wie die CPU das könnte. Einerseits gibt es beim Timing Exemplarstreuungen bei den Chips und andererseits verändern sich die Parameter auch noch mit der Betriebstemperatur der Chips.

Obwohl Linux funktionmiert und Win nicht, kann man das BIOS als Fehlerquelle nicht ausschliessen.

Gibt es ein BIOS-Update ??
Ein weiterer Ansatz wären die Treiber, gibt es da Updates ?
Grundsätzlich kommen noch die Netzteile in Frage, also das was jeder kennt und dann noch die Diversen welche auf dem Mainboard die verschiedenen Spannungen für die CPU bereitstellen.
Dein Mainboard dürfte schon einige Jahre alt sein, da kämen auch noch defekte Elkos in Frage. Das ginge dann in diese Richtung:
http://www.wer-weiss-was.de/cgi-bin/forum/showarchiv…

MfG Peter(TOO)

Hallo Peter,

Danach läuft das System den Rest des Tages stabil.
Interessanterweise tritt kein Bluescreen auf, wenn ich den PC
nach einer Viertelstunde freiwillig neu starte, ohne den
Absturz abzuwarten.

Warm oder Kaltstart (Also mit abschalten des Netzteils) ??

Zwischen Aus- und Einschalten lasse ich immer etwa eine halbe Minute verstreichen, mache also einen Kaltstart. Mit meinem Netzteil scheint somit alles in Ordnung zu sein.

Ursache könnte auch das BIOS sein, da es ja die PnP-Geschichte
als erstes initialisiert.

Obwohl Linux funktionmiert und Win nicht, kann man das BIOS
als Fehlerquelle nicht ausschliessen.

Gibt es ein BIOS-Update ??
Ein weiterer Ansatz wären die Treiber, gibt es da Updates ?

Da es sich bei meinem Mainboard um ein für HP hergestelltes Medion-OEM - Mainboard handelt, gibt es weder von HP noch von Medion Support.
Ein Update des BIOS und der Mainboardtreiber wären ein reines Glücksspiel und würde mir darüberhinaus bei einem Hardwareproblem auch nicht weiterhelfen.
Zumindest den Treiber der Grafikkarte konnte ich aber aktualisieren.

Treiberupdates sind immer so eine Sache - wozu braucht eine jahrelang funktionierende Hardware plötzlich neue Treiber oder ein neues BIOS? Bei Windows ändert sich im Laufe der Zeit eher der Kernel des Betriebssystems selbst, wenn ich regelmäßig Patches und Updates einspiele. Um Treiberproblemen auf die Schliche zu kommen, sollte ich vielleicht besser diese Patches sukzessive entfernen.

Dein Mainboard dürfte schon einige Jahre alt sein, da kämen
auch noch defekte Elkos in Frage. Das ginge dann in diese
Richtung:
http://www.wer-weiss-was.de/cgi-bin/forum/showarchiv…

Diese Befürchtung hatte ich auch schon, allerdings ist äußerlich an den Elkos keine Veränderung oder Deformation erkennbar, auch ist nichts ausgelaufen. Können sie trotzdem defekt sein und welche Möglichkeit hätte ich, dies zu überprüfen?

MfG Marco

Hallo Marco,

Warm oder Kaltstart (Also mit abschalten des Netzteils) ??

Zwischen Aus- und Einschalten lasse ich immer etwa eine halbe
Minute verstreichen, mache also einen Kaltstart. Mit meinem
Netzteil scheint somit alles in Ordnung zu sein.

Einen Netzteilfehler kannst du damit nicht ausschliessen.

Was passiert wenn du einen Warmstart machst ?
Hast du auch schon versucht einen neustart nach nur ein paar Minuten zu machen ?

Beim Einschalten legt das Netzteil zuerst seine Spannungen an, es dauert dann einige 1/10 Sekunden bis diese Stabil sind. SInd die Spannungen nach Ansicht des Netzteil stabil, wird das PowerValid-Signal aktiviert und das Reset-Signal deaktiviert. Allerdings werden aus diesen Spannungen vom eigentlichen Netzteil, durch weitere Netzteile auf dem Mainboard gespiesen, welche diverse Spannungen für die CPU erzeugen. Weitere Netzteile befinden sich meist noch auf der Graphik-Karte und auch auf weiteren Karten können welche vorhanden sein.
Wie schnell diese Spannungen anliegen und stabil sind, hängt von der Temperatur der Bauteile und dem Ladegrad der Elkos ab. Es kann auch sein, dass da ein IC etwas „rumzickt“ bis es eine bestimmte Temperatur erreicht hat.

Vor 30 Jahren hatten wir so ein Problem mit den ersten Serien der 6502-CPU. Unterhalb von 20°C führte die CPU den Reset nicht richtig durch. Man musste also das Gerät einige Sekunden einschalten damit sich der CPU-Chip auf über 20°C aufheizen konnte und dann das Gerät aus- und wieder einschalten. Wir haben dann die CPUs 12h bei 150°C künstlich gealtert. Danach waren von 100 CPUs 2 defekt aber der Rest machte keinerlei Probleme mehr. Aus Kostengründen wurde bei dieser Anwendung kein Quarz sondern ein einstellbarer RC-Oszillator, nach Datenblatt, verwendet. Erstaunlich war, dass nach dem Einbrennen alle Trimmer genau gleich standen, was vorher nicht der Fall war.

Treiberupdates sind immer so eine Sache - wozu braucht eine
jahrelang funktionierende Hardware plötzlich neue Treiber oder
ein neues BIOS?

Es gibt unterschiedliche versteckte Bugs.

  1. Neue Software kann einen Treiber etwas anders ansteuern, was erst kann zu Fehlern führen kann. Ich habe schon Fehler erlebt, welche nur auftreten wenn die Software auf einer bestimmten physikalischen Adresse abgelegt wird.
  2. Auch Elektronik altert. Der IC-Hersteller garantiert Grenzwerte für die Parameter. Diese Grenzen sind so gesetzt, dass sie über den Temperaturbereich und die Zeit eingehalten werden. Da die Herstellung aber immer gewisse Toleranzen beinhaltet sind die gefertigten Bausteine immer etwas besser als Garantiert. Dies ist auch das was beim Übertakten ausgenutzt wird. Es kann also durchaus sein, dass in der Ansteuersoftware etwas Zeitlich zu knapp bemessen wurde, aber bei den meisten Geräten einer ganzen Serie funktioniert.

Bei Windows ändert sich im Laufe der Zeit eher
der Kernel des Betriebssystems selbst, wenn ich regelmäßig
Patches und Updates einspiele. Um Treiberproblemen auf die
Schliche zu kommen, sollte ich vielleicht besser diese Patches
sukzessive entfernen.

Auch hier kann der eigentliche Fehler im BIOS oder einem Treiber liegen. Auch hier gibt es mehre Möglichkeiten.

  1. Beim Aufruf eines Treibers werden im Parameter übergeben. Allerdings sind nicht immer alle Bits definiert, da einige für spätere Erweiterungen reserviert sind. Normalerweise werden solche Bits auf ‚0‘ gesetzt und müssen vom Treiber ignoriert werden. Geht jetzt aber der Treiber davon aus, dass diese Bits immer ‚0‘ sind und es wird erweitert, kann der Treiber auf die Schnautze fallen.
  2. Mit einem AUfruf des Treibers wird ja meist eine Aktion der Hardware ausgelöst. Die Hardware benötigt dazu meist etwas Zeit. Normalerweise sollte der Treiber dann aber Prüfen ob die Hardware mit der Ausführung fertig ist, bevor er einen neuen Befehl an die Hardware weiterleitet. Macht dies der Treiber nicht kann es bestens funktionieren da z.B. der Kernel zwischen zwei AUfrufen noch Berechnungen anstellt, welche ja auch Zeit beötigen. Wird jetzt der Kernel optimiert können zwei solche aufeinander folgene Aufrufe in einem kürzeren zeitlichen Abstand auftreten und die Hardware ist noch nicht mit dem ersten Befehl fertig, wenn der nächste schon gesendet wird. Die optimierung kann schon alleine dadurch erfolegen, dass beim Compilieren andere Einstellungen für die Optimierung verwendet werden oder eine andere Compiler-Version verwendet wird.

Diese Befürchtung hatte ich auch schon, allerdings ist
äußerlich an den Elkos keine Veränderung oder Deformation
erkennbar, auch ist nichts ausgelaufen. Können sie trotzdem
defekt sein und welche Möglichkeit hätte ich, dies zu
überprüfen?

Können sie. Nass-Elkos können auch austrocknen, wodurch sie ihre Kapazität verlieren.
Man müsste die Elkos auslöten und deren Kapazität messen. An Multilayer-Platinen rumzulöten benötigt aber etwas Erfahrung. Zudem sind da nich normale 08/15 Elkos drin. Es müssen schon spezielle Low-ESR-Typen verwendet werden.
Ich hatte dieses Problem bei meinem Asus-Board auch gehabt. Seit über 18 Monaten läuft es aber wieder Problemlos. Allerdings hatten die Elkos über einen Monat Lieferzeit, weil auch die Vertretungen diesen Typ in Europa nicht an Lager hatten. Als Elektroniker gibt man sich halt nicht immer mit halben Sachen zufrieden.

MfG Peter(TOO)

Hallo Peter,

noch einmal herzlichen Dank, Daß du Dir Zeit für mein Problem nimmst und mir sachkundig weiterhilfst.

Einen Netzteilfehler kannst du damit nicht ausschliessen.

Was passiert wenn du einen Warmstart machst ?
Hast du auch schon versucht einen neustart nach nur ein paar
Minuten zu machen ?

Wenn ich nach dem ersten Kaltstart nach wenigen Minuten einen Neustart mache, bleibt der Bluescreen aus und der PC läuft stabil.
Morgen werde ich testen, was nach einem freiwilligen Warmstart passiert.

Wie schnell diese Spannungen anliegen und stabil sind, hängt
von der Temperatur der Bauteile und dem Ladegrad der Elkos ab.
Es kann auch sein, dass da ein IC etwas „rumzickt“ bis es eine
bestimmte Temperatur erreicht hat.

Vor 30 Jahren hatten wir so ein Problem mit den ersten Serien
der 6502-CPU. Unterhalb von 20°C führte die CPU den Reset
nicht richtig durch. Man musste also das Gerät einige Sekunden
einschalten damit sich der CPU-Chip auf über 20°C aufheizen
konnte und dann das Gerät aus- und wieder einschalten.

Mir ist aufgefallen, daß im Sommer zur Zeit der großen Hitze meine Bluscreens seltener wurden, da gab es sogar eine Phase, in der ich etwa 14 Tage lang keinen einzigen hatte - die Raumtemperatur lag damals zwischen 24 und 26 Grad.

Treiberupdates sind immer so eine Sache - wozu braucht eine
jahrelang funktionierende Hardware plötzlich neue Treiber oder
ein neues BIOS?

Es gibt unterschiedliche versteckte Bugs.

  1. Neue Software kann einen Treiber etwas anders ansteuern,
    was erst kann zu Fehlern führen kann. Ich habe schon Fehler
    erlebt, welche nur auftreten wenn die Software auf einer
    bestimmten physikalischen Adresse abgelegt wird.
  2. Auch Elektronik altert. Der IC-Hersteller garantiert
    Grenzwerte für die Parameter. Diese Grenzen sind so gesetzt,
    dass sie über den Temperaturbereich und die Zeit eingehalten
    werden. Da die Herstellung aber immer gewisse Toleranzen
    beinhaltet sind die gefertigten Bausteine immer etwas besser
    als Garantiert. Dies ist auch das was beim Übertakten
    ausgenutzt wird. Es kann also durchaus sein, dass in der
    Ansteuersoftware etwas Zeitlich zu knapp bemessen wurde, aber
    bei den meisten Geräten einer ganzen Serie funktioniert.

Wenn ich das richtig verstanden habe, würden mir in diesem Fall (alternde Elektronik) Treiberupdates nicht weiterhelfen - oder sind neuere Treiber generell fehlertoleranter bei alternder Hardware?

Bei Windows ändert sich im Laufe der Zeit eher
der Kernel des Betriebssystems selbst, wenn ich regelmäßig
Patches und Updates einspiele. Um Treiberproblemen auf die
Schliche zu kommen, sollte ich vielleicht besser diese Patches
sukzessive entfernen.

Auch hier kann der eigentliche Fehler im BIOS oder einem
Treiber liegen. Auch hier gibt es mehre Möglichkeiten.

Wird jetzt der Kernel optimiert können
zwei solche aufeinander folgene Aufrufe in einem kürzeren
zeitlichen Abstand auftreten und die Hardware ist noch nicht
mit dem ersten Befehl fertig, wenn der nächste schon gesendet
wird. Die optimierung kann schon alleine dadurch erfolegen,
dass beim Compilieren andere Einstellungen für die Optimierung
verwendet werden oder eine andere Compiler-Version verwendet
wird.

Falls dies die Fehlerursache sein sollte: Wenn ich für meine Hardware wie z.B. Mainboard oder Grafikkarte keine neuen Treiber bekomme, müßte ich demzufolge also tatsächlich die Updates des Betriebssystems wieder entfernen?

Wie weiter oben schon beschrieben, hatte ich in der Zeit der großen Hitze keine Bluscreens. Diese traten erst Anfang August wieder auf - einen Tag, nachdem ich eine Reihe von Microsoft-Patches heruntergeladen und installiert hatte. Andererseits wurde es gerade um diese Zeit auch wieder kühler, die Raumtemperatur lag nicht mehr bei 25 Grad, sondern nur noch bei 19-20 Grad.

Aber auch früher traten schon sporadisch und selten direkt nach dem Neustart Bluescreens auf, wenn ich nach dem Aufspielen eines Patches zu einem solchen Neustart aufgefordert wurde.

Als mögliche und plausible Ursache meiner Bluescreens kämen also das Netzteil in Betracht, Elkos auf dem Mainboard oder generell alternde Hardwarekomponenten. Bei den Microsoft-Updates bin ich mir noch nicht ganz sicher.

Könnte es auch an der Grafikkarte liegen? Unter Linux im 2D - Modus macht sie keine Probleme, aber unter Windows im 3D-Modus. Ist es denkbar, daß eine Grafikkarte einen solchen selektiven Defekt haben kann?
Meine Bluescreens kündigen sich ja meistens durch einen vorhergehenden GUI-Absturz eines Programms an - die Benutzeroberfläche ist weg und ich lande auf dem Desktop, im Taskmanager ist der Prozess des betreffenden Programms aber noch aktiv.
Wenn ich dann die Hardwarebeschleunigung der Grafikkarte ganz ausschalte, kann ich die GUI kurzfristig und auch nur fehlerhaft wieder auf den Bildschirm holen - kurz danach tritt aber trotzdem unvermeidlich der Bluscreen auf.

Gruß

Marco

Hallo Marco,

Wenn ich nach dem ersten Kaltstart nach wenigen Minuten einen
Neustart mache, bleibt der Bluescreen aus und der PC läuft
stabil.
Morgen werde ich testen, was nach einem freiwilligen Warmstart
passiert.

OK, mal sehen was dabei rauskommt.

Mir ist aufgefallen, daß im Sommer zur Zeit der großen Hitze
meine Bluscreens seltener wurden, da gab es sogar eine Phase,
in der ich etwa 14 Tage lang keinen einzigen hatte - die
Raumtemperatur lag damals zwischen 24 und 26 Grad.

SCheint also auf ein thermisches Problem hinzuweisen. Allerdings hilft das jetzt nicht konkret weiter.

Wenn ich das richtig verstanden habe, würden mir in diesem
Fall (alternde Elektronik) Treiberupdates nicht weiterhelfen

  • oder sind neuere Treiber generell fehlertoleranter bei
    alternder Hardware?

Bei Fehlern welche durch Alterung hervorgerufen werden und bei denen die Parameter der Chips ausserhalb den zulässigen Werten landen, hilft ein Treiberupdate dann nicht.
Nur wenn die Ansteuerung ausserhalb der zulässigen Toleranzen erfolgt und dies im Treiber behoben wurde bringt es etwas.

Falls dies die Fehlerursache sein sollte: Wenn ich für meine
Hardware wie z.B. Mainboard oder Grafikkarte keine neuen
Treiber bekomme, müßte ich demzufolge also tatsächlich die
Updates des Betriebssystems wieder entfernen?

Wenn das der Mechanismuss ist, welcher hinter dem Fehler steckt ja. Andernfalls hilft das auch nichts.

Wie weiter oben schon beschrieben, hatte ich in der Zeit der
großen Hitze keine Bluscreens. Diese traten erst Anfang August
wieder auf - einen Tag, nachdem ich eine Reihe von
Microsoft-Patches heruntergeladen und installiert hatte.

Es kann natürlich auch ein Zufall sein…

Andererseits wurde es gerade um diese Zeit auch wieder kühler,
die Raumtemperatur lag nicht mehr bei 25 Grad, sondern nur
noch bei 19-20 Grad.

… oder an der Temperatur liegen.

Könnte es auch an der Grafikkarte liegen? Unter Linux im 2D -
Modus macht sie keine Probleme, aber unter Windows im
3D-Modus. Ist es denkbar, daß eine Grafikkarte einen solchen
selektiven Defekt haben kann?

Ja klar.

Meine Bluescreens kündigen sich ja meistens durch einen
vorhergehenden GUI-Absturz eines Programms an - die
Benutzeroberfläche ist weg und ich lande auf dem Desktop, im
Taskmanager ist der Prozess des betreffenden Programms aber
noch aktiv.
Wenn ich dann die Hardwarebeschleunigung der Grafikkarte ganz
ausschalte, kann ich die GUI kurzfristig und auch nur
fehlerhaft wieder auf den Bildschirm holen - kurz danach tritt
aber trotzdem unvermeidlich der Bluscreen auf.

Zu diesem Zeitpunkt ist natürlich schon sehr viel schief gelaufen und das System ist in einem, eigentlich, undefinierten Zustand, sodass Folegefehler auftreten können.

Was passiert, wenn du die Hardwarebeschleunigung mal grundsätzlich ausschaltest ?

Vor jahren hatten manche Karten damit Probleme, und genau deshalb kann man diese abschalten, bzw. gibt es meist unterschiedliche STufen der Beschleunigung.

So ein Durchschnittlicher PC schauffelt pro Sekunden grob 1 Mia Bits in der Gegend rum. Tritt auch nur bei einem einzigen Bit ein Fehler auf, führt das meist zu irgendeinem einem Fehler.

MfG Peter(TOO)

Hallo Peter,

Morgen werde ich testen, was nach einem freiwilligen Warmstart
passiert.

OK, mal sehen was dabei rauskommt.

Nach etwa 5 Minuten habe ich heute einen Warmstart durchgeführt und bin von einem Bluescreen verschont geblieben bisher.
Das Problem tritt also nur bei einem kompletten Kaltstart auf.
Auch wenn ich morgens zuerst Linux starte und dann nach einiger Zeit zu Windows wechsele, gibt es keinen Bluescreen.
Liefert das einen Hinweis für die Eingrenzung der Fehlerursache?

Was passiert, wenn du die Hardwarebeschleunigung mal
grundsätzlich ausschaltest ?

Die Hardwarebeschleunigung habe ich schon bis auf die vorletzte Stufe reduziert, werde sie aber morgen mal ganz deaktivieren und schauen, was passiert.

Gruß

Marco

Hallo Marco,

Nach etwa 5 Minuten habe ich heute einen Warmstart
durchgeführt und bin von einem Bluescreen verschont geblieben
bisher.
Das Problem tritt also nur bei einem kompletten Kaltstart auf.
Auch wenn ich morgens zuerst Linux starte und dann nach
einiger Zeit zu Windows wechsele, gibt es keinen Bluescreen.
Liefert das einen Hinweis für die Eingrenzung der
Fehlerursache?

Nicht wirklich ;-((

Vermutlich geht bei der Initialisierung irgendetwas schief, wenn die Kiste kalt ist.
Das Probloem ist, dass überhaupt nicht klar ist, bei welcher Komponente dies passiert und welcher Parameter falsch eingestellt wird.

Der Fehler kann schon im BIOS beim Booten auftreten oder erst in Windows oder einem seiner Treiber. Windows verlässt sich in vielen Punkten auf die Vorarbeit des BIOS.

Linux ist da konservativer und macht siene Arbeit meist selbst, auch wenn das BIOS die Einstellungen schon getätigt hat. Zudem geht Linux auch pfleglicher mit der Hardware um und versucht zu testen ob eine Aktion auch geklappt hat und wiederholt sie gegebenen Falls noch mals …

Umd das mal etwas anders zu umschreiben:
Ich kann dir einen Auftrag per Post erteilen.

Nun kann ich entweder einfach davon ausgehen, dass die Geschichte mit dem Einwurf in den Postkasten erledigt ist, was auch in vielen Fällen klappt. Wenn aber der Brief verschlammpt wird, sehe ich dann alt aus, wenn die Ware nicht rechtzeitig eintrifft.
Etwas anders sieht es aus, wenn ich den Auftrag erst durch eine Auftragsbestätigung als angenommen betrachte. SOmit habe ich wenigstens die Sicherheit, dass du den Brief erhalten hast (Danach kann immer noch einigen schief gehen).

Die Hardwarebeschleunigung habe ich schon bis auf die
vorletzte Stufe reduziert, werde sie aber morgen mal ganz
deaktivieren und schauen, was passiert.

Das mit der Beschleunigung kann nur evtl. helfen die Komponente einzukreisen.

Momentan kann ich die nur empfehlen, den PC in einen Backofen einzubauen …

MfG Peter(TOO)