Tinos bLog

Freenetproject- und I2P-Server

Andauernde Downtimes.

Das System ist inzwischen extrem instabil. Deshalb bestelle ich gerade eine Ersatzmaschine.

Inzwischen zeigt das System ein sehr seltsames Verhalten: Hin und wieder klappen Bits im RAM. Anscheinend ohne Grund. Effekt ist, dass die JVM mit Opcode-Fehlern aussteigt. Wenn man die .JAR-Files dann testet (aus dem Cache, mit unzip -t) finden sich Bitfehler in einzelnen Dateien. Leert man das Cache und liest die JAR-Files neu ein dann sind die Bitfehler verschwunden.

Es kann am Refresh vom Mainboard liegen. Nicht auszuschließen sind also:

  • Softwarefehler (irgendwann im Juli kam ein neues Kernel drauf)
  • RAM-Fehler
  • Festplattenproblem
  • Mainboardschaden
  • Netzteil
  • Lüfter (Temperatur)
Das alles auszuschließen ist eine ziemlich viel Arbeit.

2006-09-30 System abgestürzt

Der Memtest zeigt keinen Fehler, also ein direktes RAM-Problem ist somit ausgeschlossen. Ich habe jetzt das alte Kernel von letztem Jahr wieder aktiviert mit dem die Maschine problemlos und stabil lief.

Der Absturz dieses Mal war duch OOPSe:
Sep 30 11:11:06 kassel186 kernel: Unable to handle kernel NULL pointer dereference at virtual address 00000008
Sep 30 11:11:07 kassel186 kernel:  printing eip:
Sep 30 11:11:07 kassel186 kernel: c0132cd5
Sep 30 11:11:07 kassel186 kernel: *pde = 00000000
Sep 30 11:11:07 kassel186 kernel: Oops: 0000 2.4.21-303-athlon #1 Tue Dec 6 12:24:00 UTC 2005
Sep 30 11:11:07 kassel186 kernel: CPU:    0
Sep 30 11:11:07 kassel186 kernel: EIP:    0010:[do_no_page+181/864]    Not tainted
Sep 30 11:11:07 kassel186 kernel: EIP:    0010:[<c0132cd5>]    Not tainted
Sep 30 11:11:07 kassel186 kernel: EFLAGS: 00010297
Sep 30 11:11:07 kassel186 kernel: eax: 00000000   ebx: e09dda70   ecx: c0138380   edx: f1e3d400
Sep 30 11:11:07 kassel186 kernel: esi: caf5b7e8   edi: 4029c178   ebp: 00000000   esp: cb4a9e94
Sep 30 11:11:07 kassel186 kernel: ds: 0018   es: 0018   ss: 0018
Sep 30 11:11:07 kassel186 kernel: Process curl (pid: 4585, stackpage=cb4a9000)
Sep 30 11:11:07 kassel186 kernel: Stack: 00000100 c02730f1 e6923040 00000000 000001f0 f594b780 f1e3d400 4029c178
Sep 30 11:11:07 kassel186 kernel:        c3541180 f1e3d400 c3541180 f1e3d400 4029c178 c3541180 caf5b7e8 c01331ba
Sep 30 11:11:07 kassel186 kernel:        c3541180 caf5b7e8 4029c178 00000000 e09dda70 f1e3d400 e6923040 c3541180
Sep 30 11:11:08 kassel186 kernel: Call Trace:         [tcp_write_xmit+689/704] (56) [handle_mm_fault+218/512] (48) [do_page_fa
ult+451/1536] (20)
Sep 30 11:11:08 kassel186 kernel: Call Trace:         [<c02730f1>] (56) [<c01331ba>] (48) [<c011a0a3>] (20)
Sep 30 11:11:08 kassel186 kernel:   [poll_freewait+23/32] (24) [clear_inode+16/256] (24) [destroy_inode+72/80] (32) [sys_rt_si
gaction+176/192] (56)
Sep 30 11:11:08 kassel186 kernel:   [<c015acf7>] (24) [<c0160de0>] (24) [<c01603f8>] (32) [<c0129fd0>] (56)
Sep 30 11:11:08 kassel186 kernel:   [sys_gettimeofday+59/128] (20) [do_page_fault+0/1536] (08) [error_code+52/60] (68)
Sep 30 11:11:08 kassel186 kernel:   [<c012332b>] (20) [<c0119ee0>] (08) [<c01091e8>] (68)
Sep 30 11:11:08 kassel186 kernel: Code: 8b 40 08 8b 80 b0 00 00 00 89 44 24 1c 8b 40 30 89 44 24 18

Der Memtest zeigt aber keine Probleme:
# memtest 720m
memtest v. 2.93.1
(C) 2000 Charles Cazabon <memtest@discworld.dyndns.org>
Original v.1 (C) 1999 Simon Kirby <sim@stormix.com> <sim@neato.org>

Current limits:
  RLIMIT_RSS  0xffffffff
  RLIMIT_VMEM 0xffffffff
Raising limits...
Allocated 754974720 bytes...trying mlock...Killed
root@kassel186:~# memtest 710m
memtest v. 2.93.1
(C) 2000 Charles Cazabon <memtest@discworld.dyndns.org>
Original v.1 (C) 1999 Simon Kirby <sim@stormix.com> <sim@neato.org>

Current limits:
  RLIMIT_RSS  0xffffffff
  RLIMIT_VMEM 0xffffffff
Raising limits...
Allocated 744488960 bytes...trying mlock...success.  Starting tests...

Testing 744484864 bytes at 0x8b82a000 (4088 bytes lost to page alignment).

Run    1:
[..]
Run   15:
  Test  1:         Stuck Address:  Testing...Passed.
  Test  2:          Random value:  Setting...Testing...Passed.
  Test  3:        XOR comparison:  Setting...Testing...Passed.
  Test  4:        SUB comparison:  Setting...Testing...Passed.
  Test  5:        MUL comparison:  Setting...Testing...Passed.
  Test  6:        DIV comparison:  Setting...Testing...Passed.
  Test  7:         OR comparison:  Setting...Testing...Passed.
  Test  8:        AND comparison:  Setting...Testing...Passed.
  Test  9:  Sequential Increment:  Setting...Testing...Passed.
  Test 10:            Solid Bits:  Testing...Passed.
  Test 11:      Block Sequential:  Testing...Passed.
  Test 12:          Checkerboard:  Testing...Passed.
  Test 13:            Bit Spread:  Testing...Passed.
  Test 14:              Bit Flip:  Testing...Passed.
  Test 15:          Walking Ones:  Testing...Passed.
  Test 16:        Walking Zeroes:  Testing...Passed.
Run   15 completed in 2128 seconds (0 tests showed errors).
15 runs completed.  0 errors detected.  Total runtime:  33297 seconds.