- Erik.dv
- Medlem ●
- Stockholm
Vi har ett problem med en xServe som inte riktigt vill.
Till en början kan vi gå igenom hårdvaran:
- Apple Xserve G5 node
- 2GB RAM
- Inbyggd Raptor 74GB 10.000rpm systemdisk
- HighPoint 2224 PCI-X RAID-5 kort
- QuadRack Infiniband inkl Infiniband kablage med 4x400GB Barracuda ES 7200rpm SATA II
- ATI Radeon PCI grafikkort med VGA anslutning
Samt lite mjukvara:
- Mac OS X 10.4.11 Server Unlimited
- Filemaker 9 Server
- Retrospect Client
TJänster som nyttjas på servern inkluderar:
- AFP
- FTP
- DHCP
- DNS
- Web
Problemen
Maskinen kan rulla i allt mellan 1 och 10 dagar där man sedan inte direkt får kontakt med den via nätverket. Titta man på maskinen lokalt har den "frusit" (ingen input från mus eller tangentbord). Dock hade maskinen ganska aktiv nätverkstrafik när detta skedde sist.
Det har hänt vid en av dessa krashar att vi blivit av med data på raid-disken. Det har då varit de filer som senast jobbats med på maskinen som uppenbarligen inte sparats ner på disken ordentligt
Jag håller på att bli tokig på detta… Vi hade en annan xServe node först som hade exakt samma fel. Där bytes minne och felen kvarstod. Vi flytta då disk och PCI-kort till en annan xServe som nu i helgen "dog" på liknande sätt. Då hade den rullat i c:a 10 dagar. Efter en omstart (hålla in start-knappen, illa illa men vad gör man?) så verkar allting vara frid och fröjd.
Hur börjar vi felsöka? Vad kan felet vara? Hjälp!
En liten uppdatering då fick idag fick reda på lite mer "info". När jag kör Disk Utility på maskinen fungerar boot-disken prima men Raid-settet verkar lite ledset.
---
Verifying volume “Server Raid”
Checking HFS Plus volume.
Checking Extents Overflow file.
Checking Catalog file.
Incorrect number of thread records
Incorrect number of thread records
Checking Catalog hierarchy.
Invalid volume file count
(It should be 83796 instead of 83798)
Checking Extended Attributes file.
Incorrect number of Extended Attributes
Checking volume bitmap.
Checking volume information.
The volume Server Raid needs to be repaired.
Error: The underlying task reported failure on exit
1 HFS volume checked
Volume needs repair
---
Vid en repair sker följande:
Verify and Repair disk “Server Raid”
Checking HFS Plus volume.
Checking Extents Overflow file.
Checking Catalog file.
Incorrect number of thread records
Incorrect number of thread records
Checking Catalog hierarchy.
Invalid volume file count
(It should be 83796 instead of 83798)
Checking Extended Attributes file.
Incorrect number of Extended Attributes
Checking volume bitmap.
Checking volume information.
Repairing volume.
Rechecking volume.
Checking HFS Plus volume.
Checking Extents Overflow file.
Checking Catalog file.
Incorrect number of thread records
Incorrect number of thread records
Checking Catalog hierarchy.
Invalid volume file count
(It should be 83796 instead of 83798)
Checking Extended Attributes file.
Incorrect number of Extended Attributes
Checking volume bitmap.
Checking volume information.
Repairing volume.
Rechecking volume.
Checking HFS Plus volume.
Checking Extents Overflow file.
Checking Catalog file.
Incorrect number of thread records
Incorrect number of thread records
Checking Catalog hierarchy.
Invalid volume file count
(It should be 83796 instead of 83798)
Checking Extended Attributes file.
Incorrect number of Extended Attributes
Checking volume bitmap.
Checking volume information.
Repairing volume.
Rechecking volume.
Checking HFS Plus volume.
Checking Extents Overflow file.
Checking Catalog file.
Incorrect number of thread records
Incorrect number of thread records
Checking Catalog hierarchy.
Invalid volume file count
(It should be 83796 instead of 83798)
Checking Extended Attributes file.
Incorrect number of Extended Attributes
Checking volume bitmap.
Checking volume information.
The volume Server Raid could not be repaired after 3 attempts.
Error: The underlying task reported failure on exit
1 HFS volume checked
1 volume could not be repaired because of an error
Repair attempted on 1 volume
1 volume could not be repaired
---
Jag gjorde även en "Verify" i raid-kortets mjukvara som verkar tycka raid-settet mår bra. Vad göra? Hade en till krash idag.
Ja, vi flyttade över raid-kort och raid-set när vi byte maskin i övrigt.
Jag funderar på att köra utan den även om maskinen blir tämligen lam utan raid-settet.
har haft liknande problem på en BSD server, körde jag en paritets kontroll så tyckte den att det var OK, detta var på en LSI kontroller men gick maskinen ett tag så stannade den helt efter en stund (allt mellan någon timme till dagar.. )
Problemet är trasiga diskar, jag körde självtester på alla och en visade sig vara dålig, då man tog ut den och skakade på den lät den som en marackas
Bytte den och en annan disk som även denna visade en del felsymptom, efter det går nu allt som den skall igen, grundproblemet visade sig vara brus på bussen från disken/arna som var trasiga, normalt skall ju kontrollerna klara detta men varken LSI eller HighPoint är kända för sin kvalite..
Så kör den utan diskar, eller testa att byta om du kan genom att skifta diskar även om det kommer ta ett tag om du skall göra det med full rebuild mellan hela tiden
Jag körde Diskwarrior på maskinen och den reparerade skadan som Diskutility hittade. Så maskinen får rulla ett tag till nu så får vi se.
HighPoint's egna verktyg verifierade raid-settet och hittade inga fel varken för eller efter men det är ganska på en lägre nivå än vad Diskutility tittar på.
I förrgår innan jag körde Diskwarrior fick vi en till krash. Maskinen är responsiv till-vida att jag kan flytta fönster men det är en badboll som bara rullar och rullar och jag kan inte påverka dem mer än så…
Maskinen fortsätter att förbrylla. Den fungerade felfritt i c.a 40 dagar där den nu återgått till de mystiska krasherna. Från panic.log får jag följande:
Fri Jun 6 00:10:32 2008
Unresolved kernel trap(cpu 0): 0x300 - Data access DAR=0x0000000000000000 PC=0x00000000002D1248
Latest crash info for cpu 0:
Exception state (sv=0x3C575A00)
PC=0x002D1248; MSR=0x00009030; DAR=0x00000000; DSISR=0x40000000; LR=0x002D2250; R1=0x2C6B3D60; XCP=0x0000000C (0x300 - Data access)
Backtrace:
0x002D2244 0x4569E518 0x0003CA1C 0x000A9714
Kernel loadable modules in backtrace (with dependencies):
com.alsoft.Preview(4.1)@0x45699000
dependency: com.apple.iokit.IOStorageFamily(1.5)@0x43d000
Proceeding back via exception chain:
Exception state (sv=0x3C575A00)
previously dumped as "Latest" state. skipping...
Exception state (sv=0x451F0000)
PC=0x00000000; MSR=0x0000D030; DAR=0x00000000; DSISR=0x00000000; LR=0x00000000; R1=0x00000000; XCP=0x00000000 (Unknown)
Kernel version:
Darwin Kernel Version 8.11.0: Wed Oct 10 18:26:00 PDT 2007; root:xnu-792.24.17~1/RELEASE_PPC
panic(cpu 0 caller 0xFFFF0003): 0x300 - Data access
Latest stack backtrace for cpu 0:
Backtrace:
0x000954F8 0x00095A10 0x00026898 0x000A8204 0x000ABB80
Proceeding back via exception chain:
Exception state (sv=0x3C575A00)
PC=0x002D1248; MSR=0x00009030; DAR=0x00000000; DSISR=0x40000000; LR=0x002D2250; R1=0x2C6B3D60; XCP=0x0000000C (0x300 - Data access)
Backtrace:
0x002D2244 0x4569E518 0x0003CA1C 0x000A9714
Kernel loadable modules in backtrace (with dependencies):
com.alsoft.Preview(4.1)@0x45699000
dependency: com.apple.iokit.IOStorageFamily(1.5)@0x43d000
Exception state (sv=0x451F0000)
PC=0x00000000; MSR=0x0000D030; DAR=0x00000000; DSISR=0x00000000; LR=0x00000000; R1=0x00000000; XCP=0x00000000 (Unknown)
Kernel version:
Darwin Kernel Version 8.11.0: Wed Oct 10 18:26:00 PDT 2007; root:xnu-792.24.17~1/RELEASE_PPC
*********
Wed Jun 11 01:25:03 2008
Unresolved kernel trap(cpu 0): 0x300 - Data access DAR=0x0000000000000000 PC=0x00000000002D1248
Latest crash info for cpu 0:
Exception state (sv=0x3C575A00)
PC=0x002D1248; MSR=0x00009030; DAR=0x00000000; DSISR=0x40000000; LR=0x002D2250; R1=0x2C6B3D60; XCP=0x0000000C (0x300 - Data access)
Backtrace:
0x002D2244 0x4569E518 0x0003CA1C 0x000A9714
Kernel loadable modules in backtrace (with dependencies):
com.alsoft.Preview(4.1)@0x45699000
dependency: com.apple.iokit.IOStorageFamily(1.5)@0x43d000
Proceeding back via exception chain:
Exception state (sv=0x3C575A00)
previously dumped as "Latest" state. skipping...
Exception state (sv=0x451F0000)
PC=0x00000000; MSR=0x0000D030; DAR=0x00000000; DSISR=0x00000000; LR=0x00000000; R1=0x00000000; XCP=0x00000000 (Unknown)
Kernel version:
Darwin Kernel Version 8.11.0: Wed Oct 10 18:26:00 PDT 2007; root:xnu-792.24.17~1/RELEASE_PPC
panic(cpu 0 caller 0xFFFF0003): 0x300 - Data access
Latest stack backtrace for cpu 0:
Backtrace:
0x000954F8 0x00095A10 0x00026898 0x000A8204 0x000ABB80
Proceeding back via exception chain:
Exception state (sv=0x3C575A00)
PC=0x002D1248; MSR=0x00009030; DAR=0x00000000; DSISR=0x40000000; LR=0x002D2250; R1=0x2C6B3D60; XCP=0x0000000C (0x300 - Data access)
Backtrace:
0x002D2244 0x4569E518 0x0003CA1C 0x000A9714
Kernel loadable modules in backtrace (with dependencies):
com.alsoft.Preview(4.1)@0x45699000
dependency: com.apple.iokit.IOStorageFamily(1.5)@0x43d000
Exception state (sv=0x451F0000)
PC=0x00000000; MSR=0x0000D030; DAR=0x00000000; DSISR=0x00000000; LR=0x00000000; R1=0x00000000; XCP=0x00000000 (Unknown)
Kernel version:
Darwin Kernel Version 8.11.0: Wed Oct 10 18:26:00 PDT 2007; root:xnu-792.24.17~1/RELEASE_PPC
*********
Jag har blivit så sjuk trött på denna maskin så det finns inte. I samma rum finns tre andra OSX-maskiner som bara går och går men denna jävla server kan inte hålla sig. En gamal G4 Dual 500 har stått i 96 dagar och rullat back-up ex.
Någon som har något tips? Jag ryckte ut raid-kort och disk nu. Ser om det blir bättre. Irriterande att det är fruktansvärt slumpartat hur den krashar. Idag var den helt responslös - gick inte att logga in via AFP, FTP eller ARD samt att kontakt via mus var omöjligt (maskinen verkade som om den frusit). Men, guess what? Klockan i meny-raden tickade minsann fortfarande uppåt
Kernel loadable modules in backtrace (with dependencies):
com.alsoft.Preview(4.1)@0x45699000
dependency: com.apple.iokit.IOStorageFamily(1.5)@0x43d000
Snabb Google sökning gav följande
Apple - Support - Discussions - Kernel Panic with DiskWarrior 4.1 ...
...det är alltså Diskwarrior som hittat på något skoj!
Krash igen. Inga spår i loggar som tidigare. Nu kör vi utan raid-kort och raid-diskar. Är det OSX Server som är "dåligt" eller vad tusan kan detta bero på?
Likt tidigare syns maskinen på nätverket och den är till synes vid liv när man tittar på dess monitor. Dock är den helt oresponsiv. Vid denna krash stod den på max load vad gäller CPU och nätverk också enligt LED's på framsidan av enheten men inget direkt tungt rullar på maskinen.
det låter ju som om nått är på bommen, det låter också som om det skulle vara något djupare än hårddiskar. din dator ska inte hänga sig utav att en hårddisk går ner när du kör raid. i mitt fall så får jag en felkod per mail samt summer+diod på själva hddn i kabinettet när en disk krashar. det är bara att rycka o stoppa i ny och allt är frid och fröjd.
jag skulle tro att det är något annat som strular, raidkort samt moderkort låter som troliga bovar i dramat, speciellt om du har systemdisken på raid-kortet. Kanske ska tillägga att jag själv har system skillt från raidkortet.
Systemet ligger på den interna SATA disken. Igår krasha som sagt maskinen igen och det var som tidigare en märklig krash. Datorn försvann från nätverksåtkomst, jag går till den fysiskt kan styra den med musen direkt kopplad till den men en efter en går programmen in i "badbollsläge" och efter någon minut kan jag inte göra annat än flytta fönster.
för att komplitera mitt tidigare svar, vad jag inte riktigt fick fram var att: när en hdd går ner så fungerar datorn utmärkt trotts brist på den trasiga disken.
för att svara på din fråga, nya minnen kan defenetivt göra skillnad, glömde ta med den punkten i mitt tidigare inlägg, varit med om datorer som krashat vid belastning och liknande när minnena varit på bommen men som efter en omstart beter sig helt okej och krashar igen vid hård belastning, men surfande har gått fint..
Men jag står fortfarande fast vid att det låter som något annat än hdd-krash.
Till saken hör väl att Erik faktiskt har bytt ALL hårdvara i datorn (inklusive hela servern) förutom RAID-kort och diskar.
Den dator som Erik hade tidigare har en ny användare och rullar på fint utan hängningar så vi kan nog utesluta hårdvarufel på själva servern och minnena.
Hmm, missat den här tråden.
Även jag har en XServe (G4 i mitt fall) med 10.4.11 som oförklarligt tvärhänger sig ibland, typ var 30-40 dag känns det som. Jag inte undersökt närmare.
Klen tröst att du inte är ensam Erik men, tja, är något du vill jämföra med eller ha mer uppgifter så hojta till. (Två IDE-diskar, mjukvary RADI 1.)
Byt raptordiskarna. Dom är inte kompatibla med Xserve (står på WDs hemsida om du gräver lite).
Dom framkallar tydligen nån bugg I satakontrollern som vanliga diskar inte drabbas av. Felen som kan uppstå är låsning av diskar, raid som blir invalid etc.
Jag har 5 Xserves och har inte fått någon att snurra vettigt med raptorer (dom ligger bara och skräpar)