Denna delen av 99 uppdateras inte längre utan har arkiverats inför framtiden som ett museum.
Här kan du läsa mer om varför.
Mac-nyheter hittar du på Macradion.com och forumet hittar du via Applebubblan.

BÄSTA "webb-sugar-programmet"?

Tråden skapades och har fått 18 svar. Det senaste inlägget skrevs .
1
  • Medlem
  • Vimmerby
  • 2006-04-24 23:17

Jag är jävligt sugen på att dra hem hela sv.wikipedia.org och söker därför det bästa programmet för att få hem sidan. Har testat lite olika men inte hittat någon som fungerar riktigt tillfredställande. Mina krav är:

#Att man ska kunna filtrera bort bilder, videos och sånt, det är bara texten jag är ute efter.
#Ju mer inställningsmöjligheter desto bättre.
#Man ska kunna återuppta/pausa så man slipper tanka 5-10gb i sträck.
#Det behöver inte nödvändigtvis vara gratis men det är ju onekligen ett plus.

*Värt att notera kan vara att wikipedia innehåller över 160.000 artiklar så det är inte några filer vi snackar om, så programmet måste klara av att hantera alla filerna, jag hoppas inte att mina krav är orealistiska? :/

Well, du måste komma åt wikipedias MySQL-databas, sedan hela deras directory från webben, vilket är lättare sagt än gjort, troligen omöjligt också, då databasen är skyddad..

  • Medlem
  • Norrköping
  • 2006-04-25 07:00

All artikeltext på sv.wikipedia.org är i komprimerat format endast 61,7 MiB och kan laddas ner från http://download.wikimedia.org/svwiki/20060302/ (välj filen pages-articles.xml.bz2).

[Mer info]

  • Medlem
  • Vimmerby
  • 2006-04-25 09:02
Ursprungligen av Joakim Halvarsson:

Well, du måste komma åt wikipedias MySQL-databas, sedan hela deras directory från webben, vilket är lättare sagt än gjort, troligen omöjligt också, då databasen är skyddad..

Faktum är att jag har prövat innan och då gick det alldeles utmärkt, men hann bara ca 5000 filer innan jag var tvungen att ta en pause, och när jag gjort det var jag tvungen att börja om från början så då insåg jag att det programmet inte var bra nog, men minns inte vilket det var.

Ursprungligen av MarkDF:

All artikeltext på sv.wikipedia.org är i komprimerat format endast 61,7 MiB och kan laddas ner från http://download.wikimedia.org/svwiki/20060302/ (välj filen pages-articles.xml.bz2).

[Mer info]

Det där lär ju smidigt som attan så jag tankade hem den, men grejen var ju den att det blev 270MB XML-fil som jag efter att ha försökt öppna i 10 minuter gav upp med. Jag vill nog helst ha det som tex "Apple.html, iPod.html, andravärldskriget.html, osv...".

Så min fråga kvarstår, vilket är det bästa programmet till det här? Nån som vet? Har testat ett par st men inte hittat något jag riktigt gillar.

Vilka har du testat då så vi inte sitter här och ger samma tips.

  • Medlem
  • Vimmerby
  • 2006-04-25 14:09

#Blue Crab har jag testat att tanka men det var man ju tvungen att betala för så det har jag inte kunnat testa.
#Site Sucker har jag testat men det verkar inte klara av för många filer utan hänger sig efter ett tag.
#Websucker har jag också testat men det fanns ingen pause/resume-funktion så det funkar inte heller.

  • Oregistrerad
  • 2006-04-25 14:28

Snubblade...

...över detta men har inte testat.

http://www.maxprog.com/WebDumper.html

Jonny

  • Medlem
  • Stockholm
  • 2006-04-25 14:24

File Juicer är annars galet bra - testa (i dess meny) Browser Cache...

http://www.macupdate.com/info.php/id/16101

  • Medlem
  • Vimmerby
  • 2006-04-25 14:30

Tankade file juicer nu, men då måste jag ju ha hela sidan cachad i min webbläsare, och jag vet inte om jag känner mig så motiverad att få hela wikipedia cachad i Camino ;).

Ska testa Webdumper nu.

Snyggt fixat av "ändra-inlägg-funktionen" förresten :D.

  • Medlem
  • Vimmerby
  • 2006-04-25 15:06

Web Dumper verkade asbra, men tyvärr så verkar det inte fungera, den börjar aldrig tanka utan jag får "invalid adress" även fast den hittar websidan och påbörjar en fil.

  • Oregistrerad
  • 2006-04-26 11:33

Bara för det så behövde jag också suga hem en sida och tänkte därför testa mitt eget tips om webb-dumper.
Fick tyvärr samma fel som du, invalid adress.
Testade supportsidans tips om att reseta till factory settings och nu så startade dammsugaren...

Jonny

  • Medlem
  • Stockholm
  • 2006-05-11 20:54
Ursprungligen av xtimmyx:

Web Dumper verkade asbra, men tyvärr så verkar det inte fungera, den börjar aldrig tanka utan jag får "invalid adress" även fast den hittar websidan och påbörjar en fil.

Samma här.. jättedumt.

  • Medlem
  • Vimmerby
  • 2006-04-26 14:35

Ja nu fick jag igång det också, jippie! :D. Jag återkommer med resultat när det jag låtit det vara igång ett tag.

  • Medlem
  • Vimmerby
  • 2006-04-28 15:44

Tyvärr verkar inte Web Dumper vara något alternativ heller. Det visar sig att den döper alla filer den hämtar till index.html och lägger dom i en mapp med det egentliga filmnamnet :(.

Häromdagen byggde jag en snutt Applescript som via Safari plockade hem ca 500 produktbeskrivningar från en av mina leverantöreras webbsiter och petade in dessa i en FileMaker Pro-databas. Sedan plockades vissa bitar ur källkoden för sidan ut och stoppades in i vissa fält (priser, lagersaldon mm). Coolt om jag får säga det själv.

Inte speciellt snabbt tyvärr. Kanske kan man göra det snabbare om man skippar Safari och använder URL Access direkt? Får fundera på det.

Att vidareutveckla detta borde gå för att göra det xtimmyx vill.

Men jag tror mera på att ladda hem en fil med hela innehållet och sedan processa den. Plockar man en sida i taget (säg 1-2 sekunder per sida), så talar vi om 88 timmar i alla fall, kanske lite länge att vänta.

  • Medlem
  • Vimmerby
  • 2006-05-02 01:29

88 timmar är väl inget :P. Om man bara kan pausa det och fortsätta där man var så är det ju gjort på knappt en vecka :). Som det ser ut nu har projketet avstannat helt då jag inte hittat någon smidig lösning för det :(.

Öh, wget eller curl kanske skulle fungera? Curl finns i din terminal och wget kan du få via t.ex. http://www.gnu.org/software/wget/

Å andra sidan så tror jag det är denna lilla fil som stoppar er. Ja robots.txt som definerar vad du får ta ner. Du kan å andra sidan gå förbi den men då bör du ha koll på vad du gör annars kan du få bannor.

# robots.txt for http://www.wikipedia.org/ and friends
#
# Please note: There are a lot of pages on this site, and there are
# some misbehaved spiders out there that go _way_ too fast. If you're
# irresponsible, your access to the site may be blocked.

.........
# Some bots are known to be trouble, particularly those designed to copy
# entire sites. Please obey robots.txt.
User-agent: sitecheck.internetseer.com
Disallow: /

User-agent: Zealbot
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: WebStripper
Disallow: /

Alltså att göra detta över webb låter i mina öron som en dålig ide.

Det finns ju en XML-fil att ladda hem och ett verktyg som kan konvertera den till SQL för att stoppa in det hela i MySQL. Därifrån kan man hämta alt till tex text, html, FileMaker, Excel, Word eller vad man nu vill ha.

Hade jag tid så skulle jag göra det bara för att visa att det går, vore coolt med Wikipedia i en egen FM-databas.

  • Medlem
  • Vimmerby
  • 2006-05-11 22:37
Ursprungligen av Taz_1999:

Hade jag tid så skulle jag göra det bara för att visa att det går, vore coolt med Wikipedia i en egen FM-databas.

du HAR tid!

1
Bevaka tråden