Hem
Forum
Donera
Webbutik

Översikt
Nya inlägg
Obesvarade trådar
Sök i forum

Mjukvara och tjänster
Programmering och utveckling

Extrahera text ur en PDF-fil

Tråden skapades 2007-01-08 och har fått 13 svar. Det senaste inlägget skrevs 2007-07-19.

2007-01-08 16:13

Wire
Medlem ●
International user
2007-01-08 16:13

Finns det något sätt att extrahera text ur en PDF-fil via ett terminal-kommando? Har Apple något sådant kommando inbyggt?. Det finns några varianter ute, t.ex. pdf-tools. Men jag vill ha ett fritt alternativ. Eller möjligen ett med rimlig prislapp, runt en tusenlapp.

Anmäl Ändra Gilla Svara

2007-01-08 17:09

patrikjj
Medlem ●
Göteborg
2007-01-08 17:09

Ett verktyg är pdftk (PDF Toolkit). PDftk finns dock inte som standard i OSX men den finns bla i pakethanteringssystemen Macports och Fink.

Anmäl Ändra Gilla Svara

2007-01-08 17:54

HannesP
Medlem ●
Simrishamn
2007-01-08 17:54

Hejsan! Eftersom jag inte hade något bättre för mig pillade jag ihop ett program som gör detta åt dig.
Du kör det från terminalen såhär:
pdfextract /path/to/file

Jag har bara testat det lite snabbt, men det verkar funka som det ska. Ladda ner här:
http://hannesp.se/files/pdfextract.zip

Anmäl Ändra Gilla Svara

2007-01-08 18:10

HannesP
Medlem ●
Simrishamn
2007-01-08 18:10

När jag testade det på en tämligen stor fil, upptäckte jag att det inte riktigt fungerar lika bra som på min lilla testfil... du får berätta hur det gick, så ska jag se om jag kan göra något åt det.

Anmäl Ändra Gilla Svara

2007-01-08 20:41

HannesP
Medlem ●
Simrishamn
2007-01-08 20:41

Uppdatering: jag gjorde en liten tillfixning, och nu visar det sig att det fungerar mycket bättre! Den klarade en 150-sidors PDF utan problem nu. (förutom ett felmeddelande från ramverket som inte verkar gå att ta bort)
Den ligger på samma URL

Anmäl Ändra Gilla Svara

2007-01-08 20:44

Wire
Medlem ●
International user
2007-01-08 20:44

Ursprungligen av HannesP:

Gå till inlägget

Intressant. Kan du beskriva mer vad det är du har gjort? Kod, vilket ramverk mm.

Anmäl Ändra Gilla Svara

2007-01-08 21:03

HannesP
Medlem ●
Simrishamn
2007-01-08 21:03

Ah, ja, visst. Det är ett väldigt enkelt verktyg som använder ramverket PDFKit, som finns i ramverket Quartz. Den skapar ett nytt PDF-dokument utifrån den specifierade pathen, och hämtar ut text-innehållet från det, och skrivet det därefter till stdout. Det hela är ett mycket simpelt program.
Här finns källkoden: http://hannesp.se/files/pdfextract_source.zip

Anmäl Ändra Gilla Svara

2007-01-10 18:32

HannesP
Medlem ●
Simrishamn
2007-01-10 18:32

Jag gjorde lite ändringar, så nu borde den visa vissa tecken korrekt, istället för frågetecken. Samma URL för både källa och binär.

Anmäl Ändra Gilla Svara

2007-01-14 23:31

Taz_1999
Medlem ●
Stockholm
2007-01-14 23:31

Jag skriver den här frasen här så att denna tråd går att hitta när man söker efter den (vilket jag inte gjorde tidigare...)

exportera text ur pdf-fil

Anmäl Ändra Gilla Svara

2007-04-02 16:08

#10

Wire
Medlem ●
International user
2007-04-02 16:08

Jag har hittat ett litet vektyg som gör ett riktigt bra jobb. pdftotext, det tar all text från en PDF-fil, ser bl.a. till att radbrutna ord blir "hela" igen. All text i PDF:en blir på en enda rad.

Vi har gjort en liten testimport i en MySQL-databas med texten från ca 15.000 PDF-filer utan något problem. Ser mycket lovande ut.

Anmäl Ändra Gilla Svara

2007-04-05 14:29

#11

bjelkeman
Medlem ●
2007-04-05 14:29

Om man som jag bara vill konvertera enstaka PDF filer så kan man använda ovan länkade "pdftotext" och bygga en liten Automator applikation. Sedan kan man "drag-n-drop" PDF filen på Automator appen och ut kommer en text fil. Snabbt och smärtfritt. Jag har lagt med en bild på hur det ser ut i Automator.

Anmäl Ändra Gilla Svara

2007-04-05 21:50

#12

HannesP
Medlem ●
Simrishamn
2007-04-05 21:50

Bara av ren nyfikenhet: är det något fel på verktyget jag gjorde (pdfextract)? Undrar inte för att jag är purken över att ni inte använder det, utan därför att jag är nyfiken, då det funkade perfekt på min dator.

Anmäl Ändra Gilla Svara

2007-04-05 22:22

#13

Wire
Medlem ●
International user
2007-04-05 22:22

Ursprungligen av HannesP:

Gå till inlägget

Inte fel, men lite "malfunction". T.ex. levererar ditt koncept radbrutna, icke sökbara, strängar.

Anmäl Ändra Gilla Svara

2007-07-19 19:00

#14

KoTTeN
Medlem ●
2007-07-19 19:00

Tar upp tråden igen!

Har i stort sett aldrig någonsin använt terminalen, men tänkte mig testa om PDFtoText funkar. Ladda hem det, installerade det och för att slippa terminalen och för att göra ett arbetsflöde gjorde jag en kopia av Bjelkeman Automator-script. Jag väljer en väldigt enkel PDF i finder och kör scriptet. Inga fel, men den enda utskriften jag får är (""), se bild. Någon som kan ha någon aning om vad som kan vara fel?