Denna delen av 99 uppdateras inte längre utan har arkiverats inför framtiden som ett museum. Här kan du läsa mer om varför.
Mac-nyheter hittar du på Macradion.com och forumet hittar du via Applebubblan.
Finns det något sätt att extrahera text ur en PDF-fil via ett terminal-kommando? Har Apple något sådant kommando inbyggt?. Det finns några varianter ute, t.ex. pdf-tools. Men jag vill ha ett fritt alternativ. Eller möjligen ett med rimlig prislapp, runt en tusenlapp.
Hejsan! Eftersom jag inte hade något bättre för mig pillade jag ihop ett program som gör detta åt dig.
Du kör det från terminalen såhär: pdfextract /path/to/file
När jag testade det på en tämligen stor fil, upptäckte jag att det inte riktigt fungerar lika bra som på min lilla testfil... du får berätta hur det gick, så ska jag se om jag kan göra något åt det.
Uppdatering: jag gjorde en liten tillfixning, och nu visar det sig att det fungerar mycket bättre! Den klarade en 150-sidors PDF utan problem nu. (förutom ett felmeddelande från ramverket som inte verkar gå att ta bort)
Den ligger på samma URL
Uppdatering: jag gjorde en liten tillfixning, och nu visar det sig att det fungerar mycket bättre! Den klarade en 150-sidors PDF utan problem nu. (förutom ett felmeddelande från ramverket som inte verkar gå att ta bort)
Den ligger på samma URL
Ah, ja, visst. Det är ett väldigt enkelt verktyg som använder ramverket PDFKit, som finns i ramverket Quartz. Den skapar ett nytt PDF-dokument utifrån den specifierade pathen, och hämtar ut text-innehållet från det, och skrivet det därefter till stdout. Det hela är ett mycket simpelt program.
Här finns källkoden: http://hannesp.se/files/pdfextract_source.zip
Jag har hittat ett litet vektyg som gör ett riktigt bra jobb. pdftotext, det tar all text från en PDF-fil, ser bl.a. till att radbrutna ord blir "hela" igen. All text i PDF:en blir på en enda rad.
Vi har gjort en liten testimport i en MySQL-databas med texten från ca 15.000 PDF-filer utan något problem. Ser mycket lovande ut.
Om man som jag bara vill konvertera enstaka PDF filer så kan man använda ovan länkade "pdftotext" och bygga en liten Automator applikation. Sedan kan man "drag-n-drop" PDF filen på Automator appen och ut kommer en text fil. Snabbt och smärtfritt. Jag har lagt med en bild på hur det ser ut i Automator.
Bara av ren nyfikenhet: är det något fel på verktyget jag gjorde (pdfextract)? Undrar inte för att jag är purken över att ni inte använder det, utan därför att jag är nyfiken, då det funkade perfekt på min dator.
Bara av ren nyfikenhet: är det något fel på verktyget jag gjorde (pdfextract)? Undrar inte för att jag är purken över att ni inte använder det, utan därför att jag är nyfiken, då det funkade perfekt på min dator.
Har i stort sett aldrig någonsin använt terminalen, men tänkte mig testa om PDFtoText funkar. Ladda hem det, installerade det och för att slippa terminalen och för att göra ett arbetsflöde gjorde jag en kopia av Bjelkeman Automator-script. Jag väljer en väldigt enkel PDF i finder och kör scriptet. Inga fel, men den enda utskriften jag får är (""), se bild. Någon som kan ha någon aning om vad som kan vara fel?