sv.phhsnews.com


sv.phhsnews.com / Extrahera text från PDF och bildfiler

Extrahera text från PDF och bildfiler


Har du ett PDF-dokument som du vill ta bort all text ut ur? Vad sägs om bildfiler i ett skannat dokument som du vill konvertera till redigerbar text? Det här är några av de vanligaste problemen jag har sett på arbetsplatsen när jag arbetar med filer.

I den här artikeln talar jag om flera olika sätt att du kan försöka extrahera text från en PDF eller från en bild. Dina extraktionsresultat varierar beroende på textens typ och kvalitet i PDF-filen eller bilden. Dina resultat varierar också beroende på vilket verktyg du använder, så det är bäst att prova så många alternativ nedan som möjligt för att få bästa resultat.

Extrahera text från bild eller PDF

Det enklaste och snabbaste sättet att börja är att prova en online PDF-textutdragnings tjänst. Dessa är normalt gratis och kan ge dig exakt det du söker utan att behöva installera något på din dator. Här är två som jag har använt med mycket bra till bra resultat:

ExtractPDF

ExtractPDF är ett gratis verktyg för att ta bilder, text och teckensnitt ur en PDF-fil. Den enda begränsningen är att maxstorleken för PDF-filen är 10 MB. Det är lite litet; så om du har en större fil, prova några av de andra metoderna nedan. Välj din fil och klicka sedan på knappen Skicka fil . Resultaten är normalt mycket snabba och du bör se en förhandsgranskning av texten när du klickar på fliken Text.

Det är också en bra tillägg att det också extraherar bilder ur PDF-filen, bara om du behöver dem! Sammanlagt fungerar verktyget online bra, men jag har stött på ett par PDF-dokument som ger mig rolig produktion. Texten extraheras bara bra, men av någon anledning kommer det att bli en radbrytning efter varje ord! Inte ett stort problem för en kort PDF-fil, men säkert ett problem för filer med mycket text. Om det händer med dig, prova nästa verktyg.

Online OCR

Online OCR brukar tendera att fungera för de dokument som inte konverterade korrekt med ExtractPDF, så det är en bra idé att försöka båda tjänsterna för att se vilka som ger dig bättre resultat. Online OCR har också några trevligare funktioner som kan vara praktiska för alla med en stor PDF-fil som bara behöver konvertera text på några få sidor i stället för hela dokumentet.

Det första du vill göra är att gå vidare och skapa ett gratis konto. Det är lite irriterande, men om du inte skapar det fria kontot kommer det bara att konvertera din PDF snarare än hela dokumentet. I stället för att bara kunna ladda upp bara ett 5 MB-dokument kan du ladda upp upp till 100 MB per fil med ett konto.

Välj först ett språk och välj sedan vilken typ av utmatningsformat du vill ha för den konverterade filen. Du har ett par alternativ och du kan välja mer än en om du vill. Under flerdokument kan du välja sidnummer och sedan bara välja sidorna som du vill konvertera. Då väljer du filen och klickar på Konvertera !

Efter omvandling kommer du till avsnittet Dokument (om du är inloggad) där du kan se hur många tillgängliga lediga sidor du har kvar och länkar för att ladda ner dina konverterade filer. Det verkar som om du bara har 25 sidor gratis på en dag, så om du behöver mer än så måste du antingen vänta lite eller köpa fler sidor.

Online OCR gjorde ett utmärkt jobb med att konvertera mina PDF-filer eftersom den kunde behålla textens faktiska layout. I mitt test tog jag ett Word-dokument som använde kulor, olika teckensnittstorlekar etc och konverterade det till en PDF-fil. Sedan använde jag Online OCR för att konvertera det till Word-format och det var ungefär 95% detsamma som originalet. Det är ganska imponerande för mig.

Plus, om du vill konvertera en bild till text, kan Online OCR göra det lika enkelt som att extrahera text från PDF-filer.

Gratis Online OCR

Sedan pratade om bild till text OCR, låt mig nämna en annan bra hemsida som fungerar riktigt bra på bilder. Free Online OCR var mycket bra och mycket exakt när du extraherade text från mina testbilder. Jag tog ett par bilder från min iPhone på sidor från böcker, broschyrer, etc och jag blev förvånad över hur bra den kunde konvertera texten.

Välj din fil och klicka sedan på knappen Upload. På nästa skärm finns det några alternativ och en förhandsgranskning av bilden. Du kan beskära den om du inte vill OCR hela grejen. Klicka sedan på OCR-knappen och din konverterade text kommer att visas under bilden förhandsgranskning. Det har inte heller några begränsningar, vilket är riktigt bra.

Förutom onlinetjänsterna finns det två freeware-PDF-omvandlare som jag vill nämna om du behöver programvara som körs lokalt på din dator för att utföra konverteringarna. Med onlinetjänster behöver du alltid en Internetanslutning och det kanske inte är möjligt för alla. Men jag märkte att kvaliteten på konverteringarna från freeware-programmen var betydligt sämre än webbplatsernas.

A-PDF Text Extractor

A-PDF Text Extractor är freeware som gör ett ganska bra jobb med att extrahera text från PDF-filer. När du har hämtat det och installerat det, klicka på Öppna-knappen för att välja din PDF-fil. Klicka sedan på Extrahera text för att starta processen.

Det kommer att fråga dig en plats att lagra textutdatafilen och sedan börjar den extrahera. Du kan också klicka på alternativknappen, som låter dig välja endast vissa sidor att extrahera och extraktionstypen. Det andra alternativet är intressant eftersom det extraherar texten i olika layouter och det är värt att försöka alla tre för att se vilka som ger dig den bästa produktionen.

PDF2Text Pilot

PDF2Text Pilot gör ett bra jobb med att extrahera text. Det har inga alternativ. du lägger bara till filer eller mappar, konverterar och hoppas på det bästa. Det fungerade bra på vissa PDF-filer, men för majoriteten var det många problem.

Klicka bara på Lägg till filer och klicka sedan på Konvertera . När konverteringen är klar klickar du på Browse för att öppna filen. Din körsträcka varierar med det här programmet, så förvänta dig inte mycket.

Det är också värt att nämna att om du befinner dig i en företagsmiljö eller kan få händerna på en kopia av Adobe Acrobat från jobbet, så kan du verkligen få mycket bättre resultat. Acrobat är uppenbarligen inte gratis, men det har alternativ att konvertera PDF till Word, Excel och HTML-format. Det gör också det bästa jobbet att behålla strukturen i det ursprungliga dokumentet och konvertera komplicerad text.


Vad är den optiska ljudporten och när ska jag använda den?

Vad är den optiska ljudporten och när ska jag använda den?

Har du någonsin funderat på vad den trapezoidala "optiska" ljudporten är? Du hittar dem på baksidan av datorer, HDTV, media mottagare och mer, men knappt någon använder dem. Den lilla ofta försummade hamnen kan dock vara en verklig livsparare. Låt oss titta på vad det är och hur du kan dra nytta av det.

(how-to)

Så här byter du 7-Zip's Ugly Icons med bättre tittar

Så här byter du 7-Zip's Ugly Icons med bättre tittar

7-Zip är ett fantastiskt Windows-program för avancerad filzipping, oavsett om du är lösenordsskydda dina arkiv eller bara försöker att komprimera dem ner ännu mindre. Det är bara ett problem: dess ikoner är fula som synd. RELATERAT: Allt du behöver veta om zip-filer Normalt skulle jag inte tänka mig för mycket att en app är ful - särskilt en som vardaglig som en arkivare.

(how-to)