tak předně, nejde o převod PDF na text ale rastrové grafiky která je zbytečně vložena do PDF na text 🙂 Takže v prvé řadě extrahuješ tu rastrovou grafiku z PDF ven ve formě pravděpodobně nějakých JPEG souborů. Teprve pak řešíš problém převodu těchto rastrů do textu pomocí OCR.
Zřejmě by tu grafiku bylo možné extrahovat i jednodušeji pomocí PDF prohlížeče a mnoha kliků pravým tlačítkem myši, ale já mohu doporučit (zvlášť pokud tam těch rastrů je třeba několik desítek) velmi jednoduchý trik přes LibreOffice. Můžeš PDF otevřít v programu LibreOffice DRAW a ihned jej uložit jako Kresbu ODG, klepneš na vzniklý odg soubor ve správci souborů pravým tlačítkem a vybereš „Rozbalit archiv zip“ (on to totiž navzdory extenzi odg je vlastně archiv zip) a v něm už najdeš složku plnou těch jpeg rastrů v surové formě a pdf můžeš vyhodit do koše. Celkem praktický trik.
Pak už řešíš jen problém volby dostatečně spolehlivého OCR programu na převod do textu. To bohužel není vůbec snadné, stoprocentně spolehlivé to zřejmě nebude tak jako tak. Ty lepší programy budou umět použít slovníkové korekce k nápravě některých chyb při převodu ale i tak úspěšnost nebude stoprocentní a bude třeba stránku po stránce ještě zkontrolovat. OCR programy si běžně spletou kdejakou šmouhu s písmenem. Málo které umí zachovat původní formátování (tj. text převést jako text, grafiku ponechat jako grafiku a automaticky ji zapozicovat do toku textu, to vůbec není snadná a mezi těmito programy ani obvyklá dovednost, mnohé prostě jen převedou text a to ostatní kolem ignorují) … s volbou OCR tedy bohužel neporadím. Znám jich hodně ale neznám ani jeden, který bych mohl doporučit s vědomím, že odvede skutečně dobrou práci a z těch komerčních (Abbyy FineReader, OmniPage Ultimate), … to by ses nedoplatil.
Upravil/a: anonym
0 Nominace Nahlásit |
ge0rge má sice pravdu, že pdf je vektorová grafika a obrázek rastrová, ale Adobe Acrobatu je to jedno, umí rozpoznat text i z vektoru a pak jde upravit skoro všechno, i nascanovaný text (snad jen mimo fotky), tzn. pomocí něj vybereš text z obrázku a vložíš ho do texťáku (např. do wordu)…ale je to placený program…není zase tak nedostupný, třeba ho ve tvém okolí někdo má…
Upravil/a: Funna
0 Nominace Nahlásit |
Jako návod jsou někdy názorné obrázky lepší než text. Někteří „natvrdlejší“ mají z textem často problém.
0
před 1806 dny
|
0 Nominace Nahlásit |
oprava…umí rozeznat i text z rastru…z vektoru musí, když sám pracuje s vektorovou grafikou .-)
Bedy | 1528 | |
Michal Kole | 1199 | |
led | 1159 | |
Hlada | 1132 | |
mosoj | 1124 | |
gecco | 904 | |
www | 828 | |
badisko | 817 | |
cochee | 814 | |
Dochy | 727 |
Software |
Hardware |
Internet |
Programování a webdesign |
Sítě |
Bezpečnost |
Ostatní počítače a internet |