OCR alla mano per Fedora
A volte si può fare la piacevole scoperta che per Linux non esistono solo eccellenti software di uso piuttosto diffuso e generale (Firefox, Libreoffice etc) ma anche per scopi molto meno ricercati e di raro uso ci sono delle soluzioni professionali in parecchi ambiti.
Una di quelle cose che può capitare di fare di rado, ma che occorre fare il meglio possibile, è la scansione con riconoscimento ottico dei caratteri, che consente di usare in un editor di testo il contenuto di uno scritto di cui non si ha sorgente, tipo una pagina di libro o un articolo di giornale.
Per scandire un documento qualsiasi esiste da anni l’ottimo Xsane incorporato in The Gimp, quindi nessun problema.
Per fare OCR da qualche anno è stato rilasciato in open source da HP uno dei migliori motori di riconoscimento commerciali, che va sotto il nome di Tesseract (per chi non lo sapesse “tesseract” è anche il nome del cubo a 4 dimensioni, o ipercubo), e lo sviluppo è attualmente in mano a Google.
Per installarlo semplicemente digitate, da un terminale dove siete diventati super-utenti,
yum install -y tesseract tesseract-langpack-ita
così da istallare sia il motore che la lingua italiana, che contiene il vocabolario per le correzioni.
Fatto questo scopriamo di essere solo a metà dell’opera, perché Tesseract come Gocr di per sé non ha interfaccia grafica, quindi sarebbe quantomeno interessante dargliene una per usarlo con molto più agio.
Tale utilità per GTK è Gimagereader, che però non sembra essere incluso in uno dei repositori principale di Fedora, quindi va scaricato, ma invece che farlo dalla sua pagina di sourceforge vi suggerisco di andare direttamente a trovare il suo rpm da Pbone.net facendo una ricerca col suo nome “gimagereader” e prendendo il pacchetto corrispondente alla vostra Fedora.
Una volta scaricato riprendete il terminale di super-utente e digitate
yum install -y –nogpgcheck /”
Una volta fatto ciò in programmi > grafica avrete una nuova voce gImageReader, che se cliccata vi avvierà l’interfaccia da cui potrete aprire tutti i vostri file per poterci operare il riconoscimento OCR, quindi immagini ma non solo, anche i pdf, il che è una discreta comodità per mettere su word processor quei documenti che sono in realtà fatti da immagini scandite.
Prima di operare però andate nella configurazione delle opzioni e mettete come lingua preferita l’italiano (it_IT) così da non doverlo fare ogni volta.
Lascia un commento