sabato, marzo 03, 2012

Software che legge testo da scansioni


OCR Convertire immagini fax e pdf
da scanner, in testi e parole da modificare


OCR è la sigla che sta per "Optical Character Recognition" (riconoscimento ottico dei caratteri) ed è una tecnologia software, "intelligente" che serve a convertire immagini contenenti testi scritti in documenti modificabili con i normali programmi di videoscrittura come ad esempio, Microsoft Word.
Senza entrare nel dettaglio tecnico, un software OCR consente quindi di prendere un foglio scritto e convertirlo in un documento, le cui parole siano modificabili.
In generale ci si riferisce all'uso dello scanner, e al riconoscimento dei testi scritti su un foglio in modo che le parole possano essere cambiate.
Per trovare campi di applicazione tipici della vita quotidiana possiamo pensare a quando si vuole usare cio che è scritto su un libro o su un giornale per riportarlo su un proprio documento o su una tesina per poi modificarlo e farlo proprio o ancora, se si vuole riscrivere un fax ricevuto.

In questo articolo vediamo alcuni programmi gratuiti utili a modificare fax, immagini di scanner e pdf trasformandoli in un file di testo normale editabile; ne esistono tanti che invito a segnalare, ben consapevole che, gratuitamente, non esiste un programma OCR perfetto.

1) Non un programma ma un servizio online di OCR si trova sul sito OCRTerminal.
Da questo sito è possibile convertire una immagine in un file di testo opure un file pdf in uno Word, sempre modificabile.
Questa ultima funzione, la conversione di file da .pdf a .doc si può fare anche con altri software specifici per modificare file pdf.
Quando si parla di una immagine convertita in file di testo, in questo caso, si intende una pagina scansionata e salvata tramite il programma di gestione di un normale scanner, in un file jpeg, gif, bmp o tiff.
Per usare il sito bisogna registrarsi e, purtroppo, per ora, viene riconosciuta solo la conversione di file scritti in lingua inglese.

2) Free OCR è un programma in grado di convertire immagini e file pdf in docummenti con facilità e con una interfaccia molto semplice da usare.
Non so se sia il migliore ma l'ultima versione è di Gennaio 2009 dunque il progetto è vivo e in costante aggiornamento per essere perfezionato.
Il motore di Free OCR si chiama Tesseract OCR ed è stato sviluppato da HP labs diversi anni fa, mentre oggi appartiene a Google.
Free OCR funziona discretamente, non è sempre precisissimo e, di default, riconosce la lingua inglese. Per riconoscere anche la lingua italiana, si deve caricare da Google Code.

3) TOP OCR processa le immagini di documenti che sono state prese da uno scanner oppure che sono state fotografate da fotocamere digitali, smartphone o telefonini cellulari.
La fotografia, per essere riconosciuta con una certa precisione, deve essere almeno di 3 Megapixel.
Sulla pagina del sito, si trova un tutorial che spiega come usare il programma e come farlo funzionare per bene. Top Ocr è anche in lingua italiana.

4) Images2openXML che converte le immagini delle scansioni nel formato di file OpenXML, riconosciuto solo da Microsoft Office 2007.
Ora, questo programma ancora non è perfetto.
Per far funzionare Images2OpenXML bisogna poi installare sul proprio computer:
- Visual Studio 2008
- .NET Framework 2.5
- Office 2007
- OpenXML SDK 1.0
- Microsoft Office Document Imaging 12.0
Non serve dire che i requisiti sono tanti e un po' rognosi quindi il prodotto è, per ora, destinato a chi vuole testare software nuovi e, per certi versi, innovativi.

5) JOCR è un programma specializzato nel riconoscere caratteri presenti dentro immagini prese dal desktop del computer.
Questo programma funziona con Office 2003 e richiede, per funzionare correttamente, il componente Microsoft Office Document Imaging.
La cosa bella è che JOCR è un programma portatile che non ha bisogno di installazione e l'interfaccia è piuttosto semplice, molto simile a quei programmi che catturano tutto cio che compare sul desktop (ad esempio il tasto "stamp")
Si può scegliere di catturare l'intero desktop, una regione dello stesso oppure una finestra specifica. Il programma JOCR poi permetterà di stampare, copiare o, la funzione principale, "riconoscere" quello che vede e che è stato catturato in modo da poterlo modificare.
L'immagine viene infatti analizzata e, dovrebbero essere riconosciuti tutti i caratteri e le parole scritte per poi mostrarli sul blocco notes di Windows come file txt.
JOCR è compatibile con esti scritti in tante lingue tra cui l'Inglese, il Francese, Tedesco, Spagnolo e anche l'Italiano. Download JOCR

6) GOCR è un programma Opensource per Windows e per Linux ed è il principale progetto di sviluppo sperimentale di questo genere di software; per esperti Gnu Linux.

7) Online OCR è un sito web in cui si deve solo caricare l'immagine o il pdf scannerizzato per ottenere il file editabile e modificabile con Word.

Le prestazioni di questi programmi dipendono molto dalla qualità dell'immagine che si vuole far riconoscere e dalla sensibilità dello scanner usato.
Si passa da testi riprodotti in modo identico a casi in cui non viene riconosciuta nemmeno una parola.
A margine di questo articolo, segnalo che Microsoft Office One Note dovrebe avere funzione da OCR ma non ho modo, al momento, di provarlo.

marzo 2009
da navigaweb.net


Altri articoli correlati:
http://www.mooseek.com/software/office/documenti/ocr.htm
.

Nessun commento: