Pagina iniziale > O > Ocr

OCR

OCR sta per Optical Character Recognition, un'espressione in lingua inglese che può essere tradotta come Optical Character Recognition. Il termine è usato in informatica per indicare una procedura di digitalizzazione del testo per mezzo di uno scanner.

Quello che OCR rende possibile è che, quando un testo passa attraverso un certo dispositivo, il sistema riconosce i caratteri come parte di un alfabeto. In questo modo, il documento scansionato può essere modificato con un elaboratore di testi, poiché non è memorizzato come immagine.

In questo modo, OCR facilita il lavoro che molte persone devono fare. Se qualcuno scannerizza un libro con l'intenzione di fare un riassunto, grazie all'OCR potrà interagire con il testo scannerizzato attraverso un programma come Microsoft Word, tagliando, copiando e incollando qualsiasi parola, cosa impossibile senza tale processo di riconoscimento, poiché il computer non è in grado di capire il testo trovato in un'immagine.

Oltre all'ovvio vantaggio di memorizzare un testo come tale e non come immagine, c'è la considerevole differenza di peso: le immagini possono occupare molto più spazio su disco dei testi, e questo deve essere preso in considerazione se si vuole far scannerizzare interi libri. Naturalmente, non è sempre consigliabile che il computer esegua l'OCR, soprattutto se non c'è l'intenzione di modificare il contenuto.

È curioso che una sola applicazione possa cambiare così drasticamente la capacità dello stesso computer, ma questo è ciò che accade in tutti i casi: mentre i processori moderni possono essere molto efficienti, soprattutto se combinati con l'ultima generazione di memoria e dischi, sono inutili senza il software giusto, così che la stessa macchina può passare da essere inutile a estremamente avanzata semplicemente a causa del software che ha.

Il caso dell'OCR è molto particolare, perché dà al computer un'abilità che è fondamentale per la maggior parte degli esseri umani: la lettura. Vale la pena notare che questo non è un compito facile per nessuno di noi due, anche se nel nostro caso tendiamo a imparare a farlo da molto giovani, quindi diventiamo molto abili, anche di fronte a una scrittura difficile da capire.

Nonostante i progressi nella tecnologia, l'OCR deve ancora affrontare una serie di problemi. Far sì che un sistema digitale riconosca un testo scritto a mano, per esempio, è piuttosto difficile. Il processo incontra spesso difficoltà nel segmentare le varie unità di testo. Lo stesso vale quando le parole appaiono troppo vicine tra loro.

Altri fallimenti dell'OCR possono verificarsi quando non c'è sufficiente contrasto tra le parole e lo sfondo. Supponiamo che un testo scritto in lettere nere sia stampato su un foglio grigio: è probabile che il processo OCR non riesca a distinguere le lettere e le parole.

Non dimentichiamo che, così come un'azione apparentemente semplice come camminare per strada richiede una serie di azioni complementari per evitare gli ostacoli e proteggere la nostra integrità, la lettura di un testo stampato è il risultato di diversi compiti di riconoscimento simultanei, che svolgiamo quasi inconsciamente, ma che ci portano lavoro.

Quando si trova di fronte a un testo, il nostro sistema OCR si occupa di trovare e riconoscere il titolo, identificare i paragrafi, i segni di punteggiatura, gli spazi tra le parole e le abbreviazioni, tra gli altri elementi, oltre a fare uno sforzo per capire i caratteri troppo ornati o disordinati e per completare le informazioni nelle regioni che hanno subito qualsiasi tipo di usura, come una macchia di inchiostro o un pezzo di carta mancante.

Di Jillana Palazzi

Ottaedro :: Legge :: Xenofobia :: Occlusione

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z