set 2006 07

OCR significa “Optical Character Recognition”, é o processo pelo qual o computador consegue “ler” o texto contido numa imagem. Quando você passa uma página de texto de um livro no scanner o resultado é uma foto. Essa foto precisa passar por um processo de OCR para extrair o texto dela. Alguns programas do Windows fazem esse processo todo automaticamente, e o usuário não percebe a complexidade por trás da aparentemente simples operacão de “passar uma página pro computador”.

O Tesseract já foi considerado um dos 3 interpretadores de OCR mais precisos na competicão da Universidade de Nevada, em Las Vegas. É um sistema criado pela Hewlett Packard e teve participacão do Google na correcão de diversos bugs recentemente.

Como sistema aberto o programador pode utilizar-se de exemplos do código, estudá-lo e até mesmo incluí-lo em seus projetos. Os termos de licenciamento não estão muito claros, mas aparentemente é livre para uso.

Obtenha cópia do Tesseract aquí.

O que você acha?