Reconhecimento ótico de caracteres

OCR é um acrónimo para o inglês Optical Character Recognition, é uma tecnologia para reconhecer caracteres a partir de um arquivo de imagem ou mapa de bits sejam eles escaneados, escritos a mão, datilografados ou impressos. Dessa forma, através do OCR é possível obter um arquivo de texto editável por um computador.

Combinado com outras tecnologias, como a inteligência artificial, empresas de diversos segmentos têm aplicado o OCR^[1] para automatizar processos de cadastro, onboarding e formalização, extraindo informações de documentos de identificação pessoal, contratos e comprovantes de residência.

História

Em 1950 David Shepard e Louis Tordella começaram a pesquisa do procedimento para automação de dados da então Agência de Segurança das Forças Armadas (AFSA) dos Estados Unidos, que dois anos depois se tornaria a Agência de Segurança Nacional (NSA). Com a ajuda de Harvey Cook eles construíram o "Gismo", o primeiro software de OCR. Shepard então fundou a Intelligent Machines Research Corporation (IMR) que fez os primeiros softwares OCR comerciais.

Em 1953 a IBM obteve uma licença da IMR e desenvolveu um software próprio classificando-o como Optical Character Recognition, tornando o termo OCR um padrão na indústria para essa tecnologia.

Programas gratuitos de OCR

Nome	Licença	Sistema Op.	Notas	Última versão
Google Drive	Freeware	Acesso Web	Software de acesso Web que traz todas as funcionalidades do OCR e converte em vários formatos após conversão.
GOCR	GPL	Linux, Windows, OS/2	Também conhecido por JOCR. É utilizado por linha de comando, ou seja, sem interface gráfica.^[2]	0.50, 05 de março de 2013, ainda não atualizado no SourceForge^[3]
HOCR	GPL	Linux	OCR Hebraico
SimpleOCR	Freeware	Windows	Programa OCR para scan de textos de imagens. Vem também em formato ActiveX DLL para melhor interoperabilidade entre componentes COM e afins.	3.5, 2008
TopOCR	Freeware	Windows	Programa OCR para scan de textos de imagens. Possui reconhecimento de texto em português, boa qualidade das ferramentas de edição para configuração da leitura do texto.	3.1
OCR Terminal	Freeware e versões comerciais	Windows, Mac OS X, Linux	Serviço de OCR baseado na Web.
FreeOCR	Licença Apache 2.0	Windows	Utiliza o motor do Tesseract, suporta PDF e os formatos mais comuns de imagem, a partir da versão 4.2 suporta reconhecimento em português.	4.2, Agosto de 2012
Tesseract	Licença Apache 2.0	Windows, Mac OS X, Linux	Motor que permite o reconhecimento de textos em imagens, suportando diferentes linguas.	3.05.01
ScanTexter	Freeware	Mac OS X	Utiliza a tecnologia OCR para extrair texto do ecrã e traduzi-lo automaticamente.	1.7.51
Online OCR	GPL	Acesso Web	O conversor de imagem em texto permite extrair texto de imagem ou converter PDF para Doc, Excel ou formato de texto online usando software de reconhecimento óptico de caracteres
Convert Image and PDF to Text - Online OCR	Freeware	Acesso Web	Serviço de OCR gratuito com vários idiomas disponíveis, não requer registro e os uploads são ilimitados. O serviço também oferece uma ferramenta de Inteligência Artificial (AI) para a correção dos textos.
NewOCR	Freeware	Acesso Web	O serviço OCR online gratuito oferece uploads ilimitados de arquivos e não requer registro.

Também é possível submeter arquivos em conversores on-line como o disponível no sítio do Google Drive e no sítio do Free OCR (não confundir com o FreeOCR listado acima).

Fornecedores de OCR

Adobe Acrobat (Windows, Mac OS)
BIT-Alpha (Windows)
ABBYY FineReader(Unix, Windows, Mac OS)
ExactScan Pro(Mac OS)
OCRKit(Mac OS)
Readiris (Unix, Windows, Mac OS)
Nuance Omnipage (Windows)
Nicomsoft OCR (Windows, Unix)

Ver também

Referências

↑ «O que é OCR e quais os benefícios para a sua empresa». Blog da Simply. 21 de maio de 2018. Consultado em 19 de junho de 2019
↑ [1]
↑ «GOCR». Consultado em 10 de junho de 2013

Este artigo sobre informática é um esboço. Você pode ajudar a Wikipédia expandindo-o.

[1] «O que é OCR e quais os benefícios para a sua empresa». Blog da Simply. 21 de maio de 2018. Consultado em 19 de junho de 2019

[2] [1]

[3] «GOCR». Consultado em 10 de junho de 2013

[1]

[2]

[3]

v d e Identificação automática e captura de dados
Tecnologias	Biometria Código de barras Leitor de código de barras CyberCode Reconhecimento de fala Reconhecimento inteligente de caracteres Reconhecimento ótico de caracteres
Instituições	ABBYY
Outros	Código QR Sistema de gerenciamento de armazém

v d e Inteligência artificial / Inteligência computacional
Temas	Alinhamento de IA Aprendizado de IA Aprendizagem profunda Ética na IA Engenharia de IA Explosão de IA Progresso da IA Segurança da IA
Tópicos	Alucinação Cérebro artificial Cérebro positrônico Comportamento da Máquina Computação bioinspirada Computação evolucionária Computação social Raciocínio automatizado Raciocínio baseado em casos Rebelião das máquinas Robótica em nuvem
Tipos	Autorreplicadoras IA Distribuída IA Explicável IA Generativa IA Geral IA para TI Inteligência computacional Inteligência de conteúdo Inteligência de enxame Máquina Moral Processamento de Informações Neurais Reconhecimento facial Sistema especialista Sistema multiagente Sistemas periciais Tutorias inteligentes Vetores de suporte
Heurísticas	A* Subida de encosta
Meta-heurísticas	Algoritmo genético Pesquisa tabu Colônia de formigas Enxame de partículas GRASP
Aplicações	Adestramento de Cães Arte na IA Classificação estatística Corretor gramatical Governo por algoritmo IA na Música Processamento de linguagem natural Retificação de imagem Reconhecimento de entidade mencionada Reconhecimento de fala Reconhecimento ótico de caracteres
Categoria