Tesseract (software)

Tesseract
	; Tesseract 4.1.1 lendo uma mensagem
Desenvolvedor	Google
Plataforma	Linux, Windows e MacOS
Versão estável	5.3.4 (18 de janeiro de 2024; há 2 meses)
Idioma(s)	Interface: inglês Reconhecimento: africâner, alemão albanês, árabe, azerbaijano, basco, bielorrusso, bengali, búlgaro, catalão, canarês, checo, cherokee, coreano, croata, dinamarquês, eslovaco, esloveno, espanhol, esperanto, estoniano, finlandês, francês, galego, grego, hindi, holandês, húngaro, inglês, indonésio, italiano, japonês, letão, lituano, malaiala, macedônio, maltês, malaio, norueguês, polonês, português, romeno, russo, sérvio, suaíli, sueco, tagalog, tâmil, télugo, tailandês, turco, ucraniano e vietnamita
Escrito em	C e C++
Sistema operacional	Linux, Windows e MacOS
Licença	Licença Apache 2.0.
Estado do desenvolvimento	Ativo
Página oficial	github.com/tesseract-ocr
Repositório	github.com/tesseract-ocr/tesseract

Tesseract é um software de reconhecimento ótico de caracteres de código aberto (Licença Apache 2.0),^[2] originalmente desenvolvido pela Hewlett-Packard e foi por um tempo mantido pelo Google; atualmente o projeto está hospedado no GitHub.

Se aplica a imagens em formato tiff com texto puro em uma única coluna, convertendo a saída em um arquivo txt. Não possui mecanismos para reconhecimento de layout, desta forma não é recomendável para textos que possuam imagens, fórmulas ou mais de uma coluna.