Tesseract (software)

Origem: Wikipédia, a enciclopédia livre.
Tesseract

Tesseract 4.1.1 lendo uma mensagem
Desenvolvedor Google
Plataforma Linux, Windows e MacOS
Versão estável 5.3.4[1] (18 de janeiro de 2024; há 2 meses)
Idioma(s) Interface: inglês

Reconhecimento: africâner, alemão albanês, árabe, azerbaijano, basco, bielorrusso, bengali, búlgaro, catalão, canarês, checo, cherokee, coreano, croata, dinamarquês, eslovaco, esloveno, espanhol, esperanto, estoniano, finlandês, francês, galego, grego, hindi, holandês, húngaro, inglês, indonésio, italiano, japonês, letão, lituano, malaiala, macedônio, maltês, malaio, norueguês, polonês, português, romeno, russo, sérvio, suaíli, sueco, tagalog, tâmil, télugo, tailandês, turco, ucraniano e vietnamita

Escrito em C e C++
Sistema operacional Linux, Windows e MacOS
Licença Licença Apache 2.0.
Estado do desenvolvimento Ativo
Página oficial github.com/tesseract-ocr
Repositório github.com/tesseract-ocr/tesseract

Tesseract é um software de reconhecimento ótico de caracteres de código aberto (Licença Apache 2.0),[2] originalmente desenvolvido pela Hewlett-Packard e foi por um tempo mantido pelo Google; atualmente o projeto está hospedado no GitHub.

Se aplica a imagens em formato tiff com texto puro em uma única coluna, convertendo a saída em um arquivo txt. Não possui mecanismos para reconhecimento de layout, desta forma não é recomendável para textos que possuam imagens, fórmulas ou mais de uma coluna.

Referências

  1. «Releases – tesseract-ocr/tesseract». GitHub (em inglês). Consultado em 18 de janeiro de 2024 
  2. https://github.com/tesseract-ocr/tesseract/blob/master/README.md Consultado em 4 de fevereiro de 2016

Ligações externas[editar | editar código-fonte]

Ícone de esboço Este artigo sobre software livre é um esboço. Você pode ajudar a Wikipédia expandindo-o.