Mineração de texto

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

Prospecção de texto (português europeu) ou mineração de texto (português brasileiro) (também conhecida pelo termo inglês text mining), refere-se ao processo de obtenção de informação de qualidade a partir de texto em línguas naturais. É inspirado na mineração de dados, que consiste em extrair informação de bancos de dados estruturados; a mineração de texto extrai informação de dados não estruturados ou semi-estruturados.

Ganhou importância com o crescimento da Internet e dos mecanismos de busca. Com mineração de texto pode-se extrair informação relevante de uma grande base de textos, sem precisar lê-los previamente. Outra utilização seria o auxílio na navegação para encontrar o que se deseja.

Seguindo a mesma tendência da área de mineração de dados, classificação automática de textos e agrupamento por semelhança são outras funcionalidades comumente utilizadas.

Apresentação sobre os passos da mineração de texto[1]

Um processo inteiro de mineração de texto[2] consiste em um mecanismo de coleta (Crawler), uma etapa de pré-processamento (Pre processamento texto), um mecanismo de indexação, aplicação do algoritmo (mineração de dados) e finalmente a análise dos resultados.

Áreas correlatas[editar | editar código-fonte]

Referências

  1. Mineração de Texto - PPT/PDF -Apresentação descrevendo os passos da mineração de texto
  2. Cortex Intelligence - Descrição detalhada sobre o processo de mineração de texto