Mineração de texto
Origem: Wikipédia, a enciclopédia livre.
Prospecção de texto (português europeu) ou mineração de texto (português brasileiro) (também conhecida pelo termo inglês text mining), refere-se ao processo de obtenção de informação de qualidade a partir de texto em línguas naturais. É inspirado na mineração de dados, que consiste em extrair informação de bancos de dados estruturados; a mineração de texto extrai informação de dados não estruturados ou semi-estruturados.
Ganhou importância com o crescimento da Internet e dos mecanismos de busca. Com mineração de texto pode-se extrair informação relevante de uma grande base de textos, sem precisar lê-los previamente. Outra utilização seria o auxílio na navegação para encontrar o que se deseja.
Seguindo a mesma tendência da área de mineração de dados, classificação automática de textos e agrupamento por semelhança são outras funcionalidades comumente utilizadas.
Apresentação sobre os passos da mineração de texto[1]
Um processo inteiro de mineração de texto[2] consiste em um mecanismo de coleta (Crawler), uma etapa de pré-processamento (Pre processamento texto), um mecanismo de indexação, aplicação do algorítmo (mineração de dados) e finalmente a análise dos resultados.
[editar] Áreas correlatas
- Extração de informação
- Processamento de linguagem natural
- Lingüística computacional
- Aprendizagem de máquina
- Recuperação de informação
- Mineração de dados
- Ciência cognitiva
- Visualização da informação
- Inteligência artificial
- Mineração da Web
Referências
- ↑ Mineração de Texto - PPT/PDF -Apresentação descrevendo os passos da mineração de texto
- ↑ Cortex Intelligence - Descrição detalhada sobre o processo de mineração de texto

