Mineração de texto
Prospecção de texto (português europeu) ou mineração de texto (português brasileiro) (também conhecida pelo termo inglês text mining), refere-se ao processo de obtenção de informação de qualidade a partir de texto em línguas naturais. É inspirado na mineração de dados, que consiste em extrair informação de bancos de dados estruturados; a mineração de texto extrai informação de dados não estruturados ou semi-estruturados.
Ganhou importância com o crescimento da Internet e dos mecanismos de busca. Com mineração de texto pode-se extrair informação relevante de uma grande base de textos, sem precisar lê-los previamente. Outra utilização seria o auxílio na navegação para encontrar o que se deseja.
Seguindo a mesma tendência da área de mineração de dados, classificação automática de textos e agrupamento por semelhança são outras funcionalidades comumente utilizadas.
Apresentação sobre os passos da mineração de texto1
Um processo inteiro de mineração de texto2 consiste em um mecanismo de coleta (Crawler), uma etapa de pré-processamento (Pre processamento texto), um mecanismo de indexação, aplicação do algoritmo (mineração de dados) e finalmente a análise dos resultados.
Áreas correlatas [editar]
- Extração de informação
- Processamento de linguagem natural
- Lingüística computacional
- Aprendizagem de máquina
- Recuperação de informação
- Mineração de dados
- Ciência cognitiva
- Visualização da informação
- Inteligência artificial
- Mineração da Web
Referências
- ↑ Mineração de Texto - PPT/PDF -Apresentação descrevendo os passos da mineração de texto
- ↑ Cortex Intelligence - Descrição detalhada sobre o processo de mineração de texto