Algoritmo C4.5

Origem: Wikipédia, a enciclopédia livre.

C4.5 é um algoritmo utilizado para criar uma árvore de decisão e foi desenvolvido por Ross Quinlan.[1] C4.5 é uma extensão do algoritmo anterior de Quinlan's ID3. As árvores de decisão geradas pelo algoritmo C4.5 podem ser utilizadas para classificação e são portanto conhecidas como classificadores estatísticos.

Ele se tornou bastante popular após ficar posicionado entre os melhores algoritmos de mineração de dados no trabalho Top 10 Algorithms in Data Mining publicado por Springer LNCS em 2008.[2]

Algoritmo[editar | editar código-fonte]

C4.5 constrói árvores de decisão a partir de um conjunto de dados de treinamento da mesma forma que o algoritmo ID3, utilizando o conceito de Entropia. O conjunto de dados de treinamento é um conjunto de amostras já classificadas. Cada amostra consiste de um vetor p-dimensional , onde o representa valores de atributos ou características da amostra, assim como a categoria ou a classe a qual pertence.

Em cada nó da árvore, o algoritmo C4.5 escolhe o atributo dos dados que mais efetivamente particiona o seu conjunto de amostras em subconjuntos tendendo a uma categoria ou a outra. O critério de particionamento é o ganho de informação normalizado (diferença em entropia). O atributo com maior ganho de informação normalizado é escolhido para tomar a decisão. O algoritmo C4.5 então repete a etapa anterior nas partições menores.

Este algoritmo possui alguns casos básicos:

  • todas as amostras do conjunto pertencem a uma mesma categoria; quando este caso ocorre, o algoritmo simplesmente cria um nó folha para a árvore de decisão e escolhe a categoria em questão;
  • nenhuma das características fornece ganho de informação. Neste caso, o algoritmo C4.5 cria um nó de decisão árvore acima usando o valor esperado;
  • instâncias previamente não vistas. Novamente, o algoritmo C4.5 cria um nó de decisão árvore acima usando o valor esperado.

Pseudo código[editar | editar código-fonte]

Em pseudo código, o algoritmo geral para construir árvores de decisão é:[3]

  1. Verificar por casos básicos
  2. Para cada atributo a
    1. Encontrar a razão do ganho da informação normalizado pelo particionamento em a
  3. Seja a_maior o atributo com maior ganho da informação normalizado
  4. Criar um de decisão que particiona o conjunto de dados em a_maior
  5. Repetir nos subconjuntos obtidos através da divisão em a_maior, e adicionar aqueles nós como filhos de

Implementação[editar | editar código-fonte]

J48 é uma implementação de código aberto em Java do algoritmo C4.5 no aplicativo de mineração de dados Weka.

Melhoramentos do algoritmo ID.3[editar | editar código-fonte]

C4.5 apresenta uma série de melhorias ao algoritmo ID3. Algumas destas melhorias são:

  • Lidar com atributos contínuos e discretos. No intuito de lidar com atributos contínuos, o algoritmo C4.5 cria um valor limiar e então particiona o conjunto de dados em dois subconjuntos dos quais um contém valores de atributos maiores do que aquele valor limiar e o outro conjunto contém valores menores ou iguais aquele valor limiar.[4]
  • Lidar com dados de treinamento com atributos incompletos. O algoritmo C4.5 permite que atributos sejam rotulados como ? para casos onde os valores não estejam presentes. Valores de atributos que não estejam presentes não são utilizados em cálculos de entropia ou ganho de informação.
  • Lidar com atributos com diferentes custos.
  • Poda de árvores após a criação. O algoritmo C4.5 retrocede pela árvore quando esta é criada e tenta remover ramificações que não ajudam no processo de decisão e substitui estes ramos por nós folha.

Referências

  1. Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.
  2. Umd.edu - Top 10 Algorithms in Data Mining
  3. S.B. Kotsiantis, Supervised Machine Learning: A Review of Classification Techniques, Informatica 31(2007) 249-268, 2007
  4. J. R. Quinlan. Improved use of continuous attributes in c4.5. Journal of Artificial Intelligence Research, 4:77-90, 1996.

Ligações externas[editar | editar código-fonte]