Detecção de anomalias

Origem: Wikipédia, a enciclopédia livre.

Em mineração de dados, a detecção de anomalias (também detecção de outliers [1] ) é a identificação de itens, eventos ou observações raros que levantam suspeitas por serem significativamente diferentes da maioria dos dados.[1] Normalmente, os itens anômalos se referem a algum tipo de problema, como fraude bancária, defeito estrutural, problemas médicos ou erros em um texto. Anomalias são também referidas como outliers, ruído, desvios e exceções.[2]

Em particular, no contexto de detecção de intrusos em uma rede, os objetos de interesse geralmente não são os objetos raros, mas surtos inesperados de atividade. Esse padrão não atende à definição estatística comum de um outlier como um objeto raro, e muitos métodos de detecção de outliers (em particular métodos não supervisionados) falharão nesses dados, a menos que tenham sido tratados adequadamente. Em vez disso, um algoritmo de análise de cluster pode ser capaz de detectar os micro clusters formados por esses padrões.[3]

Existem três categorias amplas de técnicas de detecção de anomalias.[4] As técnicas de detecção de anomalia não supervisionada detectam anomalias em um conjunto de dados de teste não rotulados com a suposição de que a maioria das instâncias no conjunto de dados é normal, procurando instâncias que pareçam se encaixar menos no restante do conjunto de dados. As técnicas de detecção de anomalia supervisionada exigem um conjunto de dados rotulado como "normal" e "anormal" e envolve o treinamento de um classificador (a principal diferença em muitos outros problemas de classificação estatística é a natureza desbalanceada inerente da detecção de outliers). As técnicas de detecção de anomalia semi-supervisionadas constroem um modelo representando o comportamento normal de um determinado conjunto de dados de treinamento normal e, em seguida, testam a probabilidade de uma instância de teste ser gerada pelo modelo aprendido.

Aplicações[editar | editar código-fonte]

A detecção de anomalias é aplicável em vários domínios, como detecção de intrusão, detecção de fraude, detecção de falhas, monitoramento da integridade do sistema, detecção de eventos em redes de sensores e detecção de distúrbios do ecossistema. É também frequentemente usada no pré-processamento para remover dados anômalos do conjunto de dados. Na aprendizagem supervisionada, a remoção dos dados anômalos do conjunto de dados geralmente resulta em um aumento estatisticamente significativo na precisão.[5][6]

Técnicas populares[editar | editar código-fonte]

Diversas técnicas de detecção de anomalias têm sido propostas na literatura.[7] Algumas das técnicas populares são:

O desempenho dos diferentes métodos depende muito do conjunto de dados e parâmetros, e os métodos têm poucas vantagens sistemáticas sobre os outros quando comparados em muitos conjuntos de dados e parâmetros.[19][20]

Aplicação em segurança dos dados[editar | editar código-fonte]

A detecção de anomalias foi proposta para sistemas de detecção de intrusão (IDS) por Dorothy Denning em 1986.[21] A detecção de anomalias para o IDS é normalmente realizada com limiares e estatísticas, mas também pode ser feita com soluções aproximadas e aprendizado indutivo.[22] Os tipos de estatística propostos em 1999 incluíam perfis de usuários, estações de trabalho, redes, hosts remotos, grupos de usuários e programas baseados em frequências, médias, variâncias, covariâncias e desvios padrão.[23] A contrapartida da detecção de anomalias na detecção de intrusão é a detecção de uso indevido .

Programas[editar | editar código-fonte]

  • O ELKI é um kit de ferramentas de mineração de dados Java de código aberto que contém vários algoritmos de detecção de anomalias, bem como aceleração de índice para eles.

Conjuntos de dados[editar | editar código-fonte]

Referências[editar | editar código-fonte]

  1. a b Zimek, Arthur; Schubert, Erich (2017), «Outlier Detection», ISBN 9781489979933, Springer New York, Encyclopedia of Database Systems: 1–5, doi:10.1007/978-1-4899-7993-3_80719-1 
  2. «A Survey of Outlier Detection Methodologies» (PDF). Artificial Intelligence Review. 22. CiteSeerX 10.1.1.318.4023Acessível livremente. doi:10.1007/s10462-004-4304-y 
  3. «Data mining for network intrusion detection» (PDF). Proceedings NSF Workshop on Next Generation Data Mining 
  4. «Anomaly detection: A survey». ACM Computing Surveys. 41. doi:10.1145/1541880.1541882 
  5. «An Experiment with the Edited Nearest-Neighbor Rule». IEEE Transactions on Systems, Man, and Cybernetics. 6. doi:10.1109/TSMC.1976.4309523 
  6. Smith, M. R.; Martinez, T. «Improving classification accuracy by identifying and removing instances that should be misclassified». The 2011 International Joint Conference on Neural Networks. [S.l.: s.n.] ISBN 978-1-4244-9635-8. doi:10.1109/IJCNN.2011.6033571 
  7. «There and back again: Outlier detection between statistical reasoning and data mining algorithms». Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 8. ISSN 1942-4787. doi:10.1002/widm.1280 
  8. «Distance-based outliers: Algorithms and applications». The VLDB Journal the International Journal on Very Large Data Bases. 8. CiteSeerX 10.1.1.43.1842Acessível livremente. doi:10.1007/s007780050006 
  9. Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (dezembro de 2008). Isolation Forest. [S.l.: s.n.] ISBN 9780769535029. doi:10.1109/ICDM.2008.17 
  10. «Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection». Data Mining and Knowledge Discovery. 28. doi:10.1007/s10618-012-0300-z 
  11. «Tensor-based anomaly detection: An interdisciplinary survey». Knowledge-Based Systems. 98. doi:10.1016/j.knosys.2016.01.027 
  12. «A survey on unsupervised outlier detection in high-dimensional numerical data». Statistical Analysis and Data Mining. 5. doi:10.1002/sam.11161 
  13. «Estimating the Support of a High-Dimensional Distribution». Neural Computation. 13. CiteSeerX 10.1.1.4.4106Acessível livremente. PMID 11440593. doi:10.1162/089976601750264965 
  14. a b c Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan. «Outlier Detection Using Replicator Neural Networks». Data Warehousing and Knowledge Discovery. Col: Lecture Notes in Computer Science. 2454. [S.l.: s.n.] ISBN 978-3-540-44123-6. doi:10.1007/3-540-46145-0_17 
  15. «Discovering cluster-based local outliers». Pattern Recognition Letters. 24. CiteSeerX 10.1.1.20.4242Acessível livremente. doi:10.1016/S0167-8655(03)00003-5 
  16. «Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection». ACM Transactions on Knowledge Discovery from Data. 10. doi:10.1145/2733381 
  17. Lazarevic, A.; Kumar, V. Feature bagging for outlier detection. [S.l.: s.n.] ISBN 978-1-59593-135-1. doi:10.1145/1081870.1081891 
  18. «Ensembles for unsupervised outlier detection». ACM SIGKDD Explorations Newsletter. 15. doi:10.1145/2594473.2594476 
  19. «On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study». Data Mining and Knowledge Discovery. 30. ISSN 1384-5810. doi:10.1007/s10618-015-0444-8 
  20. Repositório de dados de referência de detecção de anomalias da Ludwig-Maximilians-Universität München ; Espelho na Universidade de São Paulo .
  21. «An Intrusion-Detection Model» (PDF). IEEE Transactions on Software Engineering. SE-13. CiteSeerX 10.1.1.102.5127Acessível livremente. doi:10.1109/TSE.1987.232894 
  22. Teng, H. S.; Chen, K.; Lu, S. C. Adaptive real-time anomaly detection using inductively generated sequential patterns (PDF). [S.l.: s.n.] ISBN 978-0-8186-2060-7. doi:10.1109/RISP.1990.63857 
  23. «Computer System Intrusion Detection: A Survey». Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802Acessível livremente