Detecção de anomalias

Em mineração de dados, a detecção de anomalias (também detecção de outliers ^[1] ) é a identificação de itens, eventos ou observações raros que levantam suspeitas por serem significativamente diferentes da maioria dos dados.^[1] Normalmente, os itens anômalos se referem a algum tipo de problema, como fraude bancária, defeito estrutural, problemas médicos ou erros em um texto. Anomalias são também referidas como outliers, ruído, desvios e exceções.^[2]

Em particular, no contexto de detecção de intrusos em uma rede, os objetos de interesse geralmente não são os objetos raros, mas surtos inesperados de atividade. Esse padrão não atende à definição estatística comum de um outlier como um objeto raro, e muitos métodos de detecção de outliers (em particular métodos não supervisionados) falharão nesses dados, a menos que tenham sido tratados adequadamente. Em vez disso, um algoritmo de análise de cluster pode ser capaz de detectar os micro clusters formados por esses padrões.^[3]

Existem três categorias amplas de técnicas de detecção de anomalias.^[4] As técnicas de detecção de anomalia não supervisionada detectam anomalias em um conjunto de dados de teste não rotulados com a suposição de que a maioria das instâncias no conjunto de dados é normal, procurando instâncias que pareçam se encaixar menos no restante do conjunto de dados. As técnicas de detecção de anomalia supervisionada exigem um conjunto de dados rotulado como "normal" e "anormal" e envolve o treinamento de um classificador (a principal diferença em muitos outros problemas de classificação estatística é a natureza desbalanceada inerente da detecção de outliers). As técnicas de detecção de anomalia semi-supervisionadas constroem um modelo representando o comportamento normal de um determinado conjunto de dados de treinamento normal e, em seguida, testam a probabilidade de uma instância de teste ser gerada pelo modelo aprendido.

Aplicações[editar | editar código-fonte]

A detecção de anomalias é aplicável em vários domínios, como detecção de intrusão, detecção de fraude, detecção de falhas, monitoramento da integridade do sistema, detecção de eventos em redes de sensores e detecção de distúrbios do ecossistema. É também frequentemente usada no pré-processamento para remover dados anômalos do conjunto de dados. Na aprendizagem supervisionada, a remoção dos dados anômalos do conjunto de dados geralmente resulta em um aumento estatisticamente significativo na precisão.^[5]^[6]

Técnicas populares[editar | editar código-fonte]

Diversas técnicas de detecção de anomalias têm sido propostas na literatura.^[7] Algumas das técnicas populares são:

Técnicas baseadas em densidade (k vizinhos mais próximos,^[8] fator outlier local, florestas de isolamento,^[9] e muitas outras variações desse conceito^[10]).
Detecção de outliers baseada em correlação subespaço, e em tensores^[11] para dados de alta dimensão.^[12]
Máquinas de vetores de suporte de uma classe.^[13]
Redes neurais replicadoras.^[14] Autoencodificadores.
Redes Bayesianas.^[14]
Modelos ocultos de Markov (HMMs).^[14]
Análise de cluster com detecção de outliers.^[15]^[16]
Desvios das regras de associação e conjuntos de itens frequentes.
Detecção de outliers baseada em lógica difusa.
Técnicas de conjunto, usando o recurso de ensacamento,^[17] normalização pontuação e diferentes fontes de diversidade.^[18]

O desempenho dos diferentes métodos depende muito do conjunto de dados e parâmetros, e os métodos têm poucas vantagens sistemáticas sobre os outros quando comparados em muitos conjuntos de dados e parâmetros.^[19]^[20]

Aplicação em segurança dos dados[editar | editar código-fonte]

A detecção de anomalias foi proposta para sistemas de detecção de intrusão (IDS) por Dorothy Denning em 1986.^[21] A detecção de anomalias para o IDS é normalmente realizada com limiares e estatísticas, mas também pode ser feita com soluções aproximadas e aprendizado indutivo.^[22] Os tipos de estatística propostos em 1999 incluíam perfis de usuários, estações de trabalho, redes, hosts remotos, grupos de usuários e programas baseados em frequências, médias, variâncias, covariâncias e desvios padrão.^[23] A contrapartida da detecção de anomalias na detecção de intrusão é a detecção de uso indevido .

Programas[editar | editar código-fonte]

O ELKI é um kit de ferramentas de mineração de dados Java de código aberto que contém vários algoritmos de detecção de anomalias, bem como aceleração de índice para eles.

Conjuntos de dados[editar | editar código-fonte]

Repositório de dados de referência de detecção de anomalias da Ludwig-Maximilians-Universität München ; Espelho na Universidade de São Paulo .
ODDS - ODDS: Uma grande coleção de conjuntos de dados de detecção de outliers publicamente disponíveis com informações básicas em diferentes domínios.

Referências[editar | editar código-fonte]

↑ ^a ^b Zimek, Arthur; Schubert, Erich (2017), «Outlier Detection», ISBN 9781489979933, Springer New York, Encyclopedia of Database Systems: 1–5, doi:10.1007/978-1-4899-7993-3_80719-1
↑ «A Survey of Outlier Detection Methodologies» (PDF). Artificial Intelligence Review. 22. CiteSeerX 10.1.1.318.4023. doi:10.1007/s10462-004-4304-y
↑ «Data mining for network intrusion detection» (PDF). Proceedings NSF Workshop on Next Generation Data Mining
↑ «Anomaly detection: A survey». ACM Computing Surveys. 41. doi:10.1145/1541880.1541882
↑ «An Experiment with the Edited Nearest-Neighbor Rule». IEEE Transactions on Systems, Man, and Cybernetics. 6. doi:10.1109/TSMC.1976.4309523
↑ Smith, M. R.; Martinez, T. «Improving classification accuracy by identifying and removing instances that should be misclassified». The 2011 International Joint Conference on Neural Networks. [S.l.: s.n.] ISBN 978-1-4244-9635-8. doi:10.1109/IJCNN.2011.6033571
↑ «There and back again: Outlier detection between statistical reasoning and data mining algorithms». Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 8. ISSN 1942-4787. doi:10.1002/widm.1280
↑ «Distance-based outliers: Algorithms and applications». The VLDB Journal the International Journal on Very Large Data Bases. 8. CiteSeerX 10.1.1.43.1842. doi:10.1007/s007780050006
↑ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (dezembro de 2008). Isolation Forest. [S.l.: s.n.] ISBN 9780769535029. doi:10.1109/ICDM.2008.17
↑ «Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection». Data Mining and Knowledge Discovery. 28. doi:10.1007/s10618-012-0300-z
↑ «Tensor-based anomaly detection: An interdisciplinary survey». Knowledge-Based Systems. 98. doi:10.1016/j.knosys.2016.01.027
↑ «A survey on unsupervised outlier detection in high-dimensional numerical data». Statistical Analysis and Data Mining. 5. doi:10.1002/sam.11161
↑ «Estimating the Support of a High-Dimensional Distribution». Neural Computation. 13. CiteSeerX 10.1.1.4.4106. PMID 11440593. doi:10.1162/089976601750264965
↑ ^a ^b ^c Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan. «Outlier Detection Using Replicator Neural Networks». Data Warehousing and Knowledge Discovery. Col: Lecture Notes in Computer Science. 2454. [S.l.: s.n.] ISBN 978-3-540-44123-6. doi:10.1007/3-540-46145-0_17
↑ «Discovering cluster-based local outliers». Pattern Recognition Letters. 24. CiteSeerX 10.1.1.20.4242. doi:10.1016/S0167-8655(03)00003-5
↑ «Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection». ACM Transactions on Knowledge Discovery from Data. 10. doi:10.1145/2733381
↑ Lazarevic, A.; Kumar, V. Feature bagging for outlier detection. [S.l.: s.n.] ISBN 978-1-59593-135-1. doi:10.1145/1081870.1081891
↑ «Ensembles for unsupervised outlier detection». ACM SIGKDD Explorations Newsletter. 15. doi:10.1145/2594473.2594476
↑ «On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study». Data Mining and Knowledge Discovery. 30. ISSN 1384-5810. doi:10.1007/s10618-015-0444-8
↑ Repositório de dados de referência de detecção de anomalias da Ludwig-Maximilians-Universität München ; Espelho na Universidade de São Paulo .
↑ «An Intrusion-Detection Model» (PDF). IEEE Transactions on Software Engineering. SE-13. CiteSeerX 10.1.1.102.5127. doi:10.1109/TSE.1987.232894
↑ Teng, H. S.; Chen, K.; Lu, S. C. Adaptive real-time anomaly detection using inductively generated sequential patterns (PDF). [S.l.: s.n.] ISBN 978-0-8186-2060-7. doi:10.1109/RISP.1990.63857
↑ «Computer System Intrusion Detection: A Survey». Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802

[:0-1] Zimek, Arthur; Schubert, Erich (2017), «Outlier Detection», ISBN 9781489979933, Springer New York, Encyclopedia of Database Systems: 1–5, doi:10.1007/978-1-4899-7993-3_80719-1

[2] «A Survey of Outlier Detection Methodologies» (PDF). Artificial Intelligence Review. 22. CiteSeerX 10.1.1.318.4023. doi:10.1007/s10462-004-4304-y

[3] «Data mining for network intrusion detection» (PDF). Proceedings NSF Workshop on Next Generation Data Mining

[ChandolaSurvey-4] «Anomaly detection: A survey». ACM Computing Surveys. 41. doi:10.1145/1541880.1541882

[5] «An Experiment with the Edited Nearest-Neighbor Rule». IEEE Transactions on Systems, Man, and Cybernetics. 6. doi:10.1109/TSMC.1976.4309523

[6] Smith, M. R.; Martinez, T. «Improving classification accuracy by identifying and removing instances that should be misclassified». The 2011 International Joint Conference on Neural Networks. [S.l.: s.n.] ISBN 978-1-4244-9635-8. doi:10.1109/IJCNN.2011.6033571

[ZimekFilzmoser2018-7] «There and back again: Outlier detection between statistical reasoning and data mining algorithms». Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 8. ISSN 1942-4787. doi:10.1002/widm.1280

[8] «Distance-based outliers: Algorithms and applications». The VLDB Journal the International Journal on Very Large Data Bases. 8. CiteSeerX 10.1.1.43.1842. doi:10.1007/s007780050006

[9] Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (dezembro de 2008). Isolation Forest. [S.l.: s.n.] ISBN 9780769535029. doi:10.1109/ICDM.2008.17

[10] «Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection». Data Mining and Knowledge Discovery. 28. doi:10.1007/s10618-012-0300-z

[11] «Tensor-based anomaly detection: An interdisciplinary survey». Knowledge-Based Systems. 98. doi:10.1016/j.knosys.2016.01.027

[12] «A survey on unsupervised outlier detection in high-dimensional numerical data». Statistical Analysis and Data Mining. 5. doi:10.1002/sam.11161

[13] «Estimating the Support of a High-Dimensional Distribution». Neural Computation. 13. CiteSeerX 10.1.1.4.4106. PMID 11440593. doi:10.1162/089976601750264965

[replicator-14] Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan. «Outlier Detection Using Replicator Neural Networks». Data Warehousing and Knowledge Discovery. Col: Lecture Notes in Computer Science. 2454. [S.l.: s.n.] ISBN 978-3-540-44123-6. doi:10.1007/3-540-46145-0_17

[15] «Discovering cluster-based local outliers». Pattern Recognition Letters. 24. CiteSeerX 10.1.1.20.4242. doi:10.1016/S0167-8655(03)00003-5

[16] «Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection». ACM Transactions on Knowledge Discovery from Data. 10. doi:10.1145/2733381

[17] Lazarevic, A.; Kumar, V. Feature bagging for outlier detection. [S.l.: s.n.] ISBN 978-1-59593-135-1. doi:10.1145/1081870.1081891

[18] «Ensembles for unsupervised outlier detection». ACM SIGKDD Explorations Newsletter. 15. doi:10.1145/2594473.2594476

[CamposZimek2016-19] «On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study». Data Mining and Knowledge Discovery. 30. ISSN 1384-5810. doi:10.1007/s10618-015-0444-8

[20] Repositório de dados de referência de detecção de anomalias da Ludwig-Maximilians-Universität München ; Espelho na Universidade de São Paulo .

[21] «An Intrusion-Detection Model» (PDF). IEEE Transactions on Software Engineering. SE-13. CiteSeerX 10.1.1.102.5127. doi:10.1109/TSE.1987.232894

[22] Teng, H. S.; Chen, K.; Lu, S. C. Adaptive real-time anomaly detection using inductively generated sequential patterns (PDF). [S.l.: s.n.] ISBN 978-0-8186-2060-7. doi:10.1109/RISP.1990.63857

[23] «Computer System Intrusion Detection: A Survey». Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]