Detecção de similaridade de conteúdo

Origem: Wikipédia, a enciclopédia livre.

A detecção de plágio ou detecção de similaridade de conteúdo é o processo de localização de ocorrências de plágio e/ou violação de direitos autorais em uma obra ou documento. O uso generalizado de computadores e o advento da Internet tornaram mais fácil plagiar o trabalho de terceiros.[1][2]

A detecção de plágio pode ser realizada de várias maneiras. A detecção humana é a forma mais tradicional de identificar plágio em trabalhos escritos. Esta pode ser uma tarefa longa e demorada para o leitor[2] e também pode resultar em inconsistências na forma como o plágio é identificado dentro de uma organização.[3] Softwares de correspondência de texto (TMS), também conhecidos como "softwares de detecção de plágio" ou softwares "anti-plágio", tornaram-se amplamente disponíveis, na forma de produtos disponíveis comercialmente e também de software de código aberto[exemplo necessário]. Na verdade, TMS não detectam o plágio em si, mas, em vez disso, encontram passagens específicas de texto em um documento que correspondem ao texto de outro documento.

Detecção de plágio assistida por software[editar | editar código-fonte]

A detecção de plágio assistida por computador (CaPD) é uma tarefa de recuperação de informações (IR) suportada por sistemas de IR especializados, os quais são denominados sistemas de detecção de plágio (PDS) ou sistemas de detecção de similaridade de documentos. Uma revisão sistemática da literatura de 2019[4] apresenta uma visão geral dos métodos de detecção de plágio de última geração.

Em documentos de texto[editar | editar código-fonte]

Os sistemas de detecção de similaridade de texto implementam uma de duas abordagens de detecção genéricas, uma sendo externa e a outra intrínseca.[5] Os sistemas de detecção externa comparam um documento suspeito com uma coleção de referência, que é um conjunto de documentos considerados genuínos.[6] Com base em um modelo de documento escolhido e critérios de similaridade predefinidos, a tarefa de detecção é recuperar todos os documentos que contenham texto cuja similaridade a algum texto do documento suspeito é superior a um limite escolhido.[7] Os sistemas de detecção de plágio intrínsecos analisam apenas o texto a ser avaliado, sem realizar comparações com documentos externos. Esta abordagem visa reconhecer as mudanças no estilo de escrita único de um autor como um indicador de potencial plágio.[8][9] Os sistemas de detecção de plágio não são capazes de identificar plágio de forma confiável sem julgamento humano. Semelhanças e características do estilo de escrita são calculadas com a ajuda de modelos de documentos predefinidos e podem representar falsos positivos.[10][11][12][13][14]

Eficácia dessas ferramentas em ambientes de ensino superior[editar | editar código-fonte]

Um estudo foi realizado para testar a eficácia de softwares de detecção de similaridade em um ambiente de ensino superior. Uma parte do estudo designou um grupo de alunos para escrever um artigo. Esses alunos foram primeiro instruídos sobre plágio e informados de que seu trabalho deveria passar por um sistema de detecção de similaridade de conteúdo. Um segundo grupo de alunos foi designado para escrever um artigo sem qualquer informação sobre plágio. Os pesquisadores esperavam encontrar taxas mais baixas no grupo um, mas encontraram aproximadamente as mesmas taxas de plágio em ambos os grupos.[15]

Abordagens[editar | editar código-fonte]

A figura abaixo representa uma classificação de todas as abordagens de detecção atualmente em uso na detecção de similaridade de conteúdo assistida por computador. As abordagens são caracterizadas pelo tipo de avaliação de similaridade que realizam: global ou local. As abordagens de avaliação de similaridade global usam as características retiradas de partes maiores do texto ou do documento como um todo para calcular a similaridade, enquanto os métodos locais examinam apenas segmentos de texto pré-selecionados como entrada.

Classificação dos métodos de detecção de plágio assistidos por computador
Impressão digital[editar | editar código-fonte]

A impressão digital é atualmente a abordagem mais amplamente aplicada à detecção de similaridade de conteúdo. Este método forma resumos representativos de documentos, selecionando um conjunto de várias substrings (n-gramas) deles. Os conjuntos representam as impressões digitais e seus elementos são chamados de minúcias.[16][17] Um documento suspeito é verificado quanto a plágio computando sua impressão digital e consultando minúcias com um índice pré-computado de impressões digitais para todos os documentos de uma coleção de referência. Minúcias correspondentes às de outros documentos indicam segmentos de texto compartilhados e sugerem plágio potencial se excederem um limite de similaridade escolhido.[18] O tempo e os recursos computacionais são fatores limitantes da impressão digital, razão pela qual esse método normalmente só compara um subconjunto de minúcias para acelerar o cálculo e permitir verificações em coleções muito grandes, como a internet.[16]

Correspondência de strings[editar | editar código-fonte]

A correspondência de strings é uma abordagem predominante usada na ciência da computação. Quando aplicada ao problema de detecção de plágio, os documentos são comparados para sobreposições exatas de texto. Vários métodos foram propostos para lidar com essa tarefa, alguns dos quais foram adaptados para detecção externa de plágio. Verificar um documento suspeito nesta configuração requer o cálculo e o armazenamento de representações eficientemente comparáveis de todos os documentos na coleção de referência para compará-los aos pares. Geralmente, modelos de documento de sufixo, como árvores de sufixo ou vetores de sufixo, foram usados para esta tarefa. No entanto, a correspondência de substring permanece cara do ponto de vista computacional, o que a torna uma solução inviável para verificar grandes coleções de documentos.[19][20][21]

Saco de palavras[editar | editar código-fonte]

A análise de saco de palavras representa a adoção da recuperação por espaços vetoriais, um conceito tradicional de IR, para o domínio da detecção de similaridade de conteúdo. Os documentos são representados como um ou vários vetores, por exemplo, para diferentes partes do documento, que são usados para cálculos de similaridade em pares. O cálculo de similaridade pode então contar com a tradicional medida de similaridade de cosseno ou com medidas de similaridade mais sofisticadas.[22][23][24]

Análise de citações[editar | editar código-fonte]

A detecção de plágio baseada em citações (CbPD)[25] depende da análise de citações e é a única abordagem para a detecção de plágio que não depende da similaridade textual.[26] A CbPD examina as informações de citação e referência em textos para identificar padrões semelhantes nas sequências de citação. Como tal, esta abordagem é adequada para textos científicos ou outros documentos acadêmicos que contenham citações. A análise de citações para detectar plágio é um conceito relativamente novo. Embora não tenha sido adotado por nenhum software comercial, existe um primeiro protótipo de um sistema de detecção de plágio baseado em citações.[27] A semelhança na ordem das citações nos documentos examinados, bem como a sua proximidade, são os principais critérios usados para calcular as semelhanças dos padrões de citação. Os padrões de citação representam subsequências contendo citações não exclusivamente compartilhadas pelos documentos comparados.[26][28] Para quantificar o grau de similaridade dos padrões, também são considerados fatores como o número absoluto ou a fração relativa de citações compartilhadas no padrão, bem como a probabilidade de que as citações coocorram em um documento.[26][28][29][30]

Estilometria[editar | editar código-fonte]

A estilometria inclui métodos estatísticos para quantificar o estilo único de escrita de um autor[31][32] e é usada principalmente para atribuição de autoria ou detecção de plágio intrínseco.[33] A detecção de plágio por atribuição de autoria requer verificar se o estilo de redação do documento suspeito, que é supostamente escrito por determinado autor, coincide com o de um corpus de documentos do mesmo autor. A detecção de plágio intrínseco, por outro lado, descobre o plágio com base em evidências internas no documento suspeito, sem compará-lo com outros documentos. Isso é realizado construindo e comparando modelos estilométricos para diferentes segmentos de texto do documento suspeito, e passagens que são estilisticamente diferentes de outras são marcadas como potencialmente plagiadas/violadas.[8] Embora sejam simples de extrair, os n-gramas de caracteres estão comprovadamente entre os melhores recursos estilométricos para detecção de plágio intrínseco.[34]

Desempenho[editar | editar código-fonte]

Avaliações comparativas de sistemas de detecção de similaridade de conteúdos[6][35][36][37][38][39] indicam que seu desempenho depende do tipo de plágio presente (veja a figura). Exceto para a análise de padrão de citações, todas as abordagens de detecção dependem da similaridade textual. Portanto, é sintomático que a precisão da detecção diminua quanto mais os casos de plágio são ofuscados.

Desempenho de abordagens de CaPD na detecção, em função do tipo de plágio presente

Cópias literais, também conhecidas como plágio de copiar e colar (c&p) ou violação flagrante de direitos autorais, ou casos de plágio modestamente disfarçados, podem ser detectados com alta precisão pelos sistemas de detecção de plágio externo atuais se a fonte estiver acessível ao software. Especialmente os procedimentos de correspondência de substring alcançam um bom desempenho para plágio c&p, uma vez que normalmente usam modelos de documentos sem perdas, como árvores de sufixo. O desempenho de sistemas que utilizam impressão digital ou análise de saco de palavras na detecção de cópias depende da perda de informações incorrida pelo modelo de documento utilizado. Ao aplicar estratégias de chunking e seleção flexíveis, eles são mais capazes de detectar formas moderadas de plágio disfarçado em comparação com procedimentos de correspondência de substring.

A detecção de plágio intrínseco usando estilometria pode superar os limites da similaridade textual até certo ponto, comparando a similaridade linguística. Dado que as diferenças estilísticas entre segmentos plagiados e originais são significativas e podem ser identificadas de forma confiável, a estilometria pode ajudar na identificação de plágio disfarçado e parafraseado.[carece de fontes?] As comparações estilométricas tendem a falhar nos casos em que os segmentos são fortemente parafraseados ao ponto em que se assemelham mais ao estilo de escrita pessoal do plagiador ou se um texto foi produzido por vários autores. Os resultados das Competições Internacionais de Detecção de Plágio realizadas em 2009, 2010 e 2011,[6][38][39] bem como os experimentos realizados por Stein, indicam que a análise estilométrica parece funcionar de forma confiável apenas quando o comprimento dos documentos é de vários milhares ou dezenas de milhares de palavras, o que limita a aplicabilidade do método às configurações de CaPD.

Uma quantidade cada vez maior de pesquisas é realizada sobre métodos e sistemas capazes de detectar plágio traduzido. Atualmente, a detecção de plágio entre linguagens (CLPD) não é vista como uma tecnologia madura[40] e os respectivos sistemas não têm sido capazes de alcançar resultados de detecção satisfatórios na prática.[37]

A detecção de plágio baseada em citações usando a análise de padrão de citações é capaz de identificar paráfrases e traduções mais fortes com taxas de sucesso mais altas quando comparadas a outras abordagens de detecção, porque é independente de características textuais.[26][29] No entanto, como a análise de padrões de citações depende da disponibilidade de informações de citações suficientes, ela se limita a textos acadêmicos. Ele permanece inferior às abordagens baseadas em texto na detecção de passagens plagiadas mais curtas, que são típicas para casos de plágio de copiar e colar ou agitar e colar; o último se refere à mistura de fragmentos ligeiramente alterados de fontes diferentes.[41]

Software[editar | editar código-fonte]

O projeto de software de detecção de similaridade de conteúdo para uso com documentos de texto é caracterizado por uma série de fatores: 

Fator Descrição e alternativas
Escopo da pesquisa Na Internet pública, utilizando motores de busca / Bancos de dados institucionais / Bancos de dados local, específico do sistema.[carece de fontes?]
Tempo de análise Atraso entre o momento em que um documento é enviado e o momento em que os resultados são disponibilizados.[carece de fontes?]
Capacidade de documento / processamento em lote Número de documentos que o sistema pode processar por unidade de tempo.[carece de fontes?]
Intensidade da verificação Com que frequência e para quais tipos de fragmentos de documento (parágrafos, frases, sequências de palavras de comprimento fixo) o sistema consulta recursos externos, como mecanismos de pesquisa.
Tipo de algoritmo de comparação Os algoritmos que definem a forma usada pelo sistema para comparar documentos entre si.[carece de fontes?]
Precisão e recuperação Número de documentos sinalizados corretamente como plagiados em comparação com o número total de documentos sinalizados e com o número total de documentos que foram realmente plagiados. Alta precisão significa que poucos falsos positivos foram encontrados, e alta recuperação significa que poucos falsos negativos não foram detectados.[carece de fontes?]

A maioria dos sistemas de detecção de plágio em grande escala usa grandes bancos de dados internos (além de outros recursos) que aumentam a cada documento adicional enviado para análise. No entanto, este recurso é considerado por alguns como uma violação dos direitos autorais dos alunos . 

Em código-fonte[editar | editar código-fonte]

O plágio em código-fonte de programas de computador também é frequente e requer ferramentas diferentes daquelas usadas para comparações de texto em documentos. Uma pesquisa significativa tem sido dedicada ao plágio de código-fonte acadêmico.[42]

Um aspecto distinto do plágio de código-fonte é que não há fábrica de redações, como as que podem ser encontradas no plágio tradicional. Uma vez que a maioria das atribuições de programação espera que os alunos escrevam programas com requisitos muito específicos, é muito difícil encontrar programas existentes que já os atendam. Como integrar código externo geralmente é mais difícil do que escrevê-lo do zero, a maioria dos alunos que plagiam faz isso a partir de seus colegas.

De acordo com Roy e Cordy,[43] algoritmos de detecção de similaridade de código-fonte podem ser classificados como baseados nas seguintes abordagens:

  • Strings - procurar correspondências textuais exatas de segmentos, por exemplo, sequências de cinco palavras. Rápido, mas pode ser confundido por mudanças nos nomes de identificadores.
  • Tokens - como acontece com strings, mas usando um lexer para converter o programa em tokens primeiro. Isso descarta espaços em branco, comentários e nomes de identificadores, tornando o sistema mais robusto para substituições de texto simples. A maioria dos sistemas de detecção de plágio acadêmico trabalha nesse nível, usando diferentes algoritmos para medir a similaridade entre sequências de tokens.
  • Árvores de análise - construir e comparar árvores de análise. Isso permite que semelhanças de nível superior sejam detectadas. Por exemplo, a comparação de árvore pode normalizar declarações condicionais e detectar construções equivalentes como semelhantes entre si.
  • Grafo de Dependência de Programa (PDGs) - um PDG captura o fluxo real de controle em um programa e permite que equivalências de nível muito mais alto sejam localizadas, com maior gasto em complexidade e tempo de cálculo.
  • Métricas - as métricas capturam 'pontuações' de segmentos de código de acordo com certos critérios; por exemplo, "o número de loops e condicionais" ou "o número de variáveis diferentes usadas". As métricas são simples de calcular e podem ser comparadas rapidamente, mas também podem levar a falsos positivos: dois fragmentos com as mesmas pontuações em um conjunto de métricas podem fazer coisas totalmente diferentes.
  • Abordagens híbridas - por exemplo, árvores de análise + árvores de sufixo podem combinar a capacidade de detecção de árvores de análise com a velocidade oferecida pelas árvores de sufixo, um tipo de estrutura de dados de correspondência de strings.

A classificação anterior foi desenvolvida para refatoração de código, e não para detecção de plágio acadêmico (um objetivo importante da refatoração é evitar código duplicado, conhecido na literatura como clones de código). As abordagens acima são eficazes contra diferentes níveis de similaridade; similaridade de baixo nível refere-se a texto idêntico, enquanto similaridade de alto nível pode ser devida a especificações semelhantes. Em um ambiente acadêmico, quando se espera que todos os alunos codifiquem com as mesmas especificações, um código funcionalmente equivalente (com similaridade de alto nível) é inteiramente esperado, e apenas a similaridade de baixo nível é considerada prova de trapaça.

Complicações do uso de software de correspondência de texto para detecção de plágio[editar | editar código-fonte]

Várias complicações foram documentadas com o uso de software de correspondência de texto quando usado para detecção de plágio. Uma das preocupações mais prevalentes está centrada na questão dos direitos de propriedade intelectual. O argumento básico é que os materiais devem ser adicionados a um banco de dados para que o TMS determine efetivamente uma correspondência, mas adicionar materiais dos usuários a esse banco de dados pode infringir seus direitos de propriedade intelectual. A questão foi levantada em vários processos judiciais.

Uma complicação adicional com o uso do TMS é que o software encontra apenas correspondências precisas com outro texto. Ele não pega um trabalho mal parafraseado, por exemplo, ou a prática de plagiar pelo uso de substituições de palavras suficientes para iludir o software de detecção, o que é conhecido como rogeting.

Ver também[editar | editar código-fonte]

Referências[editar | editar código-fonte]

  1. «Download Limit Exceeded». citeseerx.ist.psu.edu 
  2. a b Bretag, T., & Mahmud, S. (2009). A model for determining student plagiarism: Electronic detection and academic judgement. Journal of University Teaching & Learning Practice, 6(1). Retrieved from http://ro.uow.edu.au/jutlp/vol6/iss1/6
  3. Macdonald, R., & Carroll, J. (2006). Plagiarism—a complex issue requiring a holistic institutional approach. Assessment & Evaluation in Higher Education, 31(2), 233–245. doi:10.1080/02602930500262536
  4. Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (16 de outubro de 2019). «Academic Plagiarism Detection: A Systematic Literature Review». ACM Computing Surveys (em inglês). 52 (6): 1–42. doi:10.1145/3345317 
  5. Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios (dezembro de 2007), «Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN'07» (PDF), SIGIR Forum, 41 (2), doi:10.1145/1328964.1328976, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  6. a b c Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo (2009), «Overview of the 1st International Competition on Plagiarism Detection», PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection (PDF), ISSN 1613-0073, CEUR Workshop Proceedings, 502, pp. 1–9, arquivado do original (PDF) em 2 de abril de 2012 
  7. Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin (2007), «Strategies for Retrieving Plagiarized Documents», Proceedings 30th Annual International ACM SIGIR Conference (PDF), ISBN 978-1-59593-597-7, ACM, pp. 825–826, doi:10.1145/1277741.1277928, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  8. a b Meyer zu Eissen, Sven; Stein, Benno (2006), «Intrinsic Plagiarism Detection», Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, London, UK, April 10–12, 2006 Proceedings (PDF), ISBN 978-3-540-33347-0, Lecture Notes in Computer Science, 3936, Springer, pp. 565–569, CiteSeerX 10.1.1.110.5366Acessível livremente, doi:10.1007/11735106_66, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  9. Bensalem, Imene (2020). «Intrinsic Plagiarism Detection: a Survey». Plagiarism Detection: A focus on the Intrinsic Approach and the Evaluation in the Arabic Language (PhD thesis). [S.l.]: Constantine 2 University. doi:10.13140/RG.2.2.25727.84641 
  10. Bao, Jun-Peng; Malcolm, James A. (2006), «Text similarity in academic conference papers», 2nd International Plagiarism Conference Proceedings (PDF), Northumbria University Press, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 16 de setembro de 2018 
  11. Clough, Paul (2000), Plagiarism in natural and programming languages an overview of current tools and technologies (PDF) (Technical Report), Department of Computer Science, University of Sheffield, arquivado do original (PDF) em 18 de agosto de 2011 
  12. Culwin, Fintan; Lancaster, Thomas (2001), «Plagiarism issues for higher education» (PDF), Vine, 31 (2): 36–41, doi:10.1108/03055720010804005, arquivado do original (PDF) em 5 de abril de 2012 
  13. Lancaster, Thomas (2003), Effective and Efficient Plagiarism Detection (PhD Thesis), School of Computing, Information Systems and Mathematics South Bank University 
  14. Maurer, Hermann; Zaka, Bilal (2007), «Plagiarism - A Problem And How To Fight It», Proceedings of World Conference on Educational Multimedia, Hypermedia and Telecommunications 2007, AACE, pp. 4451–4458 
  15. Youmans, Robert J. (novembro de 2011). «Does the adoption of plagiarism-detection software in higher education reduce plagiarism?». Studies in Higher Education. 36 (7): 749–761. doi:10.1080/03075079.2010.523457 
  16. a b Hoad, Timothy; Zobel, Justin (2003), «Methods for Identifying Versioned and Plagiarised Documents» (PDF), Journal of the American Society for Information Science and Technology, 54 (3): 203–215, CiteSeerX 10.1.1.18.2680Acessível livremente, doi:10.1002/asi.10170, consultado em 14 de outubro de 2014, arquivado do original (PDF) em 30 de abril de 2015 
  17. Stein, Benno (julho de 2005), «Fuzzy-Fingerprints for Text-Based Information Retrieval», Proceedings of the I-KNOW '05, 5th International Conference on Knowledge Management, Graz, Austria (PDF), Springer, Know-Center, pp. 572–579, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  18. Brin, Sergey; Davis, James; Garcia-Molina, Hector (1995), «Copy Detection Mechanisms for Digital Documents», Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data (PDF), ISBN 978-1-59593-060-6, ACM, pp. 398–409, CiteSeerX 10.1.1.49.1567Acessível livremente, doi:10.1145/223784.223855 
  19. Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz (2000), «Document Overlap Detection System for Distributed Digital Libraries», Proceedings of the fifth ACM conference on Digital libraries (PDF), ISBN 978-1-58113-231-1, ACM, pp. 226–227, doi:10.1145/336597.336667, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 15 de abril de 2012 
  20. Baker, Brenda S. (fevereiro de 1993), On Finding Duplication in Strings and Software (Technical Report), AT&T Bell Laboratories, NJ, arquivado do original (gs) em 30 de outubro de 2007 
  21. Khmelev, Dmitry V.; Teahan, William J. (2003), «A Repetition Based Measure for Verification of Text Collections and for Text Categorization», SIGIR'03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval, ISBN 978-1581136463, ACM, pp. 104–110, CiteSeerX 10.1.1.9.6155Acessível livremente, doi:10.1145/860435.860456 
  22. Si, Antonio; Leong, Hong Va; Lau, Rynson W. H. (1997), «CHECK: A Document Plagiarism Detection System», SAC '97: Proceedings of the 1997 ACM symposium on Applied computing (PDF), ISBN 978-0-89791-850-3, ACM, pp. 70–77, doi:10.1145/331697.335176 
  23. Dreher, Heinz (2007), «Automatic Conceptual Analysis for Plagiarism Detection» (PDF), Information and Beyond: The Journal of Issues in Informing Science and Information Technology, 4: 601–614, doi:10.28945/974 
  24. Muhr, Markus; Zechner, Mario; Kern, Roman; Granitzer, Michael (2009), «External and Intrinsic Plagiarism Detection Using Vector Space Models», PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection (PDF), ISSN 1613-0073, CEUR Workshop Proceedings, 502, pp. 47–55, arquivado do original (PDF) em 2 de abril de 2012 
  25. Gipp, Bela (2014), Citation-based Plagiarism Detection, ISBN 978-3-658-06393-1, Springer Vieweg Research 
  26. a b c d Gipp, Bela; Beel, Jöran (junho de 2010), «Citation Based Plagiarism Detection - A New Approach to Identifying Plagiarized Work Language Independently», Proceedings of the 21st ACM Conference on Hypertext and Hypermedia (HT'10) (PDF), ISBN 978-1-4503-0041-4, ACM, pp. 273–274, doi:10.1145/1810617.1810671, consultado em 21 de outubro de 2011, arquivado do original (PDF) em 25 de abril de 2012 
  27. Gipp, Bela; Meuschke, Norman; Breitinger, Corinna; Lipinski, Mario; Nürnberger, Andreas (28 de julho de 2013), «Demonstration of Citation Pattern Analysis for Plagiarism Detection», Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval (PDF), ISBN 9781450320344, ACM, doi:10.1145/2484028.2484214 
  28. a b Gipp, Bela; Meuschke, Norman (setembro de 2011), «Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence», Proceedings of the 11th ACM Symposium on Document Engineering (DocEng2011) (PDF), ISBN 978-1-4503-0863-2, ACM, pp. 249–258, doi:10.1145/2034691.2034741, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 25 de abril de 2012 
  29. a b Gipp, Bela; Meuschke, Norman; Beel, Jöran (junho de 2011), «Comparative Evaluation of Text- and Citation-based Plagiarism Detection Approaches using GuttenPlag», Proceedings of 11th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL'11) (PDF), ISBN 978-1-4503-0744-4, ACM, pp. 255–258, CiteSeerX 10.1.1.736.4865Acessível livremente, doi:10.1145/1998076.1998124, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 25 de abril de 2012 
  30. Gipp, Bela; Beel, Jöran (julho de 2009), «Citation Proximity Analysis (CPA) - A new approach for identifying related work based on Co-Citation Analysis», Proceedings of the 12th International Conference on Scientometrics and Informetrics (ISSI'09) (PDF), International Society for Scientometrics and Informetrics, ISSN 2175-1935, pp. 571–575, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 13 de setembro de 2012 
  31. Holmes, David I. (1998), «The Evolution of Stylometry in Humanities Scholarship», Literary and Linguistic Computing, 13 (3): 111–117, doi:10.1093/llc/13.3.111 
  32. Juola, Patrick (2006), «Authorship Attribution» (PDF), Foundations and Trends in Information Retrieval, ISSN 1554-0669, 1 (3): 233–334, CiteSeerX 10.1.1.219.1605Acessível livremente, doi:10.1561/1500000005 
  33. Stein, Benno; Lipka, Nedim; Prettenhofer, Peter (2011), «Intrinsic Plagiarism Analysis» (PDF), Language Resources and Evaluation, ISSN 1574-020X, 45 (1): 63–82, doi:10.1007/s10579-010-9115-y, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  34. Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). «On the use of character n-grams as the only intrinsic evidence of plagiarism». Language Resources and Evaluation. 53 (3): 363–396. doi:10.1007/s10579-019-09444-w. hdl:10251/159151 
  35. Portal Plagiat - Softwaretest 2004 (em German), HTW University of Applied Sciences Berlin, consultado em 6 de outubro de 2011, arquivado do original em 25 de outubro de 2011 
  36. Portal Plagiat - Softwaretest 2008 (em German), HTW University of Applied Sciences Berlin, consultado em 6 de outubro de 2011 
  37. a b Portal Plagiat - Softwaretest 2010 (em German), HTW University of Applied Sciences Berlin, consultado em 6 de outubro de 2011 
  38. a b Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo (2010), «Overview of the 2nd International Competition on Plagiarism Detection», Notebook Papers of CLEF 2010 LABs and Workshops, 22–23 September, Padua, Italy (PDF), consultado em 7 de outubro de 2011, arquivado do original (PDF) em 3 de abril de 2012 
  39. a b Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), «Overview of the 3rd International Competition on Plagiarism Detection», Notebook Papers of CLEF 2011 LABs and Workshops, 19–22 September, Amsterdam, Netherlands (PDF), consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  40. Potthast, Martin; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), «Cross-Language Plagiarism Detection» (PDF), Language Resources and Evaluation, ISSN 1574-020X, 45 (1): 45–62, doi:10.1007/s10579-009-9114-z, hdl:10251/37479, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 26 de novembro de 2013 
  41. Weber-Wulff, Debora (junho de 2008), «On the Utility of Plagiarism Detection Software», In Proceedings of the 3rd International Plagiarism Conference, Newcastle Upon Tyne (PDF) 
  42. "Plagiarism Prevention and Detection - On-line Resources on Source Code Plagiarism" Arquivado em 2012-11-15 no Wayback Machine. Higher Education Academy, University of Ulster.
  43. Roy, Chanchal Kumar;Cordy, James R. (26 September 2007)."A Survey on Software Clone Detection Research". School of Computing, Queen's University, Canada.

Literatura[editar | editar código-fonte]

  • Carroll, J. (2002). A handbook for deterring plagiarism in higher education. Oxford: The Oxford Centre for Staff and Learning Development, Oxford Brookes University. (96 pág. ),ISBN 1873576560
  • Zeidman, B. (2011). The Software IP Detective’s Handbook. Prentice Hall. (480 p.),ISBN 0137035330