Detecção de similaridade de conteúdo: diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
Criada por tradução da página "Content similarity detection"
Etiquetas: Inserção do elemento "nowiki", possivelmente errônea Tradução de Conteúdo Tradução de Conteúdo 2
 
m Restaurando referências presentes no artigo original; ajustando datas, traduzindo nome/parâmetro nas citações, outros ajustes usando script
Linha 1: Linha 1:


A '''detecção de plágio''' ou '''detecção de similaridade de conteúdo''' é o processo de localização de ocorrências de [[plágio]] e/ou [[Violação de direito autoral|violação de direitos autorais]] em uma obra ou documento. O uso generalizado de computadores e o advento da Internet tornaram mais fácil plagiar o trabalho de terceiros.<ref>[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.107.178&rep=rep1&type=pdf Culwin, F., & Lancaster, T. (2001). "Plagiarism, prevention, deterrence and detection". ''Higher Education Academy''.]</ref><ref name=":0">Bretag, T., & Mahmud, S. (2009). A model for determining student plagiarism: Electronic detection and academic judgement. ''Journal of University Teaching & Learning Practice, 6''(1). Retrieved from <nowiki>http://ro.uow.edu.au/jutlp/vol6/iss1/6</nowiki></ref>
A '''detecção de plágio''' ou '''detecção de similaridade de conteúdo''' é o processo de localização de ocorrências de [[plágio]] e/ou [[Violação de direito autoral|violação de direitos autorais]] em uma obra ou documento. O uso generalizado de computadores e o advento da Internet tornaram mais fácil plagiar o trabalho de terceiros.<ref>{{citar web|url=http://citeseerx.ist.psu.edu/messages/downloadsexceeded.html|título=Download Limit Exceeded|website=citeseerx.ist.psu.edu}}</ref><ref name=":0">Bretag, T., & Mahmud, S. (2009). A model for determining student plagiarism: Electronic detection and academic judgement. ''Journal of University Teaching & Learning Practice, 6''(1). Retrieved from <nowiki>http://ro.uow.edu.au/jutlp/vol6/iss1/6</nowiki></ref>


A detecção de plágio pode ser realizada de várias maneiras. A detecção humana é a forma mais tradicional de identificar plágio em trabalhos escritos. Esta pode ser uma tarefa longa e demorada para o leitor<ref name=":0">Bretag, T., & Mahmud, S. (2009). A model for determining student plagiarism: Electronic detection and academic judgement. ''Journal of University Teaching & Learning Practice, 6''(1). Retrieved from <nowiki>http://ro.uow.edu.au/jutlp/vol6/iss1/6</nowiki></ref> e também pode resultar em inconsistências na forma como o plágio é identificado dentro de uma organização.<ref>Macdonald, R., & Carroll, J. (2006). Plagiarism—a complex issue requiring a holistic institutional approach. ''Assessment & Evaluation in Higher Education, 31''(2), 233–245. {{DOI|10.1080/02602930500262536}}</ref> Softwares de correspondência de texto (TMS), também conhecidos como "softwares de detecção de plágio" ou softwares "anti-plágio", tornaram-se amplamente disponíveis, na forma de produtos disponíveis comercialmente e também de software de código aberto{{Exemplo necessário|s}}. Na verdade, TMS não detectam o plágio em si, mas, em vez disso, encontram passagens específicas de texto em um documento que correspondem ao texto de outro documento.
A detecção de plágio pode ser realizada de várias maneiras. A detecção humana é a forma mais tradicional de identificar plágio em trabalhos escritos. Esta pode ser uma tarefa longa e demorada para o leitor<ref name=":0" /> e também pode resultar em inconsistências na forma como o plágio é identificado dentro de uma organização.<ref>Macdonald, R., & Carroll, J. (2006). Plagiarism—a complex issue requiring a holistic institutional approach. ''Assessment & Evaluation in Higher Education, 31''(2), 233–245. {{doi|10.1080/02602930500262536}}</ref> Softwares de correspondência de texto (TMS), também conhecidos como "softwares de detecção de plágio" ou softwares "anti-plágio", tornaram-se amplamente disponíveis, na forma de produtos disponíveis comercialmente e também de software de código aberto{{Exemplo necessário|s}}. Na verdade, TMS não detectam o plágio em si, mas, em vez disso, encontram passagens específicas de texto em um documento que correspondem ao texto de outro documento.


== Detecção de plágio assistida por software ==
== Detecção de plágio assistida por software ==
A detecção de plágio assistida por computador (CaPD) é uma [[Recuperação de informação|tarefa de recuperação de informações (IR)]] suportada por sistemas de IR especializados, os quais são denominados sistemas de detecção de plágio (PDS) ou sistemas de detecção de similaridade de documentos. Uma revisão sistemática da literatura de 2019<ref>{{Citar periódico |titulo=Academic Plagiarism Detection: A Systematic Literature Review |data=2019-10-16 |ultimo=Foltýnek |primeiro=Tomáš |ultimo2=Meuschke |primeiro2=Norman |paginas=1–42 |lingua=en |doi=10.1145/3345317 |ultimo3=Gipp |primeiro3=Bela |volume=52 |doi-access=free |journal=ACM Computing Surveys}}</ref> apresenta uma visão geral dos métodos de detecção de plágio de última geração.
A detecção de plágio assistida por computador (CaPD) é uma [[Recuperação de informação|tarefa de recuperação de informações (IR)]] suportada por sistemas de IR especializados, os quais são denominados sistemas de detecção de plágio (PDS) ou sistemas de detecção de similaridade de documentos. Uma revisão sistemática da literatura de 2019<ref>{{citar periódico|último1 =Foltýnek|primeiro1 =Tomáš|último2 =Meuschke|primeiro2 =Norman|último3 =Gipp|primeiro3 =Bela|data=2019-10-16|título=Academic Plagiarism Detection: A Systematic Literature Review|periódico=ACM Computing Surveys|língua=en|volume=52|número=6|páginas=1–42|doi=10.1145/3345317<!--|doi-access=free-->}}</ref> apresenta uma visão geral dos métodos de detecção de plágio de última geração.


=== Em documentos de texto ===
=== Em documentos de texto ===
Os sistemas de detecção de similaridade de texto implementam uma de duas abordagens de detecção genéricas, uma sendo externa e a outra intrínseca. Os sistemas de detecção externa comparam um documento suspeito com uma coleção de referência, que é um conjunto de documentos considerados genuínos. Com base em um [[Recuperação de informação|modelo de documento]] escolhido e critérios de similaridade predefinidos, a tarefa de detecção é recuperar todos os documentos que contenham texto cuja similaridade a algum texto do documento suspeito é superior a um limite escolhido. Os sistemas de detecção de plágio intrínsecos analisam apenas o texto a ser avaliado, sem realizar comparações com documentos externos. Esta abordagem visa reconhecer as mudanças no estilo de escrita único de um autor como um indicador de potencial plágio.<ref>{{Citar livro|url=http://personales.upv.es/prosso/resources/BensalemPhD.pdf|título=Plagiarism Detection: A focus on the Intrinsic Approach and the Evaluation in the Arabic Language|ultimo=Bensalem|primeiro=Imene|data=2020|editora=Constantine 2 University|capitulo=Intrinsic Plagiarism Detection: a Survey|doi=10.13140/RG.2.2.25727.84641}}</ref> Os sistemas de detecção de plágio não são capazes de identificar plágio de forma confiável sem julgamento humano. Semelhanças e características do estilo de escrita são calculadas com a ajuda de modelos de documentos predefinidos e podem representar falsos positivos.
Os sistemas de detecção de similaridade de texto implementam uma de duas abordagens de detecção genéricas, uma sendo externa e a outra intrínseca.<ref name="Stein07"/> Os sistemas de detecção externa comparam um documento suspeito com uma coleção de referência, que é um conjunto de documentos considerados genuínos.<ref name=Potthast09/> Com base em um [[Recuperação de informação|modelo de documento]] escolhido e critérios de similaridade predefinidos, a tarefa de detecção é recuperar todos os documentos que contenham texto cuja similaridade a algum texto do documento suspeito é superior a um limite escolhido.<ref name=Stein07a/> Os sistemas de detecção de plágio intrínsecos analisam apenas o texto a ser avaliado, sem realizar comparações com documentos externos. Esta abordagem visa reconhecer as mudanças no estilo de escrita único de um autor como um indicador de potencial plágio.<ref name=MeyerZuEissen06/><ref>{{citar livro|último1 =Bensalem |primeiro1 =Imene |título=Plagiarism Detection: A focus on the Intrinsic Approach and the Evaluation in the Arabic Language |data=2020 |publicado=Constantine 2 University |url=http://personales.upv.es/prosso/resources/BensalemPhD.pdf |formato=PhD thesis |doi=10.13140/RG.2.2.25727.84641 |capítulo=Intrinsic Plagiarism Detection: a Survey}}</ref> Os sistemas de detecção de plágio não são capazes de identificar plágio de forma confiável sem julgamento humano. Semelhanças e características do estilo de escrita são calculadas com a ajuda de modelos de documentos predefinidos e podem representar falsos positivos.<ref name=Bao06/><ref name=Clough00/><ref name="Culwin01"/><ref name=Lancaster03/><ref name=Maurer07/>


==== Eficácia dessas ferramentas em ambientes de ensino superior ====
==== Eficácia dessas ferramentas em ambientes de ensino superior ====

Um estudo foi realizado para testar a eficácia de softwares de detecção de similaridade em um ambiente de ensino superior. Uma parte do estudo designou um grupo de alunos para escrever um artigo. Esses alunos foram primeiro instruídos sobre plágio e informados de que seu trabalho deveria passar por um sistema de detecção de similaridade de conteúdo. Um segundo grupo de alunos foi designado para escrever um artigo sem qualquer informação sobre plágio. Os pesquisadores esperavam encontrar taxas mais baixas no grupo um, mas encontraram aproximadamente as mesmas taxas de plágio em ambos os grupos.<ref name="Youmans">{{Citar periódico |titulo=Does the adoption of plagiarism-detection software in higher education reduce plagiarism? |data=November 2011 |ultimo=Youmans |primeiro=Robert J. |paginas=749–761 |doi=10.1080/03075079.2010.523457 |volume=36 |journal=Studies in Higher Education}}</ref>
Um estudo foi realizado para testar a eficácia de softwares de detecção de similaridade em um ambiente de ensino superior. Uma parte do estudo designou um grupo de alunos para escrever um artigo. Esses alunos foram primeiro instruídos sobre plágio e informados de que seu trabalho deveria passar por um sistema de detecção de similaridade de conteúdo. Um segundo grupo de alunos foi designado para escrever um artigo sem qualquer informação sobre plágio. Os pesquisadores esperavam encontrar taxas mais baixas no grupo um, mas encontraram aproximadamente as mesmas taxas de plágio em ambos os grupos.<ref name="Youmans">{{citar periódico|último1 =Youmans|primeiro1 =Robert J.<!--|s2cid=144143548-->|título=Does the adoption of plagiarism-detection software in higher education reduce plagiarism?|periódico=Studies in Higher Education|data=novembro de 2011|volume=36|número=7|páginas=749–761|doi=10.1080/03075079.2010.523457}}</ref>


==== Abordagens ====
==== Abordagens ====
Linha 18: Linha 19:


===== Impressão digital =====
===== Impressão digital =====
A impressão digital é atualmente a abordagem mais amplamente aplicada à detecção de similaridade de conteúdo. Este método forma resumos representativos de documentos, selecionando um conjunto de várias substrings ([[N-grama|n-gramas]]) deles. Os conjuntos representam as [[Impressão digital (computação)|impressões digitais]] e seus elementos são chamados de minúcias. Um documento suspeito é verificado quanto a plágio computando sua impressão digital e consultando minúcias com um índice pré-computado de impressões digitais para todos os documentos de uma coleção de referência. Minúcias correspondentes às de outros documentos indicam segmentos de texto compartilhados e sugerem plágio potencial se excederem um limite de similaridade escolhido. O tempo e os recursos computacionais são fatores limitantes da impressão digital, razão pela qual esse método normalmente só compara um subconjunto de minúcias para acelerar o cálculo e permitir verificações em coleções muito grandes, como a internet.
A impressão digital é atualmente a abordagem mais amplamente aplicada à detecção de similaridade de conteúdo. Este método forma resumos representativos de documentos, selecionando um conjunto de várias substrings ([[n-grama]]s) deles. Os conjuntos representam as [[Impressão digital (computação)|impressões digitais]] e seus elementos são chamados de minúcias.<ref name=Hoad03/><ref name=Stein05/> Um documento suspeito é verificado quanto a plágio computando sua impressão digital e consultando minúcias com um índice pré-computado de impressões digitais para todos os documentos de uma coleção de referência. Minúcias correspondentes às de outros documentos indicam segmentos de texto compartilhados e sugerem plágio potencial se excederem um limite de similaridade escolhido.<ref name="Brin95"/> O tempo e os recursos computacionais são fatores limitantes da impressão digital, razão pela qual esse método normalmente só compara um subconjunto de minúcias para acelerar o cálculo e permitir verificações em coleções muito grandes, como a internet.<ref name=Hoad03 />


===== Correspondência de ''strings'' =====
===== Correspondência de ''strings'' =====
A correspondência de strings é uma abordagem predominante usada na ciência da computação. Quando aplicada ao problema de detecção de plágio, os documentos são comparados para sobreposições exatas de texto. Vários métodos foram propostos para lidar com essa tarefa, alguns dos quais foram adaptados para detecção externa de plágio. Verificar um documento suspeito nesta configuração requer o cálculo e o armazenamento de representações eficientemente comparáveis de todos os documentos na coleção de referência para compará-los aos pares. Geralmente, modelos de documento de sufixo, como [[Árvore de sufixos|árvores de sufixo]] ou vetores de sufixo, foram usados para esta tarefa. No entanto, a correspondência de substring permanece cara do ponto de vista computacional, o que a torna uma solução inviável para verificar grandes coleções de documentos.
A correspondência de strings é uma abordagem predominante usada na ciência da computação. Quando aplicada ao problema de detecção de plágio, os documentos são comparados para sobreposições exatas de texto. Vários métodos foram propostos para lidar com essa tarefa, alguns dos quais foram adaptados para detecção externa de plágio. Verificar um documento suspeito nesta configuração requer o cálculo e o armazenamento de representações eficientemente comparáveis de todos os documentos na coleção de referência para compará-los aos pares. Geralmente, modelos de documento de sufixo, como [[Árvore de sufixos|árvores de sufixo]] ou vetores de sufixo, foram usados para esta tarefa. No entanto, a correspondência de substring permanece cara do ponto de vista computacional, o que a torna uma solução inviável para verificar grandes coleções de documentos.<ref name=Monostori00/><ref name=Baker93/><ref name=Khmelev03/>


===== Saco de palavras =====
===== Saco de palavras =====
A [[Modelo saco-de-palavras|análise de saco de palavras]] representa a adoção da [[Modelo vetorial em sistemas de recuperação da informação|recuperação por espaços vetoriais]], um conceito tradicional de IR, para o domínio da detecção de similaridade de conteúdo. Os documentos são representados como um ou vários vetores, por exemplo, para diferentes partes do documento, que são usados para cálculos de similaridade em pares. O cálculo de similaridade pode então contar com a tradicional [[Similaridade por cosseno|medida de similaridade de cosseno]] ou com medidas de similaridade mais sofisticadas.
A [[Modelo saco-de-palavras|análise de saco de palavras]] representa a adoção da [[Modelo vetorial em sistemas de recuperação da informação|recuperação por espaços vetoriais]], um conceito tradicional de IR, para o domínio da detecção de similaridade de conteúdo. Os documentos são representados como um ou vários vetores, por exemplo, para diferentes partes do documento, que são usados para cálculos de similaridade em pares. O cálculo de similaridade pode então contar com a tradicional [[Similaridade por cosseno|medida de similaridade de cosseno]] ou com medidas de similaridade mais sofisticadas.<ref name=Si97/><ref name="Dreher07"/><ref name=Muhr09/>


===== Análise de citações =====
===== Análise de citações =====
A detecção de plágio baseada em citações (CbPD) depende da [[análise de citações]] e é a única abordagem para a detecção de plágio que não depende da similaridade textual. A CbPD examina as informações de citação e referência em textos para identificar [[Padrão|padrões]] semelhantes nas sequências de citação. Como tal, esta abordagem é adequada para textos científicos ou outros documentos acadêmicos que contenham citações. A análise de citações para detectar plágio é um conceito relativamente novo. Embora não tenha sido adotado por nenhum software comercial, existe um primeiro protótipo de um sistema de detecção de plágio baseado em citações. A semelhança na ordem das citações nos documentos examinados, bem como a sua proximidade, são os principais critérios usados para calcular as semelhanças dos padrões de citação. Os padrões de citação representam subsequências contendo citações não exclusivamente compartilhadas pelos documentos comparados. Para quantificar o grau de similaridade dos padrões, também são considerados fatores como o número absoluto ou a fração relativa de citações compartilhadas no padrão, bem como a probabilidade de que as citações coocorram em um documento.
A detecção de plágio baseada em citações (CbPD)<ref name=Gipp14/> depende da [[análise de citações]] e é a única abordagem para a detecção de plágio que não depende da similaridade textual.<ref name=Gipp10/> A CbPD examina as informações de citação e referência em textos para identificar [[Padrão|padrões]] semelhantes nas sequências de citação. Como tal, esta abordagem é adequada para textos científicos ou outros documentos acadêmicos que contenham citações. A análise de citações para detectar plágio é um conceito relativamente novo. Embora não tenha sido adotado por nenhum software comercial, existe um primeiro protótipo de um sistema de detecção de plágio baseado em citações.<ref name=Gipp13/> A semelhança na ordem das citações nos documentos examinados, bem como a sua proximidade, são os principais critérios usados para calcular as semelhanças dos padrões de citação. Os padrões de citação representam subsequências contendo citações não exclusivamente compartilhadas pelos documentos comparados.<ref name=Gipp10/><ref name=Gipp11a/> Para quantificar o grau de similaridade dos padrões, também são considerados fatores como o número absoluto ou a fração relativa de citações compartilhadas no padrão, bem como a probabilidade de que as citações coocorram em um documento.<ref name=Gipp10/><ref name=Gipp11a/><ref name=Gipp11/><ref name=Gipp09/>


===== Estilometria =====
===== Estilometria =====
A estilometria inclui métodos estatísticos para quantificar o estilo único de escrita de um autor e é usada principalmente para atribuição de autoria ou detecção de plágio intrínseco. A detecção de plágio por atribuição de autoria requer verificar se o estilo de redação do documento suspeito, que é supostamente escrito por determinado autor, coincide com o de um corpus de documentos do mesmo autor. A detecção de plágio intrínseco, por outro lado, descobre o plágio com base em evidências internas no documento suspeito, sem compará-lo com outros documentos. Isso é realizado construindo e comparando modelos estilométricos para diferentes segmentos de texto do documento suspeito, e passagens que são estilisticamente diferentes de outras são marcadas como potencialmente plagiadas/violadas. Embora sejam simples de extrair, os [[N-grama|n-gramas]] de caracteres estão comprovadamente entre os melhores recursos estilométricos para detecção de plágio intrínseco.<ref>{{Citar periódico |titulo=On the use of character n-grams as the only intrinsic evidence of plagiarism |ultimo=Bensalem |primeiro=Imene |ultimo2=Rosso |primeiro2=Paolo |ano=2019 |paginas=363–396 |doi=10.1007/s10579-019-09444-w |ultimo3=Chikhi |primeiro3=Salim |volume=53 |hdl-access=free |journal=Language Resources and Evaluation}}</ref>
A estilometria inclui métodos estatísticos para quantificar o estilo único de escrita de um autor<ref name=Holmes98/><ref name=Juola08/> e é usada principalmente para atribuição de autoria ou detecção de plágio intrínseco.<ref name=Stein11/> A detecção de plágio por atribuição de autoria requer verificar se o estilo de redação do documento suspeito, que é supostamente escrito por determinado autor, coincide com o de um corpus de documentos do mesmo autor. A detecção de plágio intrínseco, por outro lado, descobre o plágio com base em evidências internas no documento suspeito, sem compará-lo com outros documentos. Isso é realizado construindo e comparando modelos estilométricos para diferentes segmentos de texto do documento suspeito, e passagens que são estilisticamente diferentes de outras são marcadas como potencialmente plagiadas/violadas.<ref name=MeyerZuEissen06 /> Embora sejam simples de extrair, os [[n-grama]]s de caracteres estão comprovadamente entre os melhores recursos estilométricos para detecção de plágio intrínseco.<ref>{{citar periódico|último1 =Bensalem |primeiro1 =Imene |último2 =Rosso |primeiro2 =Paolo |último3 =Chikhi |primeiro3 =Salim |título=On the use of character n-grams as the only intrinsic evidence of plagiarism |periódico=Language Resources and Evaluation |ano=2019 |volume=53 |número=3 |páginas=363–396 |doi=10.1007/s10579-019-09444-w<!--|s2cid=86630897--> |hdl=10251/159151 |<!--hdl-access=free--> }}</ref>


==== Desempenho ====
==== Desempenho ====
Avaliações comparativas de sistemas de detecção de similaridade de conteúdo indicam que seu desempenho depende do tipo de plágio presente (veja a figura). Exceto para a análise de padrão de citações, todas as abordagens de detecção dependem da similaridade textual. Portanto, é sintomático que a precisão da detecção diminua quanto mais os casos de plágio são ofuscados.
Avaliações comparativas de sistemas de detecção de similaridade de conteúdos<ref name=Potthast09 /><ref name=HTW04/><ref name=HTW08/><ref name=HTW10/><ref name=Potthast10/><ref name=Potthast11/> indicam que seu desempenho depende do tipo de plágio presente (veja a figura). Exceto para a análise de padrão de citações, todas as abordagens de detecção dependem da similaridade textual. Portanto, é sintomático que a precisão da detecção diminua quanto mais os casos de plágio são ofuscados.
[[Ficheiro:PD_Methods_Detection_Performance.png|centro|miniaturadaimagem| Desempenho de abordagens de CaPD na detecção, em função do tipo de plágio presente.]]
[[Ficheiro:PD_Methods_Detection_Performance.png|centro|miniaturadaimagem| Desempenho de abordagens de CaPD na detecção, em função do tipo de plágio presente]]

Cópias literais, também conhecidas como plágio de copiar e colar (c&p) ou violação flagrante de direitos autorais, ou casos de plágio modestamente disfarçados, podem ser detectados com alta precisão pelos sistemas de detecção de plágio externo atuais se a fonte estiver acessível ao software. Especialmente os procedimentos de correspondência de substring alcançam um bom desempenho para plágio c&p, uma vez que normalmente usam modelos de documentos sem perdas, como [[Árvore de sufixos|árvores de sufixo]]. O desempenho de sistemas que utilizam impressão digital ou análise de saco de palavras na detecção de cópias depende da perda de informações incorrida pelo modelo de documento utilizado. Ao aplicar estratégias de chunking e seleção flexíveis, eles são mais capazes de detectar formas moderadas de plágio disfarçado em comparação com procedimentos de correspondência de substring.
Cópias literais, também conhecidas como plágio de copiar e colar (c&p) ou violação flagrante de direitos autorais, ou casos de plágio modestamente disfarçados, podem ser detectados com alta precisão pelos sistemas de detecção de plágio externo atuais se a fonte estiver acessível ao software. Especialmente os procedimentos de correspondência de substring alcançam um bom desempenho para plágio c&p, uma vez que normalmente usam modelos de documentos sem perdas, como [[Árvore de sufixos|árvores de sufixo]]. O desempenho de sistemas que utilizam impressão digital ou análise de saco de palavras na detecção de cópias depende da perda de informações incorrida pelo modelo de documento utilizado. Ao aplicar estratégias de chunking e seleção flexíveis, eles são mais capazes de detectar formas moderadas de plágio disfarçado em comparação com procedimentos de correspondência de substring.


A detecção de plágio intrínseco usando estilometria pode superar os limites da similaridade textual até certo ponto, comparando a similaridade linguística. Dado que as diferenças estilísticas entre segmentos plagiados e originais são significativas e podem ser identificadas de forma confiável, a estilometria pode ajudar na identificação de plágio disfarçado e parafraseado. As comparações estilométricas tendem a falhar nos casos em que os segmentos são fortemente parafraseados ao ponto em que se assemelham mais ao estilo de escrita pessoal do plagiador ou se um texto foi produzido por vários autores. Os resultados das Competições Internacionais de Detecção de Plágio realizadas em 2009, 2010 e 2011, bem como os experimentos realizados por Stein, indicam que a análise estilométrica parece funcionar de forma confiável apenas quando o comprimento dos documentos é de vários milhares ou dezenas de milhares de palavras, o que limita a aplicabilidade do método às configurações de CaPD.
A detecção de plágio intrínseco usando estilometria pode superar os limites da similaridade textual até certo ponto, comparando a similaridade linguística. Dado que as diferenças estilísticas entre segmentos plagiados e originais são significativas e podem ser identificadas de forma confiável, a estilometria pode ajudar na identificação de plágio disfarçado e [[paráfrase|parafraseado]].{{carece de fontes|reason= Uma referência é necessária para mostrar que a detecção de plágio intrínseco foi usada para detectar plágio parafraseado|data=setembro de 2020}} As comparações estilométricas tendem a falhar nos casos em que os segmentos são fortemente parafraseados ao ponto em que se assemelham mais ao estilo de escrita pessoal do plagiador ou se um texto foi produzido por vários autores. Os resultados das Competições Internacionais de Detecção de Plágio realizadas em 2009, 2010 e 2011,<ref name="Potthast09" /><ref name="Potthast10" /><ref name="Potthast11" /> bem como os experimentos realizados por Stein, indicam que a análise estilométrica parece funcionar de forma confiável apenas quando o comprimento dos documentos é de vários milhares ou dezenas de milhares de palavras, o que limita a aplicabilidade do método às configurações de CaPD.


Uma quantidade cada vez maior de pesquisas é realizada sobre métodos e sistemas capazes de detectar plágio traduzido. Atualmente, a detecção de plágio entre linguagens (CLPD) não é vista como uma tecnologia madura e os respectivos sistemas não têm sido capazes de alcançar resultados de detecção satisfatórios na prática.
Uma quantidade cada vez maior de pesquisas é realizada sobre métodos e sistemas capazes de detectar plágio traduzido. Atualmente, a detecção de plágio entre linguagens (CLPD) não é vista como uma tecnologia madura<ref name=Potthast10a/> e os respectivos sistemas não têm sido capazes de alcançar resultados de detecção satisfatórios na prática.<ref name=HTW10 />


A detecção de plágio baseada em citações usando a análise de padrão de citações é capaz de identificar paráfrases e traduções mais fortes com taxas de sucesso mais altas quando comparadas a outras abordagens de detecção, porque é independente de características textuais. No entanto, como a análise de padrões de citações depende da disponibilidade de informações de citações suficientes, ela se limita a textos acadêmicos. Ele permanece inferior às abordagens baseadas em texto na detecção de passagens plagiadas mais curtas, que são típicas para casos de plágio de copiar e colar ou agitar e colar; o último se refere à mistura de fragmentos ligeiramente alterados de fontes diferentes.
A detecção de plágio baseada em citações usando a análise de padrão de citações é capaz de identificar paráfrases e traduções mais fortes com taxas de sucesso mais altas quando comparadas a outras abordagens de detecção, porque é independente de características textuais.<ref name=Gipp10 /><ref name=Gipp11 /> No entanto, como a análise de padrões de citações depende da disponibilidade de informações de citações suficientes, ela se limita a textos acadêmicos. Ele permanece inferior às abordagens baseadas em texto na detecção de passagens plagiadas mais curtas, que são típicas para casos de plágio de copiar e colar ou agitar e colar; o último se refere à mistura de fragmentos ligeiramente alterados de fontes diferentes.<ref name=Weber-Wulff08/>


==== Software ====
==== Software ====
Linha 50: Linha 52:
|-
|-
| '''Escopo da pesquisa'''
| '''Escopo da pesquisa'''
| Na Internet pública, utilizando motores de busca / Bancos de dados institucionais / Bancos de dados local, específico do sistema<sup class="noprint Inline-Template Template-Fact" data-ve-ignore="true" style="white-space:nowrap;">&#x5B; ''<nowiki><span title="This claim needs references to reliable sources. (September 2011)">citação necessária</span></nowiki>'' &#x5D;</sup>. 
| Na Internet pública, utilizando motores de busca / Bancos de dados institucionais / Bancos de dados local, específico do sistema.{{carece de fontes|data=setembro de 2011}}
|-
|-
| '''Tempo de análise'''
| '''Tempo de análise'''
| Atraso entre o momento em que um documento é enviado e o momento em que os resultados são disponibilizados. <sup class="noprint Inline-Template Template-Fact" data-ve-ignore="true" style="white-space:nowrap;">&#x5B; ''<nowiki><span title="This claim needs references to reliable sources. (September 2011)">citação necessária</span></nowiki>'' &#x5D;</sup>
| Atraso entre o momento em que um documento é enviado e o momento em que os resultados são disponibilizados.{{carece de fontes|data=setembro de 2011}}
|-
|-
| '''Capacidade de documento / processamento em lote'''
| '''Capacidade de documento / processamento em lote'''
| Número de documentos que o sistema pode processar por unidade de tempo. <sup class="noprint Inline-Template Template-Fact" data-ve-ignore="true" style="white-space:nowrap;">&#x5B; ''<nowiki><span title="This claim needs references to reliable sources. (September 2011)">citação necessária</span></nowiki>'' &#x5D;</sup>
| Número de documentos que o sistema pode processar por unidade de tempo.{{carece de fontes|data=setembro de 2011}}
|-
|-
| '''Intensidade da verificação'''
| '''Intensidade da verificação'''
Linha 62: Linha 64:
|-
|-
| '''Tipo de algoritmo de comparação'''
| '''Tipo de algoritmo de comparação'''
| Os algoritmos que definem a forma usada pelo sistema para comparar documentos entre si. 
| Os algoritmos que definem a forma usada pelo sistema para comparar documentos entre si.{{carece de fontes|data=setembro de 2011}}
|-
|-
| '''Precisão e recuperação'''
| '''Precisão e recuperação'''
| Número de documentos sinalizados corretamente como plagiados em comparação com o número total de documentos sinalizados e com o número total de documentos que foram realmente plagiados. Alta precisão significa que poucos falsos positivos foram encontrados, e alta recuperação significa que poucos falsos negativos não foram detectados. <sup class="noprint Inline-Template Template-Fact" data-ve-ignore="true" style="white-space:nowrap;">&#x5B; ''<nowiki><span title="This claim needs references to reliable sources. (September 2011)">citação necessária</span></nowiki>'' &#x5D;</sup>
| Número de documentos sinalizados corretamente como plagiados em comparação com o número total de documentos sinalizados e com o número total de documentos que foram realmente plagiados. Alta precisão significa que poucos falsos positivos foram encontrados, e alta recuperação significa que poucos falsos negativos não foram detectados.{{carece de fontes|data=setembro de 2011}}
|}
|}
A maioria dos sistemas de detecção de plágio em grande escala usa grandes bancos de dados internos (além de outros recursos) que aumentam a cada documento adicional enviado para análise. No entanto, este recurso é considerado por alguns como uma violação dos direitos autorais dos alunos . 
A maioria dos sistemas de detecção de plágio em grande escala usa grandes bancos de dados internos (além de outros recursos) que aumentam a cada documento adicional enviado para análise. No entanto, este recurso é considerado por alguns como uma violação dos direitos autorais dos alunos . 


=== Em código-fonte ===
=== Em código-fonte ===
O plágio em código-fonte de programas de computador também é frequente e requer ferramentas diferentes daquelas usadas para comparações de texto em documentos. Uma pesquisa significativa tem sido dedicada ao plágio de código-fonte acadêmico.
O plágio em código-fonte de programas de computador também é frequente e requer ferramentas diferentes daquelas usadas para comparações de texto em documentos. Uma pesquisa significativa tem sido dedicada ao plágio de código-fonte acadêmico.<ref>[http://www.ics.heacademy.ac.uk/resources/assessment/plagiarism/research_sourcecode.html "Plagiarism Prevention and Detection - On-line Resources on Source Code Plagiarism"] {{Webarchive|url=https://web.archive.org/web/20121115105655/http://www.ics.heacademy.ac.uk/resources/assessment/plagiarism/research_sourcecode.html |date=15 de novembro de 2012 }}. [[Higher Education Academy]], [[University of Ulster]].</ref>


Um aspecto distinto do plágio de código-fonte é que não há fábrica de redações, como as que podem ser encontradas no plágio tradicional. Uma vez que a maioria das atribuições de programação espera que os alunos escrevam programas com requisitos muito específicos, é muito difícil encontrar programas existentes que já os atendam. Como integrar código externo geralmente é mais difícil do que escrevê-lo do zero, a maioria dos alunos que plagiam faz isso a partir de seus colegas.
Um aspecto distinto do plágio de código-fonte é que não há [[fábrica de redações]], como as que podem ser encontradas no plágio tradicional. Uma vez que a maioria das atribuições de programação espera que os alunos escrevam programas com requisitos muito específicos, é muito difícil encontrar programas existentes que já os atendam. Como integrar código externo geralmente é mais difícil do que escrevê-lo do zero, a maioria dos alunos que plagiam faz isso a partir de seus colegas.


De acordo com Roy e Cordy, <ref>Roy, Chanchal Kumar;Cordy, James R. (26 September 2007).[http://research.cs.queensu.ca/TechReports/Reports/2007-541.pdf "A Survey on Software Clone Detection Research"]. School of Computing, [[Queen's University, Canada]].</ref> algoritmos de detecção de similaridade de código-fonte podem ser classificados como baseados nas seguintes abordagens:
De acordo com Roy e Cordy,<ref>Roy, Chanchal Kumar;Cordy, James R. (26 September 2007).[http://research.cs.queensu.ca/TechReports/Reports/2007-541.pdf "A Survey on Software Clone Detection Research"]. School of Computing, [[Queen's University, Canada]].</ref> algoritmos de detecção de similaridade de código-fonte podem ser classificados como baseados nas seguintes abordagens:


* Strings - procurar correspondências textuais exatas de segmentos, por exemplo, sequências de cinco palavras. Rápido, mas pode ser confundido por mudanças nos nomes de identificadores.
* Strings - procurar correspondências textuais exatas de segmentos, por exemplo, sequências de cinco palavras. Rápido, mas pode ser confundido por mudanças nos nomes de identificadores.
Linha 88: Linha 90:
Várias complicações foram documentadas com o uso de software de correspondência de texto quando usado para detecção de plágio. Uma das preocupações mais prevalentes está centrada na questão dos direitos de propriedade intelectual. O argumento básico é que os materiais devem ser adicionados a um banco de dados para que o TMS determine efetivamente uma correspondência, mas adicionar materiais dos usuários a esse banco de dados pode infringir seus direitos de propriedade intelectual. A questão foi levantada em vários processos judiciais.
Várias complicações foram documentadas com o uso de software de correspondência de texto quando usado para detecção de plágio. Uma das preocupações mais prevalentes está centrada na questão dos direitos de propriedade intelectual. O argumento básico é que os materiais devem ser adicionados a um banco de dados para que o TMS determine efetivamente uma correspondência, mas adicionar materiais dos usuários a esse banco de dados pode infringir seus direitos de propriedade intelectual. A questão foi levantada em vários processos judiciais.


Uma complicação adicional com o uso do TMS é que o software encontra apenas correspondências precisas com outro texto. Ele não pega um trabalho mal parafraseado, por exemplo, ou a prática de plagiar pelo uso de substituições de palavras suficientes para iludir o software de detecção, o que é conhecido como rogeting.
Uma complicação adicional com o uso do TMS é que o software encontra apenas correspondências precisas com outro texto. Ele não pega um trabalho mal parafraseado, por exemplo, ou a prática de plagiar pelo uso de substituições de palavras suficientes para iludir o software de detecção, o que é conhecido como [[rogeting]].


== Ver também ==
== Ver também ==


* Categoria:detectores de plágio
* [[Categoria:detectores de plágio]]
* Comparação de software anti-plágio
* [[Comparação de software anti-plágio]]
* Hash sensível à localidade
* [[Hash sensível à localidade]]
* Pesquisa de vizinho mais próximo
* [[Pesquisa de vizinho mais próximo]]
* Detecção de paráfrase
* [[Detecção de paráfrase]]
* [[Complexidade de Kolmogorov|Complexidade de Kolmogorov#Compressão]] - usada para estimar a similaridade entre sequências de tokens em vários sistemas
* [[Complexidade de Kolmogorov|Complexidade de Kolmogorov#Compressão]] - usada para estimar a similaridade entre sequências de tokens em vários sistemas


== Referências ==
== Referências ==
{{reflist|30em|refs=
 

<ref name="Stein07">
{{citation
|último1 =Stein
|primeiro1 =Benno
|último2 =Koppel
|primeiro2 =Moshe
|último3 =Stamatatos
|primeiro3 =Efstathios
<!-- | s2cid=6379659-->
|título=Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN'07
|periódico=SIGIR Forum
| volume=41
|número=2
|páginas=68
|data=dezembro de 2007
| doi=10.1145/1328964.1328976
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2007o.pdf
|acessodata=7 de outubro de 2011
|arquivourl=https://web.archive.org/web/20120402050840/http://www.uni-weimar.de/medien/webis/publications/papers/stein_2007o.pdf
|arquivodata=2 de abril de 2012
|urlmorta= sim| df=dmy-all
}}
</ref>

<ref name=Potthast09>{{citation
|último1 = Potthast
|primeiro1 = Martin
|último2 = Stein
|primeiro2 = Benno
|último3 = Eiselt
|primeiro3 = Andreas
|último4 = Barrón-Cedeño
|primeiro4 = Alberto
|último5 = Rosso
|primeiro5 = Paolo
|contribuição= Overview of the 1st International Competition on Plagiarism Detection
|ano= 2009
|título= PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection
|series = CEUR Workshop Proceedings
|volume = 502
|páginas= 1–9
|issn = 1613-0073
|url = http://www.uni-weimar.de/medien/webis/research/events/pan-09/pan09-papers-final/potthast09-overview-first-international-competition-plagiarism-detection.pdf
|urlmorta= sim|arquivourl= https://web.archive.org/web/20120402050919/http://www.uni-weimar.de/medien/webis/research/events/pan-09/pan09-papers-final/potthast09-overview-first-international-competition-plagiarism-detection.pdf
|arquivodata=2 de abril de 2012
|df = dmy-all
}}</ref>

<ref name=Stein07a>
{{citation
|último1 =Stein
|primeiro1 =Benno
|último2 =Meyer zu Eissen
|primeiro2 =Sven
|último3 =Potthast
|primeiro3 =Martin
<!-- | s2cid=3898511-->
|contribuição=Strategies for Retrieving Plagiarized Documents
|ano=2007
|título=Proceedings 30th Annual International ACM SIGIR Conference
|páginas=825–826
|publicado=ACM
| isbn=978-1-59593-597-7
| doi=10.1145/1277741.1277928
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2007f.pdf
|acessodata=7 de outubro de 2011
|arquivourl=https://web.archive.org/web/20120402050937/http://www.uni-weimar.de/medien/webis/publications/papers/stein_2007f.pdf
|arquivodata=2 de abril de 2012
|urlmorta= sim| df=dmy-all
}}
</ref>

<ref name=MeyerZuEissen06>
{{citation
|último1 =Meyer zu Eissen
|primeiro1 =Sven
|último2 =Stein
|primeiro2 =Benno
|contribuição=Intrinsic Plagiarism Detection
|ano=2006
|título=Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, London, UK, April 10–12, 2006 Proceedings
| series=Lecture Notes in Computer Science
| volume=3936
|páginas=565–569
|publicado=Springer
| doi=10.1007/11735106_66
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2006d.pdf
| isbn=978-3-540-33347-0
| citeseerx=10.1.1.110.5366
|acessodata=7 de outubro de 2011
|arquivourl=https://web.archive.org/web/20120402051009/http://www.uni-weimar.de/medien/webis/publications/papers/stein_2006d.pdf
|arquivodata=2 de abril de 2012
|urlmorta= sim| df=dmy-all
}}
</ref>

<ref name=Bao06>{{citation
|último1 =Bao
|primeiro1 =Jun-Peng
|último2 =Malcolm
|primeiro2 =James A.
|contribuição=Text similarity in academic conference papers
|ano=2006
|título=2nd International Plagiarism Conference Proceedings
|publicado=Northumbria University Press
| url=http://www.plagiarismadvice.org/images/stories/old_site/media/2006papers/JunPengBao.pdf
|acessodata=7 de outubro de 2011
|arquivourl=https://web.archive.org/web/20180916130353/http://www.plagiarismadvice.org/images/stories/old_site/media/2006papers/JunPengBao.pdf
|arquivodata=16 de setembro de 2018
|urlmorta= sim}}</ref>

<ref name=Clough00>{{citation
|último = Clough
|primeiro = Paul
|título= Plagiarism in natural and programming languages an overview of current tools and technologies
|ano= 2000
|tipo= Technical Report
|publicado= Department of Computer Science, University of Sheffield
|url = http://www.ir.shef.ac.uk/cloughie/papers/plagiarism2000.pdf
|urlmorta= sim|arquivourl= https://web.archive.org/web/20110818161514/http://ir.shef.ac.uk/cloughie/papers/plagiarism2000.pdf
|arquivodata=18 de agosto de 2011
|df = dmy-all
}}</ref>

<ref name="Culwin01">{{citation
|último1 = Culwin
|primeiro1 = Fintan
|último2 = Lancaster
|primeiro2 = Thomas
|título= Plagiarism issues for higher education
|periódico= Vine
|volume = 31
|número= 2
|ano= 2001
|páginas= 36–41
|doi = 10.1108/03055720010804005
|url = http://www.essaycoursework.com/howtowriteessaynet/pdf/plagiarism-higheredu.pdf
|urlmorta= sim|arquivourl= https://web.archive.org/web/20120405090134/http://www.essaycoursework.com/howtowriteessaynet/pdf/plagiarism-higheredu.pdf
|arquivodata=5 de abril de 2012
|df = dmy-all
}}</ref>

<ref name=Lancaster03>{{citation
|último = Lancaster
|primeiro = Thomas
|título= Effective and Efficient Plagiarism Detection
|ano= 2003
|tipo= PhD Thesis
|publicado= School of Computing, Information Systems and Mathematics South Bank University
|url = https://www.researchgate.net/publication/228729388
}}</ref>

<ref name=Maurer07>{{citation
|último1 =Maurer |primeiro1 =Hermann |último2 =Zaka |primeiro2 =Bilal
|contribuição=Plagiarism - A Problem And How To Fight It
|ano=2007
|título=Proceedings of World Conference on Educational Multimedia, Hypermedia and Telecommunications 2007
|páginas=4451–4458
|publicado=AACE
| url=http://www.editlib.org/p/26021
}}</ref>

<ref name=Hoad03>{{citation
|último1 = Hoad
|primeiro1 = Timothy
|último2 = Zobel
|primeiro2 = Justin
|título= Methods for Identifying Versioned and Plagiarised Documents
|periódico= Journal of the American Society for Information Science and Technology
|volume = 54
|número= 3
|ano= 2003
|páginas= 203–215
|doi = 10.1002/asi.10170
|citeseerx = 10.1.1.18.2680
|url = http://goanna.cs.rmit.edu.au/~jz/fulltext/jasist-tch.pdf
|acessodata=14 de outubro de 2014
|arquivourl= https://web.archive.org/web/20150430234004/http://goanna.cs.rmit.edu.au/~jz/fulltext/jasist-tch.pdf
|arquivodata=30 de abril de 2015
|urlmorta= sim}}</ref>

<ref name=Stein05>
{{citation
|último =Stein
|primeiro =Benno
|contribuição=Fuzzy-Fingerprints for Text-Based Information Retrieval
|data=julho de 2005
|título=Proceedings of the I-KNOW '05, 5th International Conference on Knowledge Management, Graz, Austria
|páginas=572–579
|publicado=Springer, Know-Center
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2005a.pdf
|acessodata=7 de outubro de 2011
|arquivourl=https://web.archive.org/web/20120402051020/http://www.uni-weimar.de/medien/webis/publications/papers/stein_2005a.pdf
|arquivodata=2 de abril de 2012
|urlmorta= sim| df=dmy-all
}}
</ref>

<ref name="Brin95">{{citation
|último1 =Brin |primeiro1 =Sergey |último2 =Davis |primeiro2 =James
|último3 =Garcia-Molina |primeiro3 =Hector
<!-- | s2cid=8652205--> |contribuição=Copy Detection Mechanisms for Digital Documents
|ano=1995
|título=Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data
|páginas=398–409
|publicado=ACM
| isbn=978-1-59593-060-6
| doi=10.1145/223784.223855
| url=http://ilpubs.stanford.edu:8090/112/1/1995-43.pdf
| citeseerx=10.1.1.49.1567 }}</ref>

<ref name=Gipp14>{{citation
|último =Gipp|primeiro =Bela
|título=Citation-based Plagiarism Detection
|data= 2014
|publicado=Springer Vieweg Research
| isbn=978-3-658-06393-1
| url = https://www.springer.com/springer+vieweg/it+%26+informatik/k%C3%BCnstliche+intelligenz/book/978-3-658-06393-1
}}</ref>

<ref name=Gipp13>{{citation
|último1 =Gipp |primeiro1 =Bela|último2 =Meuschke|primeiro2 =Norman |último3 =Breitinger |primeiro3 =Corinna
|último4 =Lipinski |primeiro4 =Mario |último5 =Nürnberger |primeiro5 =Andreas
<!-- | s2cid=2106222-->|contribuição=Demonstration of Citation Pattern Analysis for Plagiarism Detection
|data=28 de julho de 2013 |título=Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval
|páginas=1119|publicado=ACM
| doi=10.1145/2484028.2484214
| url=http://sciplore.org/wp-content/papercite-data/pdf/gipp13.pdf
| isbn=9781450320344}}</ref>

<ref name=Monostori00>{{citation
|último1 = Monostori
|primeiro1 = Krisztián
|último2 = Zaslavsky
|primeiro2 = Arkady
|último3 = Schmidt
|primeiro3 = Heinz
<!-- |s2cid = 5796686-->
|contribuição= Document Overlap Detection System for Distributed Digital Libraries
|ano= 2000
|título= Proceedings of the fifth ACM conference on Digital libraries
|páginas= 226–227
|publicado= ACM
|isbn = 978-1-58113-231-1
|doi = 10.1145/336597.336667
|url = http://www.csse.monash.edu.au/projects/MDR/papers/dl2000-monostori.pdf
|acessodata=7 de outubro de 2011
|arquivourl= https://web.archive.org/web/20120415160915/http://www.csse.monash.edu.au/projects/MDR/papers/dl2000-monostori.pdf
|arquivodata=15 de abril de 2012
|urlmorta= sim|df = dmy-all
}}</ref>

<ref name=Baker93>{{citation
|último = Baker
|primeiro = Brenda S.
|autorlink = Brenda Baker
|título= On Finding Duplication in Strings and Software
|data=fevereiro de 1993
|tipo= Technical Report
|publicado= AT&T Bell Laboratories, NJ
|url = http://cm.bell-labs.com/cm/cs/doc/93/2-bsb-1.ps.gz
|formato= gs
|urlmorta= sim|arquivourl= https://web.archive.org/web/20071030140253/http://cm.bell-labs.com/cm/cs/doc/93/2-bsb-1.ps.gz
|arquivodata=30 de outubro de 2007
|df = dmy-all
}}</ref>

<ref name=Khmelev03>{{citation
|último1 =Khmelev
|primeiro1 =Dmitry V.
|último2 =Teahan
|primeiro2 =William J.
<!-- |s2cid=7316639 -->
|contribuição=A Repetition Based Measure for Verification of Text Collections and for Text Categorization
|ano=2003
|título=SIGIR'03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval
|páginas=[https://archive.org/details/sigir2003proceed0000inte/page/104 104–110]
|publicado=ACM
|doi=10.1145/860435.860456
|citeseerx=10.1.1.9.6155
|isbn=978-1581136463
<!-- |url-access=registration-->
|url=https://archive.org/details/sigir2003proceed0000inte/page/104
}}</ref>

<ref name=Si97>{{citation
|último1 =Si |primeiro1 =Antonio |último2 =Leong |primeiro2 =Hong Va
|último3 =Lau |primeiro3 =Rynson W. H.
<!-- | s2cid=15273799--> |contribuição=CHECK: A Document Plagiarism Detection System
|ano=1997
|título=SAC '97: Proceedings of the 1997 ACM symposium on Applied computing
|páginas= 70–77
|publicado= ACM
| isbn=978-0-89791-850-3
| doi=10.1145/331697.335176
| url=http://www.cs.cityu.edu.hk/~rynson/papers/sac97.pdf
}}</ref>

<ref name="Dreher07">{{citation
|último =Dreher |primeiro =Heinz
|título=Automatic Conceptual Analysis for Plagiarism Detection
|periódico=Information and Beyond: The Journal of Issues in Informing Science and Information Technology
| volume=4
|ano=2007
|páginas=601–614
| url=http://proceedings.informingscience.org/InSITE2007/IISITv4p601-614Dreh383.pdf
| doi=10.28945/974
}}</ref>

<ref name=Muhr09>{{citation
|último1 = Muhr
|primeiro1 = Markus
|último2 = Zechner
|primeiro2 = Mario
|último3 = Kern
|primeiro3 = Roman
|último4 = Granitzer
|primeiro4 = Michael
|contribuição= External and Intrinsic Plagiarism Detection Using Vector Space Models
|ano= 2009
|título= PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection
|series = CEUR Workshop Proceedings
|volume = 502
|páginas= 47–55
|issn = 1613-0073
|url = http://www.uni-weimar.de/medien/webis/research/events/pan-09/pan09-papers-final/zechner09-external-and-intrinsic-plagiarism-detection-using-vsm.pdf
|urlmorta= sim|arquivourl= https://web.archive.org/web/20120402051035/http://www.uni-weimar.de/medien/webis/research/events/pan-09/pan09-papers-final/zechner09-external-and-intrinsic-plagiarism-detection-using-vsm.pdf
|arquivodata=2 de abril de 2012
|df = dmy-all
}}</ref>

<ref name=Gipp09>{{citation
|último1 =Gipp
|primeiro1 =Bela
|último2 =Beel
|primeiro2 =Jöran
|contribuição=Citation Proximity Analysis (CPA) - A new approach for identifying related work based on Co-Citation Analysis
|data=julho de 2009
|título=Proceedings of the 12th International Conference on Scientometrics and Informetrics (ISSI'09)
|páginas=571–575
|publicado=International Society for Scientometrics and Informetrics
| issn=2175-1935
| url=http://www.sciplore.org/publications/2009-Citation_Proximity_Analysis_(CPA)_-_A_new_approach_for_identifying_related_work_based_on_Co-Citation_Analysis_--_preprint.pdf
|acessodata=7 de outubro de 2011
|arquivourl=https://web.archive.org/web/20120913193346/http://www.sciplore.org/publications/2009-Citation_Proximity_Analysis_(CPA)_-_A_new_approach_for_identifying_related_work_based_on_Co-Citation_Analysis_--_preprint.pdf
|arquivodata=13 de setembro de 2012
|urlmorta= sim}}</ref>

<ref name=Gipp10>{{citation
|último1 = Gipp
|primeiro1 = Bela
|último2 = Beel
|primeiro2 = Jöran
<!-- |s2cid = 2668037 -->
|contribuição= Citation Based Plagiarism Detection - A New Approach to Identifying Plagiarized Work Language Independently
|data=junho de 2010
|título= Proceedings of the 21st ACM Conference on Hypertext and Hypermedia (HT'10)
|páginas= 273–274
|publicado= ACM
|isbn = 978-1-4503-0041-4
|doi = 10.1145/1810617.1810671
|url = http://www.sciplore.org/publications/2010-Citation_Based_Plagiarism_Detection_-_A_New_Approach_to_Identify_Plagiarized_Work_Language_Independently_-_preprint.pdf
|acessodata=21 de outubro de 2011
|arquivourl= https://web.archive.org/web/20120425044631/http://www.sciplore.org/publications/2010-Citation_Based_Plagiarism_Detection_-_A_New_Approach_to_Identify_Plagiarized_Work_Language_Independently_-_preprint.pdf
|arquivodata=25 de abril de 2012
|urlmorta= sim}}</ref>

<ref name=Gipp11>{{citation
|último1 =Gipp
|primeiro1 =Bela
|último2 =Meuschke
|primeiro2 =Norman
|último3 =Beel
|primeiro3 =Jöran
<!-- | s2cid=3683238-->
|contribuição=Comparative Evaluation of Text- and Citation-based Plagiarism Detection Approaches using GuttenPlag
|data=junho de 2011
|título=Proceedings of 11th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL'11)
|páginas=255–258
|publicado=ACM
| isbn=978-1-4503-0744-4
| doi=10.1145/1998076.1998124
| url=http://www.sciplore.org/publications/2011-Comparative_Evaluation_of_Text-_and_Citation-based_Plagiarism_Detection_Approaches_using_GuttenPlag.pdf
| citeseerx=10.1.1.736.4865
|acessodata=7 de outubro de 2011
|arquivourl=https://web.archive.org/web/20120425044618/http://www.sciplore.org/publications/2011-Comparative_Evaluation_of_Text-_and_Citation-based_Plagiarism_Detection_Approaches_using_GuttenPlag.pdf
|arquivodata=25 de abril de 2012
|urlmorta= sim}}</ref>

<ref name=Gipp11a>{{citation
|último1 = Gipp
|primeiro1 = Bela
|último2 = Meuschke
|primeiro2 = Norman
<!-- |s2cid = 207190305 -->
|contribuição= Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence
|data=setembro de 2011
|título= Proceedings of the 11th ACM Symposium on Document Engineering (DocEng2011)
|páginas= 249–258
|publicado= ACM
|isbn = 978-1-4503-0863-2
|doi = 10.1145/2034691.2034741
|url = http://www.sciplore.org/publications/2011-Citation_Pattern_Matching_Algorithms_for_Citation-based_Plagiarism_Detection--Greedy_Citation_Tiling,_Citation_Chunking_and_Longest_Common_Citation_Sequence.pdf
|acessodata=7 de outubro de 2011
|arquivourl= https://web.archive.org/web/20120425044532/http://www.sciplore.org/publications/2011-Citation_Pattern_Matching_Algorithms_for_Citation-based_Plagiarism_Detection--Greedy_Citation_Tiling,_Citation_Chunking_and_Longest_Common_Citation_Sequence.pdf
|arquivodata=25 de abril de 2012
|urlmorta= sim}}</ref>

<ref name=Holmes98>{{citation
|último =Holmes |primeiro =David I.
|título=The Evolution of Stylometry in Humanities Scholarship
|periódico=Literary and Linguistic Computing
| volume=13
|número=3
|ano=1998
|páginas=111–117
| doi=10.1093/llc/13.3.111
}}</ref>

<ref name=Juola08>{{citation
|último =Juola |primeiro =Patrick
|título=Authorship Attribution
|periódico=Foundations and Trends in Information Retrieval
| volume=1
|número=3
|ano=2006
|páginas=233–334
| issn=1554-0669
| doi=10.1561/1500000005
| url=http://www.mathcs.duq.edu/~juola/papers.d/fnt-aa.pdf
| citeseerx=10.1.1.219.1605
}}</ref>

<ref name=HTW04>
{{citation
| url=http://plagiat.htw-berlin.de/ff-alt/05hilfen/programme.html
|título=Portal Plagiat - Softwaretest 2004
|língua=German
|publicado=HTW University of Applied Sciences Berlin
|acessodata=6 de outubro de 2011
|arquivourl=https://web.archive.org/web/20111025051028/http://plagiat.htw-berlin.de/ff-alt/05hilfen/programme.html
|arquivodata=25 de outubro de 2011
|urlmorta= sim| df=dmy-all
}}
</ref>

<ref name=HTW08>{{citation
| url=http://plagiat.htw-berlin.de/software/2008/
|título=Portal Plagiat - Softwaretest 2008
|língua= German
|publicado=HTW University of Applied Sciences Berlin
|acessodata=6 de outubro de 2011
}}</ref>

<ref name=HTW10>{{citation
| url=http://plagiat.htw-berlin.de/software/2010-2/
|título=Portal Plagiat - Softwaretest 2010
|língua= German
|publicado=HTW University of Applied Sciences Berlin
|acessodata=6 de outubro de 2011
}}</ref>

<ref name=Potthast10>
{{citation |último1 =Potthast |primeiro1 =Martin |último2 =Barrón-Cedeño |primeiro2 =Alberto |último3 =Eiselt |primeiro3 =Andreas |último4 =Stein |primeiro4 =Benno |último5 =Rosso |primeiro5 =Paolo |contribuição=Overview of the 2nd International Competition on Plagiarism Detection |ano=2010 |título=Notebook Papers of CLEF 2010 LABs and Workshops, 22–23 September, Padua, Italy | url=http://clef2010.org/resources/proceedings/clef2010labs_submission_125.pdf |acessodata=7 de outubro de 2011 |arquivourl=https://web.archive.org/web/20120403191349/http://clef2010.org/resources/proceedings/clef2010labs_submission_125.pdf |arquivodata=3 de abril de 2012 |urlmorta= sim| df=dmy-all }}
</ref>

<ref name=Potthast11>
{{citation
|último1 =Potthast
|primeiro1 =Martin
|último2 =Eiselt
|primeiro2 =Andreas
|último3 =Barrón-Cedeño
|primeiro3 =Alberto
|último4 =Stein
|primeiro4 =Benno
|último5 =Rosso
|primeiro5 =Paolo
|contribuição=Overview of the 3rd International Competition on Plagiarism Detection
|ano=2011
|título=Notebook Papers of CLEF 2011 LABs and Workshops, 19–22 September, Amsterdam, Netherlands
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2011t.pdf
|acessodata=7 de outubro de 2011
|arquivourl=https://web.archive.org/web/20120402051053/http://www.uni-weimar.de/medien/webis/publications/papers/stein_2011t.pdf
|arquivodata=2 de abril de 2012
|urlmorta= sim| df=dmy-all
}}
</ref>

<ref name=Stein11>{{citation
|último1 =Stein
|primeiro1 =Benno
|último2 =Lipka
|primeiro2 =Nedim
|último3 =Prettenhofer
|primeiro3 =Peter
<!-- | s2cid=13426762-->
|título=Intrinsic Plagiarism Analysis
|periódico=Language Resources and Evaluation
| volume=45
|número=1
|ano=2011
|páginas=63–82
| issn=1574-020X
| doi=10.1007/s10579-010-9115-y
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2011a.pdf
|acessodata=7 de outubro de 2011
|arquivourl=https://web.archive.org/web/20120402051105/http://www.uni-weimar.de/medien/webis/publications/papers/stein_2011a.pdf
|arquivodata=2 de abril de 2012
|urlmorta= sim}}</ref>

<ref name=Potthast10a>
{{citation
|último1 =Potthast
|primeiro1 =Martin
|último2 =Barrón-Cedeño
|primeiro2 =Alberto
|último3 =Stein
|primeiro3 =Benno
|último4 =Rosso
|primeiro4 =Paolo
<!-- | s2cid=14942239-->
|título=Cross-Language Plagiarism Detection
|periódico=Language Resources and Evaluation
| volume=45
|número=1
|ano=2011
|páginas=45–62
| issn=1574-020X
| doi=10.1007/s10579-009-9114-z
| hdl=10251/37479
| url=http://www.uni-weimar.de/medien/webis/publications/papers/stein_2011b.pdf
|acessodata=7 de outubro de 2011
|arquivourl=https://web.archive.org/web/20131126010114/http://www.uni-weimar.de/medien/webis/publications/papers/stein_2011b.pdf
|arquivodata=26 de novembro de 2013
|urlmorta= sim| df=dmy-all
}}
</ref>

<ref name=Weber-Wulff08>{{citation
|último =Weber-Wulff |primeiro =Debora
|contribuição=On the Utility of Plagiarism Detection Software
|data=junho de 2008
|título=In Proceedings of the 3rd International Plagiarism Conference, Newcastle Upon Tyne
| url=http://archive.plagiarismadvice.org/images/stories/old_site/media/2008papers/P21%20Weber-Wulff.pdf
}}</ref>

}}<!-- closure for refs= -->


== Literatura ==
== Literatura ==

Revisão das 11h47min de 18 de abril de 2021

A detecção de plágio ou detecção de similaridade de conteúdo é o processo de localização de ocorrências de plágio e/ou violação de direitos autorais em uma obra ou documento. O uso generalizado de computadores e o advento da Internet tornaram mais fácil plagiar o trabalho de terceiros.[1][2]

A detecção de plágio pode ser realizada de várias maneiras. A detecção humana é a forma mais tradicional de identificar plágio em trabalhos escritos. Esta pode ser uma tarefa longa e demorada para o leitor[2] e também pode resultar em inconsistências na forma como o plágio é identificado dentro de uma organização.[3] Softwares de correspondência de texto (TMS), também conhecidos como "softwares de detecção de plágio" ou softwares "anti-plágio", tornaram-se amplamente disponíveis, na forma de produtos disponíveis comercialmente e também de software de código aberto[exemplo necessário]. Na verdade, TMS não detectam o plágio em si, mas, em vez disso, encontram passagens específicas de texto em um documento que correspondem ao texto de outro documento.

Detecção de plágio assistida por software

A detecção de plágio assistida por computador (CaPD) é uma tarefa de recuperação de informações (IR) suportada por sistemas de IR especializados, os quais são denominados sistemas de detecção de plágio (PDS) ou sistemas de detecção de similaridade de documentos. Uma revisão sistemática da literatura de 2019[4] apresenta uma visão geral dos métodos de detecção de plágio de última geração.

Em documentos de texto

Os sistemas de detecção de similaridade de texto implementam uma de duas abordagens de detecção genéricas, uma sendo externa e a outra intrínseca.[5] Os sistemas de detecção externa comparam um documento suspeito com uma coleção de referência, que é um conjunto de documentos considerados genuínos.[6] Com base em um modelo de documento escolhido e critérios de similaridade predefinidos, a tarefa de detecção é recuperar todos os documentos que contenham texto cuja similaridade a algum texto do documento suspeito é superior a um limite escolhido.[7] Os sistemas de detecção de plágio intrínsecos analisam apenas o texto a ser avaliado, sem realizar comparações com documentos externos. Esta abordagem visa reconhecer as mudanças no estilo de escrita único de um autor como um indicador de potencial plágio.[8][9] Os sistemas de detecção de plágio não são capazes de identificar plágio de forma confiável sem julgamento humano. Semelhanças e características do estilo de escrita são calculadas com a ajuda de modelos de documentos predefinidos e podem representar falsos positivos.[10][11][12][13][14]

Eficácia dessas ferramentas em ambientes de ensino superior

Um estudo foi realizado para testar a eficácia de softwares de detecção de similaridade em um ambiente de ensino superior. Uma parte do estudo designou um grupo de alunos para escrever um artigo. Esses alunos foram primeiro instruídos sobre plágio e informados de que seu trabalho deveria passar por um sistema de detecção de similaridade de conteúdo. Um segundo grupo de alunos foi designado para escrever um artigo sem qualquer informação sobre plágio. Os pesquisadores esperavam encontrar taxas mais baixas no grupo um, mas encontraram aproximadamente as mesmas taxas de plágio em ambos os grupos.[15]

Abordagens

A figura abaixo representa uma classificação de todas as abordagens de detecção atualmente em uso na detecção de similaridade de conteúdo assistida por computador. As abordagens são caracterizadas pelo tipo de avaliação de similaridade que realizam: global ou local. As abordagens de avaliação de similaridade global usam as características retiradas de partes maiores do texto ou do documento como um todo para calcular a similaridade, enquanto os métodos locais examinam apenas segmentos de texto pré-selecionados como entrada.

Classificação dos métodos de detecção de plágio assistidos por computador
Impressão digital

A impressão digital é atualmente a abordagem mais amplamente aplicada à detecção de similaridade de conteúdo. Este método forma resumos representativos de documentos, selecionando um conjunto de várias substrings (n-gramas) deles. Os conjuntos representam as impressões digitais e seus elementos são chamados de minúcias.[16][17] Um documento suspeito é verificado quanto a plágio computando sua impressão digital e consultando minúcias com um índice pré-computado de impressões digitais para todos os documentos de uma coleção de referência. Minúcias correspondentes às de outros documentos indicam segmentos de texto compartilhados e sugerem plágio potencial se excederem um limite de similaridade escolhido.[18] O tempo e os recursos computacionais são fatores limitantes da impressão digital, razão pela qual esse método normalmente só compara um subconjunto de minúcias para acelerar o cálculo e permitir verificações em coleções muito grandes, como a internet.[16]

Correspondência de strings

A correspondência de strings é uma abordagem predominante usada na ciência da computação. Quando aplicada ao problema de detecção de plágio, os documentos são comparados para sobreposições exatas de texto. Vários métodos foram propostos para lidar com essa tarefa, alguns dos quais foram adaptados para detecção externa de plágio. Verificar um documento suspeito nesta configuração requer o cálculo e o armazenamento de representações eficientemente comparáveis de todos os documentos na coleção de referência para compará-los aos pares. Geralmente, modelos de documento de sufixo, como árvores de sufixo ou vetores de sufixo, foram usados para esta tarefa. No entanto, a correspondência de substring permanece cara do ponto de vista computacional, o que a torna uma solução inviável para verificar grandes coleções de documentos.[19][20][21]

Saco de palavras

A análise de saco de palavras representa a adoção da recuperação por espaços vetoriais, um conceito tradicional de IR, para o domínio da detecção de similaridade de conteúdo. Os documentos são representados como um ou vários vetores, por exemplo, para diferentes partes do documento, que são usados para cálculos de similaridade em pares. O cálculo de similaridade pode então contar com a tradicional medida de similaridade de cosseno ou com medidas de similaridade mais sofisticadas.[22][23][24]

Análise de citações

A detecção de plágio baseada em citações (CbPD)[25] depende da análise de citações e é a única abordagem para a detecção de plágio que não depende da similaridade textual.[26] A CbPD examina as informações de citação e referência em textos para identificar padrões semelhantes nas sequências de citação. Como tal, esta abordagem é adequada para textos científicos ou outros documentos acadêmicos que contenham citações. A análise de citações para detectar plágio é um conceito relativamente novo. Embora não tenha sido adotado por nenhum software comercial, existe um primeiro protótipo de um sistema de detecção de plágio baseado em citações.[27] A semelhança na ordem das citações nos documentos examinados, bem como a sua proximidade, são os principais critérios usados para calcular as semelhanças dos padrões de citação. Os padrões de citação representam subsequências contendo citações não exclusivamente compartilhadas pelos documentos comparados.[26][28] Para quantificar o grau de similaridade dos padrões, também são considerados fatores como o número absoluto ou a fração relativa de citações compartilhadas no padrão, bem como a probabilidade de que as citações coocorram em um documento.[26][28][29][30]

Estilometria

A estilometria inclui métodos estatísticos para quantificar o estilo único de escrita de um autor[31][32] e é usada principalmente para atribuição de autoria ou detecção de plágio intrínseco.[33] A detecção de plágio por atribuição de autoria requer verificar se o estilo de redação do documento suspeito, que é supostamente escrito por determinado autor, coincide com o de um corpus de documentos do mesmo autor. A detecção de plágio intrínseco, por outro lado, descobre o plágio com base em evidências internas no documento suspeito, sem compará-lo com outros documentos. Isso é realizado construindo e comparando modelos estilométricos para diferentes segmentos de texto do documento suspeito, e passagens que são estilisticamente diferentes de outras são marcadas como potencialmente plagiadas/violadas.[8] Embora sejam simples de extrair, os n-gramas de caracteres estão comprovadamente entre os melhores recursos estilométricos para detecção de plágio intrínseco.[34]

Desempenho

Avaliações comparativas de sistemas de detecção de similaridade de conteúdos[6][35][36][37][38][39] indicam que seu desempenho depende do tipo de plágio presente (veja a figura). Exceto para a análise de padrão de citações, todas as abordagens de detecção dependem da similaridade textual. Portanto, é sintomático que a precisão da detecção diminua quanto mais os casos de plágio são ofuscados.

Desempenho de abordagens de CaPD na detecção, em função do tipo de plágio presente

Cópias literais, também conhecidas como plágio de copiar e colar (c&p) ou violação flagrante de direitos autorais, ou casos de plágio modestamente disfarçados, podem ser detectados com alta precisão pelos sistemas de detecção de plágio externo atuais se a fonte estiver acessível ao software. Especialmente os procedimentos de correspondência de substring alcançam um bom desempenho para plágio c&p, uma vez que normalmente usam modelos de documentos sem perdas, como árvores de sufixo. O desempenho de sistemas que utilizam impressão digital ou análise de saco de palavras na detecção de cópias depende da perda de informações incorrida pelo modelo de documento utilizado. Ao aplicar estratégias de chunking e seleção flexíveis, eles são mais capazes de detectar formas moderadas de plágio disfarçado em comparação com procedimentos de correspondência de substring.

A detecção de plágio intrínseco usando estilometria pode superar os limites da similaridade textual até certo ponto, comparando a similaridade linguística. Dado que as diferenças estilísticas entre segmentos plagiados e originais são significativas e podem ser identificadas de forma confiável, a estilometria pode ajudar na identificação de plágio disfarçado e parafraseado.[carece de fontes?] As comparações estilométricas tendem a falhar nos casos em que os segmentos são fortemente parafraseados ao ponto em que se assemelham mais ao estilo de escrita pessoal do plagiador ou se um texto foi produzido por vários autores. Os resultados das Competições Internacionais de Detecção de Plágio realizadas em 2009, 2010 e 2011,[6][38][39] bem como os experimentos realizados por Stein, indicam que a análise estilométrica parece funcionar de forma confiável apenas quando o comprimento dos documentos é de vários milhares ou dezenas de milhares de palavras, o que limita a aplicabilidade do método às configurações de CaPD.

Uma quantidade cada vez maior de pesquisas é realizada sobre métodos e sistemas capazes de detectar plágio traduzido. Atualmente, a detecção de plágio entre linguagens (CLPD) não é vista como uma tecnologia madura[40] e os respectivos sistemas não têm sido capazes de alcançar resultados de detecção satisfatórios na prática.[37]

A detecção de plágio baseada em citações usando a análise de padrão de citações é capaz de identificar paráfrases e traduções mais fortes com taxas de sucesso mais altas quando comparadas a outras abordagens de detecção, porque é independente de características textuais.[26][29] No entanto, como a análise de padrões de citações depende da disponibilidade de informações de citações suficientes, ela se limita a textos acadêmicos. Ele permanece inferior às abordagens baseadas em texto na detecção de passagens plagiadas mais curtas, que são típicas para casos de plágio de copiar e colar ou agitar e colar; o último se refere à mistura de fragmentos ligeiramente alterados de fontes diferentes.[41]

Software

O projeto de software de detecção de similaridade de conteúdo para uso com documentos de texto é caracterizado por uma série de fatores: 

Fator Descrição e alternativas
Escopo da pesquisa Na Internet pública, utilizando motores de busca / Bancos de dados institucionais / Bancos de dados local, específico do sistema.[carece de fontes?]
Tempo de análise Atraso entre o momento em que um documento é enviado e o momento em que os resultados são disponibilizados.[carece de fontes?]
Capacidade de documento / processamento em lote Número de documentos que o sistema pode processar por unidade de tempo.[carece de fontes?]
Intensidade da verificação Com que frequência e para quais tipos de fragmentos de documento (parágrafos, frases, sequências de palavras de comprimento fixo) o sistema consulta recursos externos, como mecanismos de pesquisa.
Tipo de algoritmo de comparação Os algoritmos que definem a forma usada pelo sistema para comparar documentos entre si.[carece de fontes?]
Precisão e recuperação Número de documentos sinalizados corretamente como plagiados em comparação com o número total de documentos sinalizados e com o número total de documentos que foram realmente plagiados. Alta precisão significa que poucos falsos positivos foram encontrados, e alta recuperação significa que poucos falsos negativos não foram detectados.[carece de fontes?]

A maioria dos sistemas de detecção de plágio em grande escala usa grandes bancos de dados internos (além de outros recursos) que aumentam a cada documento adicional enviado para análise. No entanto, este recurso é considerado por alguns como uma violação dos direitos autorais dos alunos . 

Em código-fonte

O plágio em código-fonte de programas de computador também é frequente e requer ferramentas diferentes daquelas usadas para comparações de texto em documentos. Uma pesquisa significativa tem sido dedicada ao plágio de código-fonte acadêmico.[42]

Um aspecto distinto do plágio de código-fonte é que não há fábrica de redações, como as que podem ser encontradas no plágio tradicional. Uma vez que a maioria das atribuições de programação espera que os alunos escrevam programas com requisitos muito específicos, é muito difícil encontrar programas existentes que já os atendam. Como integrar código externo geralmente é mais difícil do que escrevê-lo do zero, a maioria dos alunos que plagiam faz isso a partir de seus colegas.

De acordo com Roy e Cordy,[43] algoritmos de detecção de similaridade de código-fonte podem ser classificados como baseados nas seguintes abordagens:

  • Strings - procurar correspondências textuais exatas de segmentos, por exemplo, sequências de cinco palavras. Rápido, mas pode ser confundido por mudanças nos nomes de identificadores.
  • Tokens - como acontece com strings, mas usando um lexer para converter o programa em tokens primeiro. Isso descarta espaços em branco, comentários e nomes de identificadores, tornando o sistema mais robusto para substituições de texto simples. A maioria dos sistemas de detecção de plágio acadêmico trabalha nesse nível, usando diferentes algoritmos para medir a similaridade entre sequências de tokens.
  • Árvores de análise - construir e comparar árvores de análise. Isso permite que semelhanças de nível superior sejam detectadas. Por exemplo, a comparação de árvore pode normalizar declarações condicionais e detectar construções equivalentes como semelhantes entre si.
  • Program Dependency Graphs (PDGs) - um PDG captura o fluxo real de controle em um programa e permite que equivalências de nível muito mais alto sejam localizadas, com maior gasto em complexidade e tempo de cálculo.
  • Métricas - as métricas capturam 'pontuações' de segmentos de código de acordo com certos critérios; por exemplo, "o número de loops e condicionais" ou "o número de variáveis diferentes usadas". As métricas são simples de calcular e podem ser comparadas rapidamente, mas também podem levar a falsos positivos: dois fragmentos com as mesmas pontuações em um conjunto de métricas podem fazer coisas totalmente diferentes.
  • Abordagens híbridas - por exemplo, árvores de análise + árvores de sufixo podem combinar a capacidade de detecção de árvores de análise com a velocidade oferecida pelas árvores de sufixo, um tipo de estrutura de dados de correspondência de strings.

A classificação anterior foi desenvolvida para refatoração de código, e não para detecção de plágio acadêmico (um objetivo importante da refatoração é evitar código duplicado, conhecido na literatura como clones de código). As abordagens acima são eficazes contra diferentes níveis de similaridade; similaridade de baixo nível refere-se a texto idêntico, enquanto similaridade de alto nível pode ser devida a especificações semelhantes. Em um ambiente acadêmico, quando se espera que todos os alunos codifiquem com as mesmas especificações, um código funcionalmente equivalente (com similaridade de alto nível) é inteiramente esperado, e apenas a similaridade de baixo nível é considerada prova de trapaça.

Complicações do uso de software de correspondência de texto para detecção de plágio

Várias complicações foram documentadas com o uso de software de correspondência de texto quando usado para detecção de plágio. Uma das preocupações mais prevalentes está centrada na questão dos direitos de propriedade intelectual. O argumento básico é que os materiais devem ser adicionados a um banco de dados para que o TMS determine efetivamente uma correspondência, mas adicionar materiais dos usuários a esse banco de dados pode infringir seus direitos de propriedade intelectual. A questão foi levantada em vários processos judiciais.

Uma complicação adicional com o uso do TMS é que o software encontra apenas correspondências precisas com outro texto. Ele não pega um trabalho mal parafraseado, por exemplo, ou a prática de plagiar pelo uso de substituições de palavras suficientes para iludir o software de detecção, o que é conhecido como rogeting.

Ver também

Referências

  1. «Download Limit Exceeded». citeseerx.ist.psu.edu 
  2. a b Bretag, T., & Mahmud, S. (2009). A model for determining student plagiarism: Electronic detection and academic judgement. Journal of University Teaching & Learning Practice, 6(1). Retrieved from http://ro.uow.edu.au/jutlp/vol6/iss1/6
  3. Macdonald, R., & Carroll, J. (2006). Plagiarism—a complex issue requiring a holistic institutional approach. Assessment & Evaluation in Higher Education, 31(2), 233–245. doi:10.1080/02602930500262536
  4. Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (16 de outubro de 2019). «Academic Plagiarism Detection: A Systematic Literature Review». ACM Computing Surveys (em inglês). 52 (6): 1–42. doi:10.1145/3345317 
  5. Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios (dezembro de 2007), «Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN'07» (PDF), SIGIR Forum, 41 (2), doi:10.1145/1328964.1328976, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  6. a b c Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo (2009), «Overview of the 1st International Competition on Plagiarism Detection», PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection (PDF), ISSN 1613-0073, CEUR Workshop Proceedings, 502, pp. 1–9, arquivado do original (PDF) em 2 de abril de 2012 
  7. Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin (2007), «Strategies for Retrieving Plagiarized Documents», Proceedings 30th Annual International ACM SIGIR Conference (PDF), ISBN 978-1-59593-597-7, ACM, pp. 825–826, doi:10.1145/1277741.1277928, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  8. a b Meyer zu Eissen, Sven; Stein, Benno (2006), «Intrinsic Plagiarism Detection», Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, London, UK, April 10–12, 2006 Proceedings (PDF), ISBN 978-3-540-33347-0, Lecture Notes in Computer Science, 3936, Springer, pp. 565–569, CiteSeerX 10.1.1.110.5366Acessível livremente, doi:10.1007/11735106_66, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  9. Bensalem, Imene (2020). «Intrinsic Plagiarism Detection: a Survey». Plagiarism Detection: A focus on the Intrinsic Approach and the Evaluation in the Arabic Language (PhD thesis). [S.l.]: Constantine 2 University. doi:10.13140/RG.2.2.25727.84641 
  10. Bao, Jun-Peng; Malcolm, James A. (2006), «Text similarity in academic conference papers», 2nd International Plagiarism Conference Proceedings (PDF), Northumbria University Press, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 16 de setembro de 2018 
  11. Clough, Paul (2000), Plagiarism in natural and programming languages an overview of current tools and technologies (PDF) (Technical Report), Department of Computer Science, University of Sheffield, arquivado do original (PDF) em 18 de agosto de 2011 
  12. Culwin, Fintan; Lancaster, Thomas (2001), «Plagiarism issues for higher education» (PDF), Vine, 31 (2): 36–41, doi:10.1108/03055720010804005, arquivado do original (PDF) em 5 de abril de 2012 
  13. Lancaster, Thomas (2003), Effective and Efficient Plagiarism Detection (PhD Thesis), School of Computing, Information Systems and Mathematics South Bank University 
  14. Maurer, Hermann; Zaka, Bilal (2007), «Plagiarism - A Problem And How To Fight It», Proceedings of World Conference on Educational Multimedia, Hypermedia and Telecommunications 2007, AACE, pp. 4451–4458 
  15. Youmans, Robert J. (novembro de 2011). «Does the adoption of plagiarism-detection software in higher education reduce plagiarism?». Studies in Higher Education. 36 (7): 749–761. doi:10.1080/03075079.2010.523457 
  16. a b Hoad, Timothy; Zobel, Justin (2003), «Methods for Identifying Versioned and Plagiarised Documents» (PDF), Journal of the American Society for Information Science and Technology, 54 (3): 203–215, CiteSeerX 10.1.1.18.2680Acessível livremente, doi:10.1002/asi.10170, consultado em 14 de outubro de 2014, arquivado do original (PDF) em 30 de abril de 2015 
  17. Stein, Benno (julho de 2005), «Fuzzy-Fingerprints for Text-Based Information Retrieval», Proceedings of the I-KNOW '05, 5th International Conference on Knowledge Management, Graz, Austria (PDF), Springer, Know-Center, pp. 572–579, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  18. Brin, Sergey; Davis, James; Garcia-Molina, Hector (1995), «Copy Detection Mechanisms for Digital Documents», Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data (PDF), ISBN 978-1-59593-060-6, ACM, pp. 398–409, CiteSeerX 10.1.1.49.1567Acessível livremente, doi:10.1145/223784.223855 
  19. Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz (2000), «Document Overlap Detection System for Distributed Digital Libraries», Proceedings of the fifth ACM conference on Digital libraries (PDF), ISBN 978-1-58113-231-1, ACM, pp. 226–227, doi:10.1145/336597.336667, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 15 de abril de 2012 
  20. Baker, Brenda S. (fevereiro de 1993), On Finding Duplication in Strings and Software (Technical Report), AT&T Bell Laboratories, NJ, arquivado do original (gs) em 30 de outubro de 2007 
  21. Khmelev, Dmitry V.; Teahan, William J. (2003), «A Repetition Based Measure for Verification of Text Collections and for Text Categorization», SIGIR'03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval, ISBN 978-1581136463, ACM, pp. 104–110, CiteSeerX 10.1.1.9.6155Acessível livremente, doi:10.1145/860435.860456 
  22. Si, Antonio; Leong, Hong Va; Lau, Rynson W. H. (1997), «CHECK: A Document Plagiarism Detection System», SAC '97: Proceedings of the 1997 ACM symposium on Applied computing (PDF), ISBN 978-0-89791-850-3, ACM, pp. 70–77, doi:10.1145/331697.335176 
  23. Dreher, Heinz (2007), «Automatic Conceptual Analysis for Plagiarism Detection» (PDF), Information and Beyond: The Journal of Issues in Informing Science and Information Technology, 4: 601–614, doi:10.28945/974 
  24. Muhr, Markus; Zechner, Mario; Kern, Roman; Granitzer, Michael (2009), «External and Intrinsic Plagiarism Detection Using Vector Space Models», PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection (PDF), ISSN 1613-0073, CEUR Workshop Proceedings, 502, pp. 47–55, arquivado do original (PDF) em 2 de abril de 2012 
  25. Gipp, Bela (2014), Citation-based Plagiarism Detection, ISBN 978-3-658-06393-1, Springer Vieweg Research 
  26. a b c d Gipp, Bela; Beel, Jöran (junho de 2010), «Citation Based Plagiarism Detection - A New Approach to Identifying Plagiarized Work Language Independently», Proceedings of the 21st ACM Conference on Hypertext and Hypermedia (HT'10) (PDF), ISBN 978-1-4503-0041-4, ACM, pp. 273–274, doi:10.1145/1810617.1810671, consultado em 21 de outubro de 2011, arquivado do original (PDF) em 25 de abril de 2012 
  27. Gipp, Bela; Meuschke, Norman; Breitinger, Corinna; Lipinski, Mario; Nürnberger, Andreas (28 de julho de 2013), «Demonstration of Citation Pattern Analysis for Plagiarism Detection», Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval (PDF), ISBN 9781450320344, ACM, doi:10.1145/2484028.2484214 
  28. a b Gipp, Bela; Meuschke, Norman (setembro de 2011), «Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence», Proceedings of the 11th ACM Symposium on Document Engineering (DocEng2011) (PDF), ISBN 978-1-4503-0863-2, ACM, pp. 249–258, doi:10.1145/2034691.2034741, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 25 de abril de 2012 
  29. a b Gipp, Bela; Meuschke, Norman; Beel, Jöran (junho de 2011), «Comparative Evaluation of Text- and Citation-based Plagiarism Detection Approaches using GuttenPlag», Proceedings of 11th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL'11) (PDF), ISBN 978-1-4503-0744-4, ACM, pp. 255–258, CiteSeerX 10.1.1.736.4865Acessível livremente, doi:10.1145/1998076.1998124, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 25 de abril de 2012 
  30. Gipp, Bela; Beel, Jöran (julho de 2009), «Citation Proximity Analysis (CPA) - A new approach for identifying related work based on Co-Citation Analysis», Proceedings of the 12th International Conference on Scientometrics and Informetrics (ISSI'09) (PDF), International Society for Scientometrics and Informetrics, ISSN 2175-1935, pp. 571–575, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 13 de setembro de 2012 
  31. Holmes, David I. (1998), «The Evolution of Stylometry in Humanities Scholarship», Literary and Linguistic Computing, 13 (3): 111–117, doi:10.1093/llc/13.3.111 
  32. Juola, Patrick (2006), «Authorship Attribution» (PDF), Foundations and Trends in Information Retrieval, ISSN 1554-0669, 1 (3): 233–334, CiteSeerX 10.1.1.219.1605Acessível livremente, doi:10.1561/1500000005 
  33. Stein, Benno; Lipka, Nedim; Prettenhofer, Peter (2011), «Intrinsic Plagiarism Analysis» (PDF), Language Resources and Evaluation, ISSN 1574-020X, 45 (1): 63–82, doi:10.1007/s10579-010-9115-y, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  34. Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). «On the use of character n-grams as the only intrinsic evidence of plagiarism». Language Resources and Evaluation. 53 (3): 363–396. doi:10.1007/s10579-019-09444-w. hdl:10251/159151 
  35. Portal Plagiat - Softwaretest 2004 (em German), HTW University of Applied Sciences Berlin, consultado em 6 de outubro de 2011, arquivado do original em 25 de outubro de 2011 
  36. Portal Plagiat - Softwaretest 2008 (em German), HTW University of Applied Sciences Berlin, consultado em 6 de outubro de 2011 
  37. a b Portal Plagiat - Softwaretest 2010 (em German), HTW University of Applied Sciences Berlin, consultado em 6 de outubro de 2011 
  38. a b Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo (2010), «Overview of the 2nd International Competition on Plagiarism Detection», Notebook Papers of CLEF 2010 LABs and Workshops, 22–23 September, Padua, Italy (PDF), consultado em 7 de outubro de 2011, arquivado do original (PDF) em 3 de abril de 2012 
  39. a b Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), «Overview of the 3rd International Competition on Plagiarism Detection», Notebook Papers of CLEF 2011 LABs and Workshops, 19–22 September, Amsterdam, Netherlands (PDF), consultado em 7 de outubro de 2011, arquivado do original (PDF) em 2 de abril de 2012 
  40. Potthast, Martin; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), «Cross-Language Plagiarism Detection» (PDF), Language Resources and Evaluation, ISSN 1574-020X, 45 (1): 45–62, doi:10.1007/s10579-009-9114-z, hdl:10251/37479, consultado em 7 de outubro de 2011, arquivado do original (PDF) em 26 de novembro de 2013 
  41. Weber-Wulff, Debora (junho de 2008), «On the Utility of Plagiarism Detection Software», In Proceedings of the 3rd International Plagiarism Conference, Newcastle Upon Tyne (PDF) 
  42. "Plagiarism Prevention and Detection - On-line Resources on Source Code Plagiarism" Arquivado em 2012-11-15 no Wayback Machine. Higher Education Academy, University of Ulster.
  43. Roy, Chanchal Kumar;Cordy, James R. (26 September 2007)."A Survey on Software Clone Detection Research". School of Computing, Queen's University, Canada.

Literatura

  • Carroll, J. (2002). A handbook for deterring plagiarism in higher education. Oxford: The Oxford Centre for Staff and Learning Development, Oxford Brookes University. (96 pág. ),ISBN 1873576560
  • Zeidman, B. (2011). The Software IP Detective’s Handbook. Prentice Hall. (480 p.),ISBN 0137035330