Publikation: Citation-based Plagiarism Detection : Applying Citation Pattern Analysis to Identify Currently Non-Machine-Detectable Disguised Plagiarism in Scientific Publications
Dateien
Datum
Autor:innen
Herausgeber:innen
ISSN der Zeitschrift
Electronic ISSN
ISBN
Bibliografische Daten
Verlag
Schriftenreihe
Auflagebezeichnung
Internationale Patentnummer
Angaben zur Forschungsförderung
Projekt
Open Access-Veröffentlichung
Core Facility der Universität Konstanz
Titel in einer weiteren Sprache
Publikationstyp
Publikationsstatus
Erschienen in
Zusammenfassung
This doctoral thesis addresses a problem in information retrieval, which has recently captured the attention of media – the software-based detection of disguised plagiarism forms. State-of-the-art plagiarism detection approaches are capable of identifying copy & paste, and to some extent, lightly disguised plagiarism. However, even today’s best performing systems cannot reliably identify more heavily disguised forms of plagiarism, including paraphrases, translated plagiarism, or idea plagiarism. This weakness of current systems results in a large percentage of disguised scientific plagiarism going undetected. While the easily recognizable copy & paste-type plagiarism typically occurs among students and has no serious consequences for society, disguised plagiarism in the sciences, such as plagiarized medical studies in which results are copied without the corresponding experiments having been performed, can jeopardize patient safety. To address the weakness of plagiarism detection systems, this thesis introduces Citation-based Plagiarism Detection (CbPD). Unlike existing character-based approaches, which perform text comparisons, CbPD does not consider text similarity alone, but uses citation patterns within documents as a unique, language-independent "semantic fingerprint" to identify potentially suspicious similarity among texts. The idea for CbPD originated from the observation that plagiarists commonly disguise academic misconduct by paraphrasing copied text, but typically do not substitute or significantly rearrange the citations. Motivated by these findings, the author developed various CbPD algorithms tailored to the different forms of plagiarism, and implemented them in the first citation-based plagiarism detection prototype capable of detecting heavily disguised plagiarism. The advantages of the CbPD approach were demonstrated in evaluations using three document collections. CbPD’s applicability for detecting strongly disguised plagiarism was first demonstrated using the plagiarized thesis of former German Minister of Defense, K.-T. zu Guttenberg. While conventional approaches failed to detect a single instance of translated plagiarism in this thesis, CbPD identified 13 of the 16 translations. The effectiveness of the approach was further demonstrated when applied to other authors and plagiarism forms in the VroniPlag Wiki. The practicality of the CbPD approach was demonstrated by the successful identification of several plagiarism cases in the biomedical publication collection PubMed Central Open Access Subset. As a result of a user study utilizing the CbPD prototype, several plagiarism investigations have thus far been initiated. One medical study and a plagiarized medical case report have since been retracted. The evaluation also showed CbPD’s visualization of citation pattern similarities to facilitate the verification of plagiarism. Additionally, it could be shown that CbPD has a superior computational efficiency compared to existing approaches, and produced significantly fewer false positives. CbPD is not a substitute for, but rather a complement to existing approaches. A combination of CbPD with current approaches into a hybrid system promises to ensure optimal detection of both short literal plagiarism, as well as heavily disguised or translated plagiarism.
Zusammenfassung in einer weiteren Sprache
Die vorliegende Dissertation adressiert ein Problem des Information Retrieval, welches aktuell viel Beachtung erfährt: Die softwarebasierte Erkennung verschleierter Plagiate. Bislang genutzte Erkennungsverfahren können lediglich exakte Kopien oder nur geringfügig veränderte Plagiate identifizieren. Selbst die leistungsfähigsten Systeme können verschleierte Plagiatsformen, wie z. B. Paraphrasen, Übersetzungs- oder Ideenplagiate, nicht zuverlässig erkennen, wodurch derartige Plagiate oft unentdeckt bleiben. Unverschleierte Plagiate werden zumeist von Schülern begangen und haben keine ernsten Folgen für die Gesellschaft. Stark verschleierte, nicht maschinell erkennbare Plagiate hingegen sind vor allem in wissenschaftlichen Arbeiten zu finden und können z. B. die optimale Behandlung von Patienten gefährden, wenn eine plagiierte medizinische Studie in Wirklichkeit nie durchgeführt wurde.
Durch Vorstellung eines neuartigen Erkennungsansatzes namens Citationbased Plagiarism Detection (CbPD) leistet die vorliegende Arbeit einen Beitrag zur Lösung dieses Problems. Im Gegensatz zu existierenden Erkennungsverfahren berücksichtigt CbPD nicht die zeichenbasierte Ähnlichkeit von Dokumenten, sondern die Position und Reihenfolge der zitierten Quellen (Zitationen) im Text. Auf Basis der Zitationen generiert CbPD einen sprachunabhängigen „semantischen Fingerabdruck“ und nutzt diesen für einen Vergleich der zu untersuchenden Dokumente. Die Idee zur Entwicklung der zitationsbasierten Plagiatserkennung basiert auf der Beobachtung, dass Plagiatoren zwar Texte paraphrasieren um Plagiate zu verschleiern, jedoch die Zitationen üblicherweise weder ersetzen noch deren Reihenfolge signifikant verändern. Auf Basis dieser Erkenntnis wurden auf die unterschiedlichen verschleierten Plagiatsformen zugeschnittene CbPD-Algorithmen entwickelt. Die Algorithmen erkennen Transpositionen und Mehrfachverwendung (Scaling) von Zitationen und nutzen Heuristiken zur Berücksichtigung der Wahrscheinlichkeit eines gemeinsamen Auftretens von Zitationen sowie der Kontinuität von Zitationsmustern. Das CbPD-Konzept wurde in Form eines voll funktionsfähigen Prototyps unter Verwendung von Java und HTML5 realisiert.
Das CbPD-Verfahren wurde mittels dreier Testkollektionen evaluiert und mit existierenden Verfahren verglichen. Die prinzipielle Eignung wurde zuerst
anhand der bekannten Doktorarbeit von K.-T. zu Guttenberg belegt. CbPD erlaubte die Erkennung von 13 der 16 enthaltenen Übersetzungsplagiate, während existierende Verfahren keines der Übersetzungsplagiate identifizieren konnten. Die Wirksamkeit des CbPD-Verfahrens für Arbeiten weiterer Autoren und andere Plagiatsformen konnte mittels der VroniPlag Wiki Kollektion belegt werden. Die Praxistauglichkeit der CbPD konnte bewiesen werden, indem mit Hilfe einer Nutzerstudie und des entwickelten Prototyps mehrere Plagiate in der biomedizinischen Volltextkollektion PMC OAS aufgespürt wurden. Sechs Untersuchungen der entdeckten Fälle wurden bislang eingeleitet und eine weitere medizinische Studie wurde inzwischen zurückgezogen. Die Evaluation zeigte, dass CbPD die Verifikation von Plagiaten durch die Visualisierung der Zitationsähnlichkeiten erleichtert. Ausserdem konnte gezeigt werden, dass CbPD gegenüber existierenden Verfahren eine signifikant bessere Laufzeiteffizienz sowie eine deutlich geringere Rate falsch-positiver Ergebnisse aufweist. Die Evaluation machte deutlich, dass CbPD kein Ersatz für existierende Verfahren ist, sondern diese komplementiert. Die Kombination von CbPD mit existierenden Verfahren zu einem Hybridsystem gewährleistet eine optimale Erkennung von sowohl kurzen wörtlichen, als auch stark verschleierten semantischen oder übersetzten Plagiaten.
Fachgebiet (DDC)
Schlagwörter
Konferenz
Rezension
Zitieren
ISO 690
GIPP, Bela, 2013. Citation-based Plagiarism Detection : Applying Citation Pattern Analysis to Identify Currently Non-Machine-Detectable Disguised Plagiarism in Scientific Publications [Dissertation]. Magdeburg: Otto-von-Guericke-Universität MadgeburgBibTex
@phdthesis{Gipp2013Citat-31399, year={2013}, title={Citation-based Plagiarism Detection : Applying Citation Pattern Analysis to Identify Currently Non-Machine-Detectable Disguised Plagiarism in Scientific Publications}, address={Magdeburg}, school={Otto-von-Guericke-Universität Madgeburg}, url={http://www.sciplore.org/wp-content/papercite-data/pdf/gipp13a.pdf}, author={Gipp, Bela}, note={The book version of the thesis is available from Springer Vieweg Research: http://dx.doi.org/10.1007/978-3-658-06394-8} }
RDF
<rdf:RDF xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:bibo="http://purl.org/ontology/bibo/" xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:void="http://rdfs.org/ns/void#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/31399"> <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2015-07-08T11:17:53Z</dc:date> <dcterms:issued>2013</dcterms:issued> <dcterms:abstract xml:lang="eng">This doctoral thesis addresses a problem in information retrieval, which has recently captured the attention of media – the software-based detection of disguised plagiarism forms. State-of-the-art plagiarism detection approaches are capable of identifying copy & paste, and to some extent, lightly disguised plagiarism. However, even today’s best performing systems cannot reliably identify more heavily disguised forms of plagiarism, including paraphrases, translated plagiarism, or idea plagiarism. This weakness of current systems results in a large percentage of disguised scientific plagiarism going undetected. While the easily recognizable copy & paste-type plagiarism typically occurs among students and has no serious consequences for society, disguised plagiarism in the sciences, such as plagiarized medical studies in which results are copied without the corresponding experiments having been performed, can jeopardize patient safety. To address the weakness of plagiarism detection systems, this thesis introduces Citation-based Plagiarism Detection (CbPD). Unlike existing character-based approaches, which perform text comparisons, CbPD does not consider text similarity alone, but uses citation patterns within documents as a unique, language-independent "semantic fingerprint" to identify potentially suspicious similarity among texts. The idea for CbPD originated from the observation that plagiarists commonly disguise academic misconduct by paraphrasing copied text, but typically do not substitute or significantly rearrange the citations. Motivated by these findings, the author developed various CbPD algorithms tailored to the different forms of plagiarism, and implemented them in the first citation-based plagiarism detection prototype capable of detecting heavily disguised plagiarism. The advantages of the CbPD approach were demonstrated in evaluations using three document collections. CbPD’s applicability for detecting strongly disguised plagiarism was first demonstrated using the plagiarized thesis of former German Minister of Defense, K.-T. zu Guttenberg. While conventional approaches failed to detect a single instance of translated plagiarism in this thesis, CbPD identified 13 of the 16 translations. The effectiveness of the approach was further demonstrated when applied to other authors and plagiarism forms in the VroniPlag Wiki. The practicality of the CbPD approach was demonstrated by the successful identification of several plagiarism cases in the biomedical publication collection PubMed Central Open Access Subset. As a result of a user study utilizing the CbPD prototype, several plagiarism investigations have thus far been initiated. One medical study and a plagiarized medical case report have since been retracted. The evaluation also showed CbPD’s visualization of citation pattern similarities to facilitate the verification of plagiarism. Additionally, it could be shown that CbPD has a superior computational efficiency compared to existing approaches, and produced significantly fewer false positives. CbPD is not a substitute for, but rather a complement to existing approaches. A combination of CbPD with current approaches into a hybrid system promises to ensure optimal detection of both short literal plagiarism, as well as heavily disguised or translated plagiarism.</dcterms:abstract> <dc:language>eng</dc:language> <foaf:homepage rdf:resource="http://localhost:8080/"/> <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/> <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/> <dc:creator>Gipp, Bela</dc:creator> <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2015-07-08T11:17:53Z</dcterms:available> <dc:contributor>Gipp, Bela</dc:contributor> <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/> <dcterms:title>Citation-based Plagiarism Detection : Applying Citation Pattern Analysis to Identify Currently Non-Machine-Detectable Disguised Plagiarism in Scientific Publications</dcterms:title> <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/31399"/> </rdf:Description> </rdf:RDF>