Publikation:

Citation-based Plagiarism Detection : Applying Citation Pattern Analysis to Identify Currently Non-Machine-Detectable Disguised Plagiarism in Scientific Publications

Lade...
Vorschaubild

Dateien

Zu diesem Dokument gibt es keine Dateien.

Datum

2013

Autor:innen

Herausgeber:innen

Kontakt

ISSN der Zeitschrift

Electronic ISSN

ISBN

Bibliografische Daten

Verlag

Schriftenreihe

Auflagebezeichnung

URI (zitierfähiger Link)
DOI (zitierfähiger Link)
ArXiv-ID

Internationale Patentnummer

Angaben zur Forschungsförderung

Projekt

Open Access-Veröffentlichung
Core Facility der Universität Konstanz

Gesperrt bis

Titel in einer weiteren Sprache

Publikationstyp
Dissertation anderer Hochschule
Publikationsstatus
Published

Erschienen in

Zusammenfassung

This doctoral thesis addresses a problem in information retrieval, which has recently captured the attention of media – the software-based detection of disguised plagiarism forms. State-of-the-art plagiarism detection approaches are capable of identifying copy & paste, and to some extent, lightly disguised plagiarism. However, even today’s best performing systems cannot reliably identify more heavily disguised forms of plagiarism, including paraphrases, translated plagiarism, or idea plagiarism. This weakness of current systems results in a large percentage of disguised scientific plagiarism going undetected. While the easily recognizable copy & paste-type plagiarism typically occurs among students and has no serious consequences for society, disguised plagiarism in the sciences, such as plagiarized medical studies in which results are copied without the corresponding experiments having been performed, can jeopardize patient safety. To address the weakness of plagiarism detection systems, this thesis introduces Citation-based Plagiarism Detection (CbPD). Unlike existing character-based approaches, which perform text comparisons, CbPD does not consider text similarity alone, but uses citation patterns within documents as a unique, language-independent "semantic fingerprint" to identify potentially suspicious similarity among texts. The idea for CbPD originated from the observation that plagiarists commonly disguise academic misconduct by paraphrasing copied text, but typically do not substitute or significantly rearrange the citations. Motivated by these findings, the author developed various CbPD algorithms tailored to the different forms of plagiarism, and implemented them in the first citation-based plagiarism detection prototype capable of detecting heavily disguised plagiarism. The advantages of the CbPD approach were demonstrated in evaluations using three document collections. CbPD’s applicability for detecting strongly disguised plagiarism was first demonstrated using the plagiarized thesis of former German Minister of Defense, K.-T. zu Guttenberg. While conventional approaches failed to detect a single instance of translated plagiarism in this thesis, CbPD identified 13 of the 16 translations. The effectiveness of the approach was further demonstrated when applied to other authors and plagiarism forms in the VroniPlag Wiki. The practicality of the CbPD approach was demonstrated by the successful identification of several plagiarism cases in the biomedical publication collection PubMed Central Open Access Subset. As a result of a user study utilizing the CbPD prototype, several plagiarism investigations have thus far been initiated. One medical study and a plagiarized medical case report have since been retracted. The evaluation also showed CbPD’s visualization of citation pattern similarities to facilitate the verification of plagiarism. Additionally, it could be shown that CbPD has a superior computational efficiency compared to existing approaches, and produced significantly fewer false positives. CbPD is not a substitute for, but rather a complement to existing approaches. A combination of CbPD with current approaches into a hybrid system promises to ensure optimal detection of both short literal plagiarism, as well as heavily disguised or translated plagiarism.

Zusammenfassung in einer weiteren Sprache

Die vorliegende Dissertation adressiert ein Problem des Information Retrieval, welches aktuell viel Beachtung erfährt: Die softwarebasierte Erkennung verschleierter Plagiate. Bislang genutzte Erkennungsverfahren können lediglich exakte Kopien oder nur geringfügig veränderte Plagiate identifizieren. Selbst die leistungsfähigsten Systeme können verschleierte Plagiatsformen, wie z. B. Paraphrasen, Übersetzungs- oder Ideenplagiate, nicht zuverlässig erkennen, wodurch derartige Plagiate oft unentdeckt bleiben. Unverschleierte Plagiate werden zumeist von Schülern begangen und haben keine ernsten Folgen für die Gesellschaft. Stark verschleierte, nicht maschinell erkennbare Plagiate hingegen sind vor allem in wissenschaftlichen Arbeiten zu finden und können z. B. die optimale Behandlung von Patienten gefährden, wenn eine plagiierte medizinische Studie in Wirklichkeit nie durchgeführt wurde.
Durch Vorstellung eines neuartigen Erkennungsansatzes namens Citationbased Plagiarism Detection (CbPD) leistet die vorliegende Arbeit einen Beitrag zur Lösung dieses Problems. Im Gegensatz zu existierenden Erkennungsverfahren berücksichtigt CbPD nicht die zeichenbasierte Ähnlichkeit von Dokumenten, sondern die Position und Reihenfolge der zitierten Quellen (Zitationen) im Text. Auf Basis der Zitationen generiert CbPD einen sprachunabhängigen „semantischen Fingerabdruck“ und nutzt diesen für einen Vergleich der zu untersuchenden Dokumente. Die Idee zur Entwicklung der zitationsbasierten Plagiatserkennung basiert auf der Beobachtung, dass Plagiatoren zwar Texte paraphrasieren um Plagiate zu verschleiern, jedoch die Zitationen üblicherweise weder ersetzen noch deren Reihenfolge signifikant verändern. Auf Basis dieser Erkenntnis wurden auf die unterschiedlichen verschleierten Plagiatsformen zugeschnittene CbPD-Algorithmen entwickelt. Die Algorithmen erkennen Transpositionen und Mehrfachverwendung (Scaling) von Zitationen und nutzen Heuristiken zur Berücksichtigung der Wahrscheinlichkeit eines gemeinsamen Auftretens von Zitationen sowie der Kontinuität von Zitationsmustern. Das CbPD-Konzept wurde in Form eines voll funktionsfähigen Prototyps unter Verwendung von Java und HTML5 realisiert.
Das CbPD-Verfahren wurde mittels dreier Testkollektionen evaluiert und mit existierenden Verfahren verglichen. Die prinzipielle Eignung wurde zuerst
anhand der bekannten Doktorarbeit von K.-T. zu Guttenberg belegt. CbPD erlaubte die Erkennung von 13 der 16 enthaltenen Übersetzungsplagiate, während existierende Verfahren keines der Übersetzungsplagiate identifizieren konnten. Die Wirksamkeit des CbPD-Verfahrens für Arbeiten weiterer Autoren und andere Plagiatsformen konnte mittels der VroniPlag Wiki Kollektion belegt werden. Die Praxistauglichkeit der CbPD konnte bewiesen werden, indem mit Hilfe einer Nutzerstudie und des entwickelten Prototyps mehrere Plagiate in der biomedizinischen Volltextkollektion PMC OAS aufgespürt wurden. Sechs Untersuchungen der entdeckten Fälle wurden bislang eingeleitet und eine weitere medizinische Studie wurde inzwischen zurückgezogen. Die Evaluation zeigte, dass CbPD die Verifikation von Plagiaten durch die Visualisierung der Zitationsähnlichkeiten erleichtert. Ausserdem konnte gezeigt werden, dass CbPD gegenüber existierenden Verfahren eine signifikant bessere Laufzeiteffizienz sowie eine deutlich geringere Rate falsch-positiver Ergebnisse aufweist. Die Evaluation machte deutlich, dass CbPD kein Ersatz für existierende Verfahren ist, sondern diese komplementiert. Die Kombination von CbPD mit existierenden Verfahren zu einem Hybridsystem gewährleistet eine optimale Erkennung von sowohl kurzen wörtlichen, als auch stark verschleierten semantischen oder übersetzten Plagiaten.

Fachgebiet (DDC)
004 Informatik

Schlagwörter

Konferenz

Rezension
undefined / . - undefined, undefined

Forschungsvorhaben

Organisationseinheiten

Zeitschriftenheft

Zugehörige Datensätze in KOPS

Zitieren

ISO 690GIPP, Bela, 2013. Citation-based Plagiarism Detection : Applying Citation Pattern Analysis to Identify Currently Non-Machine-Detectable Disguised Plagiarism in Scientific Publications [Dissertation]. Magdeburg: Otto-von-Guericke-Universität Madgeburg
BibTex
@phdthesis{Gipp2013Citat-31399,
  year={2013},
  title={Citation-based Plagiarism Detection : Applying Citation Pattern Analysis to Identify Currently Non-Machine-Detectable Disguised Plagiarism in Scientific Publications},
  address={Magdeburg},
  school={Otto-von-Guericke-Universität Madgeburg},
  url={http://www.sciplore.org/wp-content/papercite-data/pdf/gipp13a.pdf},
  author={Gipp, Bela},
  note={The book version of the thesis is available from Springer Vieweg Research: http://dx.doi.org/10.1007/978-3-658-06394-8}
}
RDF
<rdf:RDF
    xmlns:dcterms="http://purl.org/dc/terms/"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:bibo="http://purl.org/ontology/bibo/"
    xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#"
    xmlns:foaf="http://xmlns.com/foaf/0.1/"
    xmlns:void="http://rdfs.org/ns/void#"
    xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > 
  <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/31399">
    <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2015-07-08T11:17:53Z</dc:date>
    <dcterms:issued>2013</dcterms:issued>
    <dcterms:abstract xml:lang="eng">This doctoral thesis addresses a problem in information retrieval, which has recently captured the attention of media – the software-based detection of disguised plagiarism forms. State-of-the-art plagiarism detection approaches are capable of identifying copy &amp; paste, and to some extent, lightly disguised plagiarism. However, even today’s best performing systems cannot reliably identify more heavily disguised forms of plagiarism, including paraphrases, translated plagiarism, or idea plagiarism. This weakness of current systems results in a large percentage of disguised scientific plagiarism going undetected. While the easily recognizable copy &amp; paste-type plagiarism typically occurs among students and has no serious consequences for society, disguised plagiarism in the sciences, such as plagiarized medical studies in which results are copied without the corresponding experiments having been performed, can jeopardize patient safety. To address the weakness of plagiarism detection systems, this thesis introduces Citation-based Plagiarism Detection (CbPD). Unlike existing character-based approaches, which perform text comparisons, CbPD does not consider text similarity alone, but uses citation patterns within documents as a unique, language-independent "semantic fingerprint" to identify potentially suspicious similarity among texts. The idea for CbPD originated from the observation that plagiarists commonly disguise academic misconduct by paraphrasing copied text, but typically do not substitute or significantly rearrange the citations. Motivated by these findings, the author developed various CbPD algorithms tailored to the different forms of plagiarism, and implemented them in the first citation-based plagiarism detection prototype capable of detecting heavily disguised plagiarism. The advantages of the CbPD approach were demonstrated in evaluations using three document collections. CbPD’s applicability for detecting strongly disguised plagiarism was first demonstrated using the plagiarized thesis of former German Minister of Defense, K.-T. zu Guttenberg. While conventional approaches failed to detect a single instance of translated plagiarism in this thesis, CbPD identified 13 of the 16 translations. The effectiveness of the approach was further demonstrated when applied to other authors and plagiarism forms in the VroniPlag Wiki. The practicality of the CbPD approach was demonstrated by the successful identification of several plagiarism cases in the biomedical publication collection PubMed Central Open Access Subset. As a result of a user study utilizing the CbPD prototype, several plagiarism investigations have thus far been initiated. One medical study and a plagiarized medical case report have since been retracted. The evaluation also showed CbPD’s visualization of citation pattern similarities to facilitate the verification of plagiarism. Additionally, it could be shown that CbPD has a superior computational efficiency compared to existing approaches, and produced significantly fewer false positives. CbPD is not a substitute for, but rather a complement to existing approaches. A combination of CbPD with current approaches into a hybrid system promises to ensure optimal detection of both short literal plagiarism, as well as heavily disguised or translated plagiarism.</dcterms:abstract>
    <dc:language>eng</dc:language>
    <foaf:homepage rdf:resource="http://localhost:8080/"/>
    <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/>
    <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dc:creator>Gipp, Bela</dc:creator>
    <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2015-07-08T11:17:53Z</dcterms:available>
    <dc:contributor>Gipp, Bela</dc:contributor>
    <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dcterms:title>Citation-based Plagiarism Detection : Applying Citation Pattern Analysis to Identify Currently Non-Machine-Detectable Disguised Plagiarism in Scientific Publications</dcterms:title>
    <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/31399"/>
  </rdf:Description>
</rdf:RDF>

Interner Vermerk

xmlui.Submission.submit.DescribeStep.inputForms.label.kops_note_fromSubmitter

Kontakt

Prüfdatum der URL

2015-07-08

Prüfungsdatum der Dissertation

Hochschulschriftenvermerk
Magdeburg, Otto-von-Guericke-Universität Madgeburg, Diss., 2013
Finanzierungsart

Kommentar zur Publikation

The book version of the thesis is available from Springer Vieweg Research: http://dx.doi.org/10.1007/978-3-658-06394-8
Allianzlizenz
Corresponding Authors der Uni Konstanz vorhanden
Internationale Co-Autor:innen
Universitätsbibliographie
Nein
Begutachtet
Diese Publikation teilen