Publikation:

Performante Auswertung von Vorhersagemodellen

Lade...
Vorschaubild

Dateien

Fillbrunn_0-274159.pdf
Fillbrunn_0-274159.pdfGröße: 2.2 MBDownloads: 1391

Datum

2014

Herausgeber:innen

Kontakt

ISSN der Zeitschrift

Electronic ISSN

ISBN

Bibliografische Daten

Verlag

Schriftenreihe

Auflagebezeichnung

DOI (zitierfähiger Link)
ArXiv-ID

Internationale Patentnummer

Angaben zur Forschungsförderung

Projekt

Open Access-Veröffentlichung
Open Access Green
Core Facility der Universität Konstanz

Gesperrt bis

Titel in einer weiteren Sprache

Publikationstyp
Masterarbeit/Diplomarbeit
Publikationsstatus
Published

Erschienen in

Zusammenfassung

Mit Data-Mining wird das Extrahieren von Wissen aus Daten bezeichnet. Ziel ist es, Regeln oder Muster in den Daten zu erkennen, um so neue, unbekannte Daten aus derselben Quelle auswerten zu können. Die gewonnenen Informationen werden in einem Modell kodiert, das von einer Scoring Engine eingelesen wird, um anschließend neue Daten zu verarbeiten. Ein Standardformat für Data-Mining-Modelle ist die XML-basierte Predictive Model Markup Language (PMML), die seit 1997 stetig weiterentwickelt wird. Die Scoring Engines von KNIME, R und IBM SPSS können beispielsweise PMML-Dokumente verarbeiten. Mit JPMML existiert außerdem eine umfangreiche Java-Bibliothek für die Auswertung von Modellen im PMML-Format. Den meisten Scoring Engines gemein ist, dass die Daten für die Anwendung eines Modells auf ein spezielles Analysesystem übertragen werden müssen, weil auf dem Datenhaltungssystem die erforderliche Software meist nicht verfügbar ist. Vor allem bei großen Datenmengen stellt diese Übertragung einen nicht zu unterschätzenden Aufwand dar. Um diesen Schritt zu vermeiden, muss das Modell in eine von dem System interpretierbare Form übersetzt werden.
Der in dieser Arbeit vorgestellte Übersetzer ist in der Lage, aus PMML-Dokumenten Quellcode in verschiedenen Programmiersprachen zu erzeugen. Beispielsweise können PMML-Modelle in SQL-Abfragen übersetzt werden, um so ihre Auswertung auf relationalen Datenbanken zu ermöglichen. Die Erzeugung von JavaScript dagegen macht die Verarbeitung von Daten aus NoSQL-Datenbanken wie MongoDB und CouchDB möglich. Zusätzlich kann der Übersetzer Java-Code erzeugen, der durch verschiedene domänenspezifische Optimierungen besonders schnell ausgeführt werden kann. Im Vergleich mit ähnlicher Software zeigt sich, dass durch die Vorkompilierung des Modells ein bis zu viermal höherer Durchsatz erreicht werden kann. Durch die Verwendung einer Zwischendarstellung des zu erzeugenden Codes kann der Übersetzer außerdem mit geringem Aufwand sowohl für neue Programmiersprachen als auch neue Modelltypen erweitert werden.


Ein weiteres Ziel dieser Arbeit ist, zu untersuchen, wie die Überdeckung des PMMLXML-Schemas durch getestete Dokumente ermittelt werden kann. Dies geschieht durch die Anwendung bekannter kontrollflussorientierter Testverfahren auf einen Graphen, der aus dem PMML-Schema gebildet wird. Somit bietet die Arbeit neben der Beschreibung einer leistungsfähigen Scoring Engine für PMML auch Werkzeuge, um aus der Quellcodeüberdeckung bekannte Verfahren auf XML-Schemata und -Dokumente anzuwenden. Die so gewonnenen Informationen erweisen sich bei der Erweiterung vorhandener Testfälle als nützlich und geben einen überblick über die Unterstützung des Standards durch den Übersetzer.

Zusammenfassung in einer weiteren Sprache

Fachgebiet (DDC)
004 Informatik

Schlagwörter

PMML, Scoring, Kompilieren

Konferenz

Rezension
undefined / . - undefined, undefined

Forschungsvorhaben

Organisationseinheiten

Zeitschriftenheft

Zugehörige Datensätze in KOPS

Zitieren

ISO 690FILLBRUNN, Alexander, 2014. Performante Auswertung von Vorhersagemodellen [Master thesis]. Konstanz: Univ.
BibTex
@mastersthesis{Fillbrunn2014Perfo-29650,
  year={2014},
  title={Performante Auswertung von Vorhersagemodellen},
  address={Konstanz},
  school={Univ.},
  author={Fillbrunn, Alexander}
}
RDF
<rdf:RDF
    xmlns:dcterms="http://purl.org/dc/terms/"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:bibo="http://purl.org/ontology/bibo/"
    xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#"
    xmlns:foaf="http://xmlns.com/foaf/0.1/"
    xmlns:void="http://rdfs.org/ns/void#"
    xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > 
  <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/29650">
    <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2015-01-28T10:15:30Z</dc:date>
    <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/>
    <dcterms:issued>2014</dcterms:issued>
    <dcterms:title>Performante Auswertung von Vorhersagemodellen</dcterms:title>
    <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dcterms:abstract>Mit Data-Mining wird das Extrahieren von Wissen aus Daten bezeichnet. Ziel ist es, Regeln oder Muster in den Daten zu erkennen, um so neue, unbekannte Daten aus derselben Quelle auswerten zu können. Die gewonnenen Informationen werden in einem Modell kodiert, das von einer Scoring Engine eingelesen wird, um anschließend neue Daten zu verarbeiten. Ein Standardformat für Data-Mining-Modelle ist die XML-basierte Predictive Model Markup Language (PMML), die seit 1997 stetig weiterentwickelt wird. Die Scoring Engines von KNIME, R und IBM SPSS können beispielsweise PMML-Dokumente verarbeiten. Mit JPMML existiert außerdem eine umfangreiche Java-Bibliothek für die Auswertung von Modellen im PMML-Format. Den meisten Scoring Engines gemein ist, dass die Daten für die Anwendung eines Modells auf ein spezielles Analysesystem übertragen werden müssen, weil auf dem Datenhaltungssystem die erforderliche Software meist nicht verfügbar ist. Vor allem bei großen Datenmengen stellt diese Übertragung einen nicht zu unterschätzenden Aufwand dar. Um diesen Schritt zu vermeiden, muss das Modell in eine von dem System interpretierbare Form übersetzt werden.&lt;br /&gt;Der in dieser Arbeit vorgestellte Übersetzer ist in der Lage, aus PMML-Dokumenten Quellcode in verschiedenen Programmiersprachen zu erzeugen. Beispielsweise können PMML-Modelle in SQL-Abfragen übersetzt werden, um so ihre Auswertung auf relationalen Datenbanken zu ermöglichen. Die Erzeugung von JavaScript dagegen macht die Verarbeitung von Daten aus NoSQL-Datenbanken wie MongoDB und CouchDB möglich. Zusätzlich kann der Übersetzer Java-Code erzeugen, der durch verschiedene domänenspezifische Optimierungen besonders schnell ausgeführt werden kann. Im Vergleich mit ähnlicher Software zeigt sich, dass durch die Vorkompilierung des Modells ein bis zu viermal höherer Durchsatz erreicht werden kann. Durch die Verwendung einer Zwischendarstellung des zu erzeugenden Codes kann der Übersetzer außerdem mit geringem Aufwand sowohl für neue Programmiersprachen als auch neue Modelltypen erweitert werden.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Ein weiteres Ziel dieser Arbeit ist, zu untersuchen, wie die Überdeckung des PMMLXML-Schemas durch getestete Dokumente ermittelt werden kann. Dies geschieht durch die Anwendung bekannter kontrollflussorientierter Testverfahren auf einen Graphen, der aus dem PMML-Schema gebildet wird. Somit bietet die Arbeit neben der Beschreibung einer leistungsfähigen Scoring Engine für PMML auch Werkzeuge, um aus der Quellcodeüberdeckung bekannte Verfahren auf XML-Schemata und -Dokumente anzuwenden. Die so gewonnenen Informationen erweisen sich bei der Erweiterung vorhandener Testfälle als nützlich und geben einen überblick über die Unterstützung des Standards durch den Übersetzer.</dcterms:abstract>
    <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/29650"/>
    <dspace:hasBitstream rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/29650/3/Fillbrunn_0-274159.pdf"/>
    <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2015-01-28T10:15:30Z</dcterms:available>
    <dc:language>deu</dc:language>
    <dcterms:rights rdf:resource="https://rightsstatements.org/page/InC/1.0/"/>
    <dcterms:hasPart rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/29650/3/Fillbrunn_0-274159.pdf"/>
    <dc:contributor>Fillbrunn, Alexander</dc:contributor>
    <dc:rights>terms-of-use</dc:rights>
    <dc:creator>Fillbrunn, Alexander</dc:creator>
    <foaf:homepage rdf:resource="http://localhost:8080/"/>
  </rdf:Description>
</rdf:RDF>

Interner Vermerk

xmlui.Submission.submit.DescribeStep.inputForms.label.kops_note_fromSubmitter

Kontakt
URL der Originalveröffentl.

Prüfdatum der URL

Prüfungsdatum der Dissertation

Hochschulschriftenvermerk
Konstanz, Univ., Masterarbeit/Diplomarbeit, 2014
Finanzierungsart

Kommentar zur Publikation

Allianzlizenz
Corresponding Authors der Uni Konstanz vorhanden
Internationale Co-Autor:innen
Universitätsbibliographie
Ja
Begutachtet
Diese Publikation teilen