Publikation: Performante Auswertung von Vorhersagemodellen
Dateien
Datum
Autor:innen
Herausgeber:innen
ISSN der Zeitschrift
Electronic ISSN
ISBN
Bibliografische Daten
Verlag
Schriftenreihe
Auflagebezeichnung
URI (zitierfähiger Link)
Internationale Patentnummer
Link zur Lizenz
Angaben zur Forschungsförderung
Projekt
Open Access-Veröffentlichung
Core Facility der Universität Konstanz
Titel in einer weiteren Sprache
Publikationstyp
Publikationsstatus
Erschienen in
Zusammenfassung
Mit Data-Mining wird das Extrahieren von Wissen aus Daten bezeichnet. Ziel ist es, Regeln oder Muster in den Daten zu erkennen, um so neue, unbekannte Daten aus derselben Quelle auswerten zu können. Die gewonnenen Informationen werden in einem Modell kodiert, das von einer Scoring Engine eingelesen wird, um anschließend neue Daten zu verarbeiten. Ein Standardformat für Data-Mining-Modelle ist die XML-basierte Predictive Model Markup Language (PMML), die seit 1997 stetig weiterentwickelt wird. Die Scoring Engines von KNIME, R und IBM SPSS können beispielsweise PMML-Dokumente verarbeiten. Mit JPMML existiert außerdem eine umfangreiche Java-Bibliothek für die Auswertung von Modellen im PMML-Format. Den meisten Scoring Engines gemein ist, dass die Daten für die Anwendung eines Modells auf ein spezielles Analysesystem übertragen werden müssen, weil auf dem Datenhaltungssystem die erforderliche Software meist nicht verfügbar ist. Vor allem bei großen Datenmengen stellt diese Übertragung einen nicht zu unterschätzenden Aufwand dar. Um diesen Schritt zu vermeiden, muss das Modell in eine von dem System interpretierbare Form übersetzt werden.
Der in dieser Arbeit vorgestellte Übersetzer ist in der Lage, aus PMML-Dokumenten Quellcode in verschiedenen Programmiersprachen zu erzeugen. Beispielsweise können PMML-Modelle in SQL-Abfragen übersetzt werden, um so ihre Auswertung auf relationalen Datenbanken zu ermöglichen. Die Erzeugung von JavaScript dagegen macht die Verarbeitung von Daten aus NoSQL-Datenbanken wie MongoDB und CouchDB möglich. Zusätzlich kann der Übersetzer Java-Code erzeugen, der durch verschiedene domänenspezifische Optimierungen besonders schnell ausgeführt werden kann. Im Vergleich mit ähnlicher Software zeigt sich, dass durch die Vorkompilierung des Modells ein bis zu viermal höherer Durchsatz erreicht werden kann. Durch die Verwendung einer Zwischendarstellung des zu erzeugenden Codes kann der Übersetzer außerdem mit geringem Aufwand sowohl für neue Programmiersprachen als auch neue Modelltypen erweitert werden.
Ein weiteres Ziel dieser Arbeit ist, zu untersuchen, wie die Überdeckung des PMMLXML-Schemas durch getestete Dokumente ermittelt werden kann. Dies geschieht durch die Anwendung bekannter kontrollflussorientierter Testverfahren auf einen Graphen, der aus dem PMML-Schema gebildet wird. Somit bietet die Arbeit neben der Beschreibung einer leistungsfähigen Scoring Engine für PMML auch Werkzeuge, um aus der Quellcodeüberdeckung bekannte Verfahren auf XML-Schemata und -Dokumente anzuwenden. Die so gewonnenen Informationen erweisen sich bei der Erweiterung vorhandener Testfälle als nützlich und geben einen überblick über die Unterstützung des Standards durch den Übersetzer.
Zusammenfassung in einer weiteren Sprache
Fachgebiet (DDC)
Schlagwörter
Konferenz
Rezension
Zitieren
ISO 690
FILLBRUNN, Alexander, 2014. Performante Auswertung von Vorhersagemodellen [Master thesis]. Konstanz: Univ.BibTex
@mastersthesis{Fillbrunn2014Perfo-29650, year={2014}, title={Performante Auswertung von Vorhersagemodellen}, address={Konstanz}, school={Univ.}, author={Fillbrunn, Alexander} }
RDF
<rdf:RDF xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:bibo="http://purl.org/ontology/bibo/" xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:void="http://rdfs.org/ns/void#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/29650"> <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2015-01-28T10:15:30Z</dc:date> <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/> <dcterms:issued>2014</dcterms:issued> <dcterms:title>Performante Auswertung von Vorhersagemodellen</dcterms:title> <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/> <dcterms:abstract>Mit Data-Mining wird das Extrahieren von Wissen aus Daten bezeichnet. Ziel ist es, Regeln oder Muster in den Daten zu erkennen, um so neue, unbekannte Daten aus derselben Quelle auswerten zu können. Die gewonnenen Informationen werden in einem Modell kodiert, das von einer Scoring Engine eingelesen wird, um anschließend neue Daten zu verarbeiten. Ein Standardformat für Data-Mining-Modelle ist die XML-basierte Predictive Model Markup Language (PMML), die seit 1997 stetig weiterentwickelt wird. Die Scoring Engines von KNIME, R und IBM SPSS können beispielsweise PMML-Dokumente verarbeiten. Mit JPMML existiert außerdem eine umfangreiche Java-Bibliothek für die Auswertung von Modellen im PMML-Format. Den meisten Scoring Engines gemein ist, dass die Daten für die Anwendung eines Modells auf ein spezielles Analysesystem übertragen werden müssen, weil auf dem Datenhaltungssystem die erforderliche Software meist nicht verfügbar ist. Vor allem bei großen Datenmengen stellt diese Übertragung einen nicht zu unterschätzenden Aufwand dar. Um diesen Schritt zu vermeiden, muss das Modell in eine von dem System interpretierbare Form übersetzt werden.<br />Der in dieser Arbeit vorgestellte Übersetzer ist in der Lage, aus PMML-Dokumenten Quellcode in verschiedenen Programmiersprachen zu erzeugen. Beispielsweise können PMML-Modelle in SQL-Abfragen übersetzt werden, um so ihre Auswertung auf relationalen Datenbanken zu ermöglichen. Die Erzeugung von JavaScript dagegen macht die Verarbeitung von Daten aus NoSQL-Datenbanken wie MongoDB und CouchDB möglich. Zusätzlich kann der Übersetzer Java-Code erzeugen, der durch verschiedene domänenspezifische Optimierungen besonders schnell ausgeführt werden kann. Im Vergleich mit ähnlicher Software zeigt sich, dass durch die Vorkompilierung des Modells ein bis zu viermal höherer Durchsatz erreicht werden kann. Durch die Verwendung einer Zwischendarstellung des zu erzeugenden Codes kann der Übersetzer außerdem mit geringem Aufwand sowohl für neue Programmiersprachen als auch neue Modelltypen erweitert werden.<br /><br /><br />Ein weiteres Ziel dieser Arbeit ist, zu untersuchen, wie die Überdeckung des PMMLXML-Schemas durch getestete Dokumente ermittelt werden kann. Dies geschieht durch die Anwendung bekannter kontrollflussorientierter Testverfahren auf einen Graphen, der aus dem PMML-Schema gebildet wird. Somit bietet die Arbeit neben der Beschreibung einer leistungsfähigen Scoring Engine für PMML auch Werkzeuge, um aus der Quellcodeüberdeckung bekannte Verfahren auf XML-Schemata und -Dokumente anzuwenden. Die so gewonnenen Informationen erweisen sich bei der Erweiterung vorhandener Testfälle als nützlich und geben einen überblick über die Unterstützung des Standards durch den Übersetzer.</dcterms:abstract> <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/29650"/> <dspace:hasBitstream rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/29650/3/Fillbrunn_0-274159.pdf"/> <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/> <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2015-01-28T10:15:30Z</dcterms:available> <dc:language>deu</dc:language> <dcterms:rights rdf:resource="https://rightsstatements.org/page/InC/1.0/"/> <dcterms:hasPart rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/29650/3/Fillbrunn_0-274159.pdf"/> <dc:contributor>Fillbrunn, Alexander</dc:contributor> <dc:rights>terms-of-use</dc:rights> <dc:creator>Fillbrunn, Alexander</dc:creator> <foaf:homepage rdf:resource="http://localhost:8080/"/> </rdf:Description> </rdf:RDF>