Performante Auswertung von Vorhersagemodellen

Zitieren

Dateien zu dieser Ressource

Prüfsumme: MD5:8a85b3910751bb9515193e9537de81f4

FILLBRUNN, Alexander, 2014. Performante Auswertung von Vorhersagemodellen

@mastersthesis{Fillbrunn2014Perfo-29650, title={Performante Auswertung von Vorhersagemodellen}, year={2014}, address={Konstanz}, school={Univ.}, author={Fillbrunn, Alexander} }

2015-01-28T10:15:30Z deu Performante Auswertung von Vorhersagemodellen 2014 Fillbrunn, Alexander 2015-01-28T10:15:30Z Mit Data-Mining wird das Extrahieren von Wissen aus Daten bezeichnet. Ziel ist es, Regeln oder Muster in den Daten zu erkennen, um so neue, unbekannte Daten aus derselben Quelle auswerten zu können. Die gewonnenen Informationen werden in einem Modell kodiert, das von einer Scoring Engine eingelesen wird, um anschließend neue Daten zu verarbeiten. Ein Standardformat für Data-Mining-Modelle ist die XML-basierte Predictive Model Markup Language (PMML), die seit 1997 stetig weiterentwickelt wird. Die Scoring Engines von KNIME, R und IBM SPSS können beispielsweise PMML-Dokumente verarbeiten. Mit JPMML existiert außerdem eine umfangreiche Java-Bibliothek für die Auswertung von Modellen im PMML-Format. Den meisten Scoring Engines gemein ist, dass die Daten für die Anwendung eines Modells auf ein spezielles Analysesystem übertragen werden müssen, weil auf dem Datenhaltungssystem die erforderliche Software meist nicht verfügbar ist. Vor allem bei großen Datenmengen stellt diese Übertragung einen nicht zu unterschätzenden Aufwand dar. Um diesen Schritt zu vermeiden, muss das Modell in eine von dem System interpretierbare Form übersetzt werden.<br />Der in dieser Arbeit vorgestellte Übersetzer ist in der Lage, aus PMML-Dokumenten Quellcode in verschiedenen Programmiersprachen zu erzeugen. Beispielsweise können PMML-Modelle in SQL-Abfragen übersetzt werden, um so ihre Auswertung auf relationalen Datenbanken zu ermöglichen. Die Erzeugung von JavaScript dagegen macht die Verarbeitung von Daten aus NoSQL-Datenbanken wie MongoDB und CouchDB möglich. Zusätzlich kann der Übersetzer Java-Code erzeugen, der durch verschiedene domänenspezifische Optimierungen besonders schnell ausgeführt werden kann. Im Vergleich mit ähnlicher Software zeigt sich, dass durch die Vorkompilierung des Modells ein bis zu viermal höherer Durchsatz erreicht werden kann. Durch die Verwendung einer Zwischendarstellung des zu erzeugenden Codes kann der Übersetzer außerdem mit geringem Aufwand sowohl für neue Programmiersprachen als auch neue Modelltypen erweitert werden.<br /><br /><br />Ein weiteres Ziel dieser Arbeit ist, zu untersuchen, wie die Überdeckung des PMMLXML-Schemas durch getestete Dokumente ermittelt werden kann. Dies geschieht durch die Anwendung bekannter kontrollflussorientierter Testverfahren auf einen Graphen, der aus dem PMML-Schema gebildet wird. Somit bietet die Arbeit neben der Beschreibung einer leistungsfähigen Scoring Engine für PMML auch Werkzeuge, um aus der Quellcodeüberdeckung bekannte Verfahren auf XML-Schemata und -Dokumente anzuwenden. Die so gewonnenen Informationen erweisen sich bei der Erweiterung vorhandener Testfälle als nützlich und geben einen überblick über die Unterstützung des Standards durch den Übersetzer. Fillbrunn, Alexander

Dateiabrufe seit 28.01.2015 (Informationen über die Zugriffsstatistik)

Fillbrunn_0-274159.pdf 314

Das Dokument erscheint in:

KOPS Suche


Stöbern

Mein Benutzerkonto