Publikation: Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung
Dateien
Datum
Autor:innen
Herausgeber:innen
ISSN der Zeitschrift
Electronic ISSN
ISBN
Bibliografische Daten
Verlag
Schriftenreihe
Auflagebezeichnung
URI (zitierfähiger Link)
Internationale Patentnummer
Link zur Lizenz
Angaben zur Forschungsförderung
Projekt
Open Access-Veröffentlichung
Core Facility der Universität Konstanz
Titel in einer weiteren Sprache
Publikationstyp
Publikationsstatus
Erschienen in
Zusammenfassung
Das Paradigma des Aktiven Lernens wird häufig in praktischen Anwendungsszenarien angewendet, um große Datenmengen mit Hilfe eines menschlichen Experten zu klassifizieren. Durch eine gezielte Auswahl soll die Anzahl der Muster reduziert werden, die vom Experten klassifiziert werden müssen um ein stabiles Klassifikationsmodell zu lernen. Bei bisherigen Ansätzen im Bereich des Aktiven Lernens wird oft angenommen, dass ein stabiles Klassifikationsmodell bereits mit zufällig gezogenen Mustern gelernt wurde, welches mit ausgesuchten Beispielen verfeinert werden soll. In dieser Arbeit werden zwei Ansätze zum Aktiven Lernen vorgestellt, die vom ersten Beispiel an versuchen eine sinnvolle Auswahl aus den Daten zu treffen. Zunächst wird bei der Selektion von Mustern der Aspekt der Exploration betont. Nachdem ein stabiles Klassifikationsmodell gelernt wurde, konzentriert sich die Selektionsstrategie auf die Klassengrenzen.
Das erste Verfahren der "Aktiven Lernenden Vektor Quantisierung" exploriert den Datensatz mittels eines Fuzzy c-means Clusterings. Anschließend werden die vom Experten klassifizierten Cluster mit ausgesuchten Beispielen an den Klassifikationsgrenzen angepasst.
Das zweite Verfahren der "Aktiven Prototypen basierten Klassifikation" generiert in jeder Lerniteration einen Prototypen für eine k-nächste Nachbarn Klassifikation. Dieser Ansatz kombiniert die Aspekte der Exploration und der Verfeinerung der Klassengrenzen mittels einer neu entwickelten Unsicherheitsverteilung miteinander. Dabei findet mit zunehmender Anzahl von klassifizierten Mustern ein fließender Übergang zwischen Exploration und Verfeinerung der Klassengrenzen statt.
Anhand der spezifischen Anwendung der Verfahren für die Klassifikation von Zellbildern durch einen Biologen wird der praktische Nutzen aufgezeigt. Die beiden Ansätzen zugrunde liegende Strategie, die Daten zunächst zu explorieren und anschließend das Klassifikationsmodell zu verfeinern stellt sich als vorteilhat für die Performanz und Stabilität gegenüber bisher entwickelten aktiven Lernverfahren heraus.
Zusammenfassung in einer weiteren Sprache
The paradigm of active learning is often used to classify large datasets with the help of a human expert in different application areas. The number of examples that need to be classified by the expert in order to build a stable model can be reduced with a selective sampling strategy.
Current state-of-the-art active learning algorithms often deal insufficently with the aspect of exploration. They assume that a stable classification model has been already build and needs to be refined with further carefully selected examples. In this dissertation, two new approaches are introduced that include the aspect of exploration in active learning. In contrast to most of the other active learning methods, the selection strategy is applied from the very first example. After a stable classification model has been build, the selection strategy focuses on the classification boundaries.
The first approach called "Active Learning Vector Quantization" explorates the data with a global clustering method. In a second phase, the human-classified clusters are further refined with selected examples.
The second approach called "Prototype Based Active Classification" creates a new prototype for a k-nearest neighbour classification in each learning iteration. The selection of a data-point as a prototype depends on a combination of its representativeness of neighboring unlabeled data-points and the uncertainty of the classifier in predicting its class label. The proposed approach combines the trade-offs of exploration and exploitation via the newly developed uncertainty distribution seamlessly. With each learning iteration the effect of exploration reduces and exploitation increases.
The practical application is demonstrated by a specific application in the field of bioinformatics.
The strategy of first exploring the dataset and subsequently improving the classification model turns out to be beneficial for classification performance and classifier stability.
Fachgebiet (DDC)
Schlagwörter
Konferenz
Rezension
Zitieren
ISO 690
CEBRON, Nicolas, 2008. Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung [Dissertation]. Konstanz: University of KonstanzBibTex
@phdthesis{Cebron2008Aktiv-5461, year={2008}, title={Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung}, author={Cebron, Nicolas}, address={Konstanz}, school={Universität Konstanz} }
RDF
<rdf:RDF xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:bibo="http://purl.org/ontology/bibo/" xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:void="http://rdfs.org/ns/void#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/5461"> <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/> <dcterms:issued>2008</dcterms:issued> <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/5461"/> <dcterms:alternative>Active learning for classification of large datasets using exploration and exploitation</dcterms:alternative> <foaf:homepage rdf:resource="http://localhost:8080/"/> <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/> <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/> <dspace:hasBitstream rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/5461/1/Diss_NCebron.pdf"/> <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2011-03-24T15:55:36Z</dcterms:available> <dc:contributor>Cebron, Nicolas</dc:contributor> <dc:creator>Cebron, Nicolas</dc:creator> <dcterms:rights rdf:resource="https://rightsstatements.org/page/InC/1.0/"/> <dc:language>deu</dc:language> <dcterms:hasPart rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/5461/1/Diss_NCebron.pdf"/> <dcterms:abstract xml:lang="deu">Das Paradigma des Aktiven Lernens wird häufig in praktischen Anwendungsszenarien angewendet, um große Datenmengen mit Hilfe eines menschlichen Experten zu klassifizieren. Durch eine gezielte Auswahl soll die Anzahl der Muster reduziert werden, die vom Experten klassifiziert werden müssen um ein stabiles Klassifikationsmodell zu lernen. Bei bisherigen Ansätzen im Bereich des Aktiven Lernens wird oft angenommen, dass ein stabiles Klassifikationsmodell bereits mit zufällig gezogenen Mustern gelernt wurde, welches mit ausgesuchten Beispielen verfeinert werden soll. In dieser Arbeit werden zwei Ansätze zum Aktiven Lernen vorgestellt, die vom ersten Beispiel an versuchen eine sinnvolle Auswahl aus den Daten zu treffen. Zunächst wird bei der Selektion von Mustern der Aspekt der Exploration betont. Nachdem ein stabiles Klassifikationsmodell gelernt wurde, konzentriert sich die Selektionsstrategie auf die Klassengrenzen.<br />Das erste Verfahren der "Aktiven Lernenden Vektor Quantisierung" exploriert den Datensatz mittels eines Fuzzy c-means Clusterings. Anschließend werden die vom Experten klassifizierten Cluster mit ausgesuchten Beispielen an den Klassifikationsgrenzen angepasst.<br />Das zweite Verfahren der "Aktiven Prototypen basierten Klassifikation" generiert in jeder Lerniteration einen Prototypen für eine k-nächste Nachbarn Klassifikation. Dieser Ansatz kombiniert die Aspekte der Exploration und der Verfeinerung der Klassengrenzen mittels einer neu entwickelten Unsicherheitsverteilung miteinander. Dabei findet mit zunehmender Anzahl von klassifizierten Mustern ein fließender Übergang zwischen Exploration und Verfeinerung der Klassengrenzen statt.<br />Anhand der spezifischen Anwendung der Verfahren für die Klassifikation von Zellbildern durch einen Biologen wird der praktische Nutzen aufgezeigt. Die beiden Ansätzen zugrunde liegende Strategie, die Daten zunächst zu explorieren und anschließend das Klassifikationsmodell zu verfeinern stellt sich als vorteilhat für die Performanz und Stabilität gegenüber bisher entwickelten aktiven Lernverfahren heraus.</dcterms:abstract> <dc:rights>terms-of-use</dc:rights> <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2011-03-24T15:55:36Z</dc:date> <dcterms:title>Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung</dcterms:title> <dc:format>application/pdf</dc:format> </rdf:Description> </rdf:RDF>