Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung

Cebron, Nicolas

Publikation:
Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung

Dateien

Diss_NCebron.pdfGröße: 3.31 MBDownloads: 463

Datum

2008

Autor:innen

Cebron, Nicolas

URI (zitierfähiger Link)

http://nbn-resolving.de/urn:nbn:de:bsz:352-opus-59341

Link zur Lizenz

Urheberrechtlich geschützt

Open Access-Veröffentlichung

Open Access Green

Sammlungen

Informatik und Informationswissenschaft: Publikationen

Mehr laden

Titel in einer weiteren Sprache

Active learning for classification of large datasets using exploration and exploitation

Publikationstyp

Dissertation

Publikationsstatus

Published

Zusammenfassung

Das Paradigma des Aktiven Lernens wird häufig in praktischen Anwendungsszenarien angewendet, um große Datenmengen mit Hilfe eines menschlichen Experten zu klassifizieren. Durch eine gezielte Auswahl soll die Anzahl der Muster reduziert werden, die vom Experten klassifiziert werden müssen um ein stabiles Klassifikationsmodell zu lernen. Bei bisherigen Ansätzen im Bereich des Aktiven Lernens wird oft angenommen, dass ein stabiles Klassifikationsmodell bereits mit zufällig gezogenen Mustern gelernt wurde, welches mit ausgesuchten Beispielen verfeinert werden soll. In dieser Arbeit werden zwei Ansätze zum Aktiven Lernen vorgestellt, die vom ersten Beispiel an versuchen eine sinnvolle Auswahl aus den Daten zu treffen. Zunächst wird bei der Selektion von Mustern der Aspekt der Exploration betont. Nachdem ein stabiles Klassifikationsmodell gelernt wurde, konzentriert sich die Selektionsstrategie auf die Klassengrenzen.
Das erste Verfahren der "Aktiven Lernenden Vektor Quantisierung" exploriert den Datensatz mittels eines Fuzzy c-means Clusterings. Anschließend werden die vom Experten klassifizierten Cluster mit ausgesuchten Beispielen an den Klassifikationsgrenzen angepasst.
Das zweite Verfahren der "Aktiven Prototypen basierten Klassifikation" generiert in jeder Lerniteration einen Prototypen für eine k-nächste Nachbarn Klassifikation. Dieser Ansatz kombiniert die Aspekte der Exploration und der Verfeinerung der Klassengrenzen mittels einer neu entwickelten Unsicherheitsverteilung miteinander. Dabei findet mit zunehmender Anzahl von klassifizierten Mustern ein fließender Übergang zwischen Exploration und Verfeinerung der Klassengrenzen statt.
Anhand der spezifischen Anwendung der Verfahren für die Klassifikation von Zellbildern durch einen Biologen wird der praktische Nutzen aufgezeigt. Die beiden Ansätzen zugrunde liegende Strategie, die Daten zunächst zu explorieren und anschließend das Klassifikationsmodell zu verfeinern stellt sich als vorteilhat für die Performanz und Stabilität gegenüber bisher entwickelten aktiven Lernverfahren heraus.

Zusammenfassung in einer weiteren Sprache

The paradigm of active learning is often used to classify large datasets with the help of a human expert in different application areas. The number of examples that need to be classified by the expert in order to build a stable model can be reduced with a selective sampling strategy.
Current state-of-the-art active learning algorithms often deal insufficently with the aspect of exploration. They assume that a stable classification model has been already build and needs to be refined with further carefully selected examples. In this dissertation, two new approaches are introduced that include the aspect of exploration in active learning. In contrast to most of the other active learning methods, the selection strategy is applied from the very first example. After a stable classification model has been build, the selection strategy focuses on the classification boundaries.
The first approach called "Active Learning Vector Quantization" explorates the data with a global clustering method. In a second phase, the human-classified clusters are further refined with selected examples.
The second approach called "Prototype Based Active Classification" creates a new prototype for a k-nearest neighbour classification in each learning iteration. The selection of a data-point as a prototype depends on a combination of its representativeness of neighboring unlabeled data-points and the uncertainty of the classifier in predicting its class label. The proposed approach combines the trade-offs of exploration and exploitation via the newly developed uncertainty distribution seamlessly. With each learning iteration the effect of exploration reduces and exploitation increases.
The practical application is demonstrated by a specific application in the field of bioinformatics.
The strategy of first exploring the dataset and subsequently improving the classification model turns out to be beneficial for classification performance and classifier stability.

Fachgebiet (DDC)

004 Informatik

Schlagwörter

Aktives Lernen, Machine Learning, Active Learning, Clustering, k-nearest neighbor

Zitieren

ISO 690

CEBRON, Nicolas, 2008. Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung [Dissertation]. Konstanz: University of Konstanz

BibTex

@phdthesis{Cebron2008Aktiv-5461,
  year={2008},
  title={Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung},
  author={Cebron, Nicolas},
  address={Konstanz},
  school={Universität Konstanz}
}

RDF

<rdf:RDF
    xmlns:dcterms="http://purl.org/dc/terms/"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:bibo="http://purl.org/ontology/bibo/"
    xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#"
    xmlns:foaf="http://xmlns.com/foaf/0.1/"
    xmlns:void="http://rdfs.org/ns/void#"
    xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > 
  <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/5461">
    <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dcterms:issued>2008</dcterms:issued>
    <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/5461"/>
    <dcterms:alternative>Active learning for classification of large datasets using exploration and exploitation</dcterms:alternative>
    <foaf:homepage rdf:resource="http://localhost:8080/"/>
    <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/>
    <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dspace:hasBitstream rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/5461/1/Diss_NCebron.pdf"/>
    <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2011-03-24T15:55:36Z</dcterms:available>
    <dc:contributor>Cebron, Nicolas</dc:contributor>
    <dc:creator>Cebron, Nicolas</dc:creator>
    <dcterms:rights rdf:resource="https://rightsstatements.org/page/InC/1.0/"/>
    <dc:language>deu</dc:language>
    <dcterms:hasPart rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/5461/1/Diss_NCebron.pdf"/>
    <dcterms:abstract xml:lang="deu">Das Paradigma des Aktiven Lernens wird häufig in praktischen Anwendungsszenarien angewendet, um große Datenmengen mit Hilfe eines menschlichen Experten zu klassifizieren. Durch eine gezielte Auswahl soll die Anzahl der Muster reduziert werden, die vom Experten klassifiziert werden müssen um ein stabiles Klassifikationsmodell zu lernen. Bei bisherigen Ansätzen im Bereich des Aktiven Lernens wird oft angenommen, dass ein stabiles Klassifikationsmodell bereits mit zufällig gezogenen Mustern gelernt wurde, welches mit ausgesuchten Beispielen verfeinert werden soll. In dieser Arbeit werden zwei Ansätze zum Aktiven Lernen vorgestellt, die vom ersten Beispiel an versuchen eine sinnvolle Auswahl aus den Daten zu treffen. Zunächst wird bei der Selektion von Mustern der Aspekt der Exploration betont. Nachdem ein stabiles Klassifikationsmodell gelernt wurde, konzentriert sich die Selektionsstrategie auf die Klassengrenzen.&lt;br /&gt;Das erste Verfahren der "Aktiven Lernenden Vektor Quantisierung" exploriert den Datensatz mittels eines Fuzzy c-means Clusterings. Anschließend werden die vom Experten klassifizierten Cluster mit ausgesuchten Beispielen an den Klassifikationsgrenzen angepasst.&lt;br /&gt;Das zweite Verfahren der "Aktiven Prototypen basierten Klassifikation" generiert in jeder Lerniteration einen Prototypen für eine k-nächste Nachbarn Klassifikation. Dieser Ansatz kombiniert die Aspekte der Exploration und der Verfeinerung der Klassengrenzen mittels einer neu entwickelten Unsicherheitsverteilung miteinander. Dabei findet mit zunehmender Anzahl von klassifizierten Mustern ein fließender Übergang zwischen Exploration und Verfeinerung der Klassengrenzen statt.&lt;br /&gt;Anhand der spezifischen Anwendung der Verfahren für die Klassifikation von Zellbildern durch einen Biologen wird der praktische Nutzen aufgezeigt. Die beiden Ansätzen zugrunde liegende Strategie, die Daten zunächst zu explorieren und anschließend das Klassifikationsmodell zu verfeinern stellt sich als vorteilhat für die Performanz und Stabilität gegenüber bisher entwickelten aktiven Lernverfahren heraus.</dcterms:abstract>
    <dc:rights>terms-of-use</dc:rights>
    <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2011-03-24T15:55:36Z</dc:date>
    <dcterms:title>Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung</dcterms:title>
    <dc:format>application/pdf</dc:format>
  </rdf:Description>
</rdf:RDF>

Prüfungsdatum der Dissertation

May 27, 2008

Publikation: Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung

Dateien

Datum

Autor:innen

Herausgeber:innen

Kontakt

ISSN der Zeitschrift

item.preview.dc.identifier.eissn

ISBN

Bibliografische Daten

Verlag

Schriftenreihe

Auflagebezeichnung

URI (zitierfähiger Link)

DOI (zitierfähiger Link)

item.preview.dc.identifier.arxiv

Internationale Patentnummer

Link zur Lizenz

Angaben zur Forschungsförderung

Projekt

Open Access-Veröffentlichung

Sammlungen

Core Facility der Universität Konstanz

Gesperrt bis

Titel in einer weiteren Sprache

Publikationstyp

Publikationsstatus

Erschienen in

Zusammenfassung

Zusammenfassung in einer weiteren Sprache

Fachgebiet (DDC)

Schlagwörter

Konferenz

Rezension

Forschungsvorhaben

Organisationseinheiten

Zeitschriftenheft

Zugehörige Datensätze in KOPS

Zitieren

Interner Vermerk

xmlui.Submission.submit.DescribeStep.inputForms.label.kops_note_fromSubmitter

Kontakt

URL der Originalveröffentl.

Prüfdatum der URL

Prüfungsdatum der Dissertation

Finanzierungsart

Kommentar zur Publikation

Allianzlizenz

Corresponding Authors der Uni Konstanz vorhanden

Internationale Co-Autor:innen

Universitätsbibliographie

Begutachtet

Diese Publikation teilen

Publikation:
Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung