Publikation:

Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung

Lade...
Vorschaubild

Dateien

Diss_NCebron.pdf
Diss_NCebron.pdfGröße: 3.31 MBDownloads: 412

Datum

2008

Autor:innen

Cebron, Nicolas

Herausgeber:innen

Kontakt

ISSN der Zeitschrift

Electronic ISSN

ISBN

Bibliografische Daten

Verlag

Schriftenreihe

Auflagebezeichnung

DOI (zitierfähiger Link)
ArXiv-ID

Internationale Patentnummer

Angaben zur Forschungsförderung

Projekt

Open Access-Veröffentlichung
Open Access Green
Core Facility der Universität Konstanz

Gesperrt bis

Titel in einer weiteren Sprache

Active learning for classification of large datasets using exploration and exploitation
Publikationstyp
Dissertation
Publikationsstatus
Published

Erschienen in

Zusammenfassung

Das Paradigma des Aktiven Lernens wird häufig in praktischen Anwendungsszenarien angewendet, um große Datenmengen mit Hilfe eines menschlichen Experten zu klassifizieren. Durch eine gezielte Auswahl soll die Anzahl der Muster reduziert werden, die vom Experten klassifiziert werden müssen um ein stabiles Klassifikationsmodell zu lernen. Bei bisherigen Ansätzen im Bereich des Aktiven Lernens wird oft angenommen, dass ein stabiles Klassifikationsmodell bereits mit zufällig gezogenen Mustern gelernt wurde, welches mit ausgesuchten Beispielen verfeinert werden soll. In dieser Arbeit werden zwei Ansätze zum Aktiven Lernen vorgestellt, die vom ersten Beispiel an versuchen eine sinnvolle Auswahl aus den Daten zu treffen. Zunächst wird bei der Selektion von Mustern der Aspekt der Exploration betont. Nachdem ein stabiles Klassifikationsmodell gelernt wurde, konzentriert sich die Selektionsstrategie auf die Klassengrenzen.
Das erste Verfahren der "Aktiven Lernenden Vektor Quantisierung" exploriert den Datensatz mittels eines Fuzzy c-means Clusterings. Anschließend werden die vom Experten klassifizierten Cluster mit ausgesuchten Beispielen an den Klassifikationsgrenzen angepasst.
Das zweite Verfahren der "Aktiven Prototypen basierten Klassifikation" generiert in jeder Lerniteration einen Prototypen für eine k-nächste Nachbarn Klassifikation. Dieser Ansatz kombiniert die Aspekte der Exploration und der Verfeinerung der Klassengrenzen mittels einer neu entwickelten Unsicherheitsverteilung miteinander. Dabei findet mit zunehmender Anzahl von klassifizierten Mustern ein fließender Übergang zwischen Exploration und Verfeinerung der Klassengrenzen statt.
Anhand der spezifischen Anwendung der Verfahren für die Klassifikation von Zellbildern durch einen Biologen wird der praktische Nutzen aufgezeigt. Die beiden Ansätzen zugrunde liegende Strategie, die Daten zunächst zu explorieren und anschließend das Klassifikationsmodell zu verfeinern stellt sich als vorteilhat für die Performanz und Stabilität gegenüber bisher entwickelten aktiven Lernverfahren heraus.

Zusammenfassung in einer weiteren Sprache

The paradigm of active learning is often used to classify large datasets with the help of a human expert in different application areas. The number of examples that need to be classified by the expert in order to build a stable model can be reduced with a selective sampling strategy.
Current state-of-the-art active learning algorithms often deal insufficently with the aspect of exploration. They assume that a stable classification model has been already build and needs to be refined with further carefully selected examples. In this dissertation, two new approaches are introduced that include the aspect of exploration in active learning. In contrast to most of the other active learning methods, the selection strategy is applied from the very first example. After a stable classification model has been build, the selection strategy focuses on the classification boundaries.
The first approach called "Active Learning Vector Quantization" explorates the data with a global clustering method. In a second phase, the human-classified clusters are further refined with selected examples.
The second approach called "Prototype Based Active Classification" creates a new prototype for a k-nearest neighbour classification in each learning iteration. The selection of a data-point as a prototype depends on a combination of its representativeness of neighboring unlabeled data-points and the uncertainty of the classifier in predicting its class label. The proposed approach combines the trade-offs of exploration and exploitation via the newly developed uncertainty distribution seamlessly. With each learning iteration the effect of exploration reduces and exploitation increases.
The practical application is demonstrated by a specific application in the field of bioinformatics.
The strategy of first exploring the dataset and subsequently improving the classification model turns out to be beneficial for classification performance and classifier stability.

Fachgebiet (DDC)
004 Informatik

Schlagwörter

Aktives Lernen, Machine Learning, Active Learning, Clustering, k-nearest neighbor

Konferenz

Rezension
undefined / . - undefined, undefined

Forschungsvorhaben

Organisationseinheiten

Zeitschriftenheft

Zugehörige Datensätze in KOPS

Zitieren

ISO 690CEBRON, Nicolas, 2008. Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung [Dissertation]. Konstanz: University of Konstanz
BibTex
@phdthesis{Cebron2008Aktiv-5461,
  year={2008},
  title={Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung},
  author={Cebron, Nicolas},
  address={Konstanz},
  school={Universität Konstanz}
}
RDF
<rdf:RDF
    xmlns:dcterms="http://purl.org/dc/terms/"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:bibo="http://purl.org/ontology/bibo/"
    xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#"
    xmlns:foaf="http://xmlns.com/foaf/0.1/"
    xmlns:void="http://rdfs.org/ns/void#"
    xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > 
  <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/5461">
    <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dcterms:issued>2008</dcterms:issued>
    <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/5461"/>
    <dcterms:alternative>Active learning for classification of large datasets using exploration and exploitation</dcterms:alternative>
    <foaf:homepage rdf:resource="http://localhost:8080/"/>
    <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/>
    <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dspace:hasBitstream rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/5461/1/Diss_NCebron.pdf"/>
    <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2011-03-24T15:55:36Z</dcterms:available>
    <dc:contributor>Cebron, Nicolas</dc:contributor>
    <dc:creator>Cebron, Nicolas</dc:creator>
    <dcterms:rights rdf:resource="https://rightsstatements.org/page/InC/1.0/"/>
    <dc:language>deu</dc:language>
    <dcterms:hasPart rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/5461/1/Diss_NCebron.pdf"/>
    <dcterms:abstract xml:lang="deu">Das Paradigma des Aktiven Lernens wird häufig in praktischen Anwendungsszenarien angewendet, um große Datenmengen mit Hilfe eines menschlichen Experten zu klassifizieren. Durch eine gezielte Auswahl soll die Anzahl der Muster reduziert werden, die vom Experten klassifiziert werden müssen um ein stabiles Klassifikationsmodell zu lernen. Bei bisherigen Ansätzen im Bereich des Aktiven Lernens wird oft angenommen, dass ein stabiles Klassifikationsmodell bereits mit zufällig gezogenen Mustern gelernt wurde, welches mit ausgesuchten Beispielen verfeinert werden soll. In dieser Arbeit werden zwei Ansätze zum Aktiven Lernen vorgestellt, die vom ersten Beispiel an versuchen eine sinnvolle Auswahl aus den Daten zu treffen. Zunächst wird bei der Selektion von Mustern der Aspekt der Exploration betont. Nachdem ein stabiles Klassifikationsmodell gelernt wurde, konzentriert sich die Selektionsstrategie auf die Klassengrenzen.&lt;br /&gt;Das erste Verfahren der "Aktiven Lernenden Vektor Quantisierung" exploriert den Datensatz mittels eines Fuzzy c-means Clusterings. Anschließend werden die vom Experten klassifizierten Cluster mit ausgesuchten Beispielen an den Klassifikationsgrenzen angepasst.&lt;br /&gt;Das zweite Verfahren der "Aktiven Prototypen basierten Klassifikation" generiert in jeder Lerniteration einen Prototypen für eine k-nächste Nachbarn Klassifikation. Dieser Ansatz kombiniert die Aspekte der Exploration und der Verfeinerung der Klassengrenzen mittels einer neu entwickelten Unsicherheitsverteilung miteinander. Dabei findet mit zunehmender Anzahl von klassifizierten Mustern ein fließender Übergang zwischen Exploration und Verfeinerung der Klassengrenzen statt.&lt;br /&gt;Anhand der spezifischen Anwendung der Verfahren für die Klassifikation von Zellbildern durch einen Biologen wird der praktische Nutzen aufgezeigt. Die beiden Ansätzen zugrunde liegende Strategie, die Daten zunächst zu explorieren und anschließend das Klassifikationsmodell zu verfeinern stellt sich als vorteilhat für die Performanz und Stabilität gegenüber bisher entwickelten aktiven Lernverfahren heraus.</dcterms:abstract>
    <dc:rights>terms-of-use</dc:rights>
    <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2011-03-24T15:55:36Z</dc:date>
    <dcterms:title>Aktives Lernen zur Klassifikation großer Datenmengen mittels Exploration und Spezialisierung</dcterms:title>
    <dc:format>application/pdf</dc:format>
  </rdf:Description>
</rdf:RDF>

Interner Vermerk

xmlui.Submission.submit.DescribeStep.inputForms.label.kops_note_fromSubmitter

Kontakt
URL der Originalveröffentl.

Prüfdatum der URL

Prüfungsdatum der Dissertation

May 27, 2008
Finanzierungsart

Kommentar zur Publikation

Allianzlizenz
Corresponding Authors der Uni Konstanz vorhanden
Internationale Co-Autor:innen
Universitätsbibliographie
Begutachtet
Diese Publikation teilen