Visualization of Large Document Corpora

Lade...
Vorschaubild
Dateien
Diss_Strobelt.pdf
Diss_Strobelt.pdfGröße: 27.91 MBDownloads: 541
Datum
2012
Herausgeber:innen
Kontakt
ISSN der Zeitschrift
Electronic ISSN
ISBN
Bibliografische Daten
Verlag
Schriftenreihe
Auflagebezeichnung
DOI (zitierfähiger Link)
ArXiv-ID
Internationale Patentnummer
EU-Projektnummer
DFG-Projektnummer
Angaben zur Forschungsförderung (Freitext)
Projekt
Graduiertenkolleg: "Explorative Analysis and Visualization of Large Information Spaces", Informatik und Informationswissenschaft, Uni Konstanz
Open Access-Veröffentlichung
Gesperrt bis
Titel in einer weiteren Sprache
Forschungsvorhaben
Organisationseinheiten
Zeitschriftenheft
Publikationstyp
Dissertation
Publikationsstatus
Published
Erschienen in
Zusammenfassung

Documents appear to us regularly in daily life in various designs and lengths to serve different purposes. We are used to read novels, news papers, advertisement flyers, instruction manuals, bus tickets, tube maps, etc. In addition, a lot of professional life is based on browsing through and understanding of documents. Methods to reduce stacks of printed paper on our desks and to allow bigger scalability then an office room would offer are the driving research objects of this thesis. As casual as this vision sounds as profound and manifold are the research question related to it.

The thesis at hand covers topics from content acquisition to interaction with visualizations. A compact introduction motivates document visualization from different view points and discusses former efforts. As preliminary for later use, specific methods for content extraction from document files are depicted. Document Cards use this content to represent a documents textual and image highlights as rich representatives of small scale. The cards are intended to be used in larger application to replace dots in collection browsers. For higher abstraction, tag clouds can summarize document collections. How CDTE Tag Clouds can reflect content and context changes of dynamically evolving collections is depicted in the corresponding chapter.

A common and important visual variable which is used in all visualizations in this thesis is position. Positions of data representatives can express closeness, reveal groupings, and help building mental maps. When dimensional objects like text snippets or Document Cards represent entities at specific positions, overlap can occur resulting in visual clutter. A review and evaluation on practical methods to remove overlap leads to the invention of Rolled-Out Wordles, a simple but effective method in dense visualization scenarios. The last chapter describes a design study, an interaction paradigm, and challenges of interdisciplinary work. HiTSEE for KNIME allows biochemists to observe structure activity relationship for high throughput screening experiments as integration into the KNIME platform. Although being based on biochemical data and tasks, the fundamental methods for visualization and interaction are applicable to a wide range of systems of large data visualization, including document collection browsing.

Finally, a conclusion summarizes insights and describes future work ideas.

Zusammenfassung in einer weiteren Sprache

Dokumente begegnen uns tagtäglich in unterschiedlicher Länge und vielfältiger Art um unterschiedliche Aufgaben zu erfüllen. Wir sind es gewohnt Romane, Zeitungen, Werbeflyer, Bus-Tickets, U-Bahn-Pläne, Bedienungsanleitungen, etc. zu lesen. Zusätzlich basiert eine grosse Menge des beruflichen Lebens auf dem Durchsuchen und Verstehen von Dokumenten. Techniken zu entwickeln, die den Papierstapel auf unseren Schreibtischen reduzieren und die es erlauben mehr Dokumente zu verwalten als in unsere Büros passen würden, sind die treibenden Fragen dieser Dissertation. So einfach diese Vision klingen mag, so profund und vielfältig sind die damit verknüpften wissenschaftlichen Fragestellungen.

Die vorliegende Dissertation umfasst Themen von Inhaltszugriff bis hin zu Interaktion mit Visualisierungen. Eine kompakte Einführung motiviert das Feld der Text Visualisierung aus verschiedenen Sichtweisen und bespricht zurückliegende Anstrengungen. Als Vorraussetzung für spätere Nutzung werden spezielle Techniken für die Inhaltsextraktion beschrieben. Document Cards nutzen diese Inhalte um ein Dokument mittels Text- und Bild-Highlights in kleiner Grösse zu repräsentieren. Die Cards sollten genutzt werden um Punkte als Repräsentanten in Dokument Browser Anwendungen abzulösen. Um eine höhere Abstraktion zu erreichen, können Tag Clouds ganze Textsammlungen zusammenfassen. Wie CDTE Tag Clouds den Inhalt und die Kontextwechsel für dynamisch veränderliche Sammlungen wiedergeben, wird im entsprechenden Kapitel beschrieben.

Eine allgemeine und wichtige visuelle Variable, die in allen Visualisierungen dieser Arbeit genutzt wird, ist die Position. Positionen von Datenrepräsentanten können Nähe und Gruppenzugehörigkeit ausdrücken und helfen mentale Karten zu bauen. Wenn nun dimensionale Objekte wie Textausschnitte oder Document Cards Entitäten repräsentieren, kann es zu Überdeckungen kommen die als visuelle Stördaten wahrgenommen werden. Eine Übersicht und Evaluierung von praktischen Techniken um diese Überdeckungen zu beseitigen führt zum Vorschlag von RolledOut-Wordles, einer einfachen aber effektiven Methode für dicht gepackte Anordnungen.

Das letzte Kapitel beschreibt eine Design Studie sowie ein Interaktionsparadigma und Herausforderungen bei interdisziplinärer Zusammenarbeit. HiTSEE for KNIME erlaubt es Biochemikern innerhalb der KNIME Plattform, die Struktur-Aktivitäts-Beziehungen für High-Throughput-Screening Experimente zu untersuchen. Wenngleich das Projekt auch auf biochemischen Daten und Aufgabenstellungen beruht, sind grundsätzliche Methoden der Visualisierung und Interaktion transferierbar auf Systemen für Darstellung grosser Datenmengen, wie z.B. auch Dokumenten Browser.

Ein Fazit fasst die gewonnen Erkenntnisse zusammen und sich ableitende zukünftige Forschungsthemen werden besprochen.

Fachgebiet (DDC)
004 Informatik
Schlagwörter
Informationsvisualisierung, Dokumentmanagement, BioVis, Information Visualization, Visual Analytics
Konferenz
Rezension
undefined / . - undefined, undefined
Zitieren
ISO 690STROBELT, Hendrik, 2012. Visualization of Large Document Corpora [Dissertation]. Konstanz: University of Konstanz
BibTex
@phdthesis{Strobelt2012Visua-20847,
  year={2012},
  title={Visualization of Large Document Corpora},
  author={Strobelt, Hendrik},
  address={Konstanz},
  school={Universität Konstanz}
}
RDF
<rdf:RDF
    xmlns:dcterms="http://purl.org/dc/terms/"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:bibo="http://purl.org/ontology/bibo/"
    xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#"
    xmlns:foaf="http://xmlns.com/foaf/0.1/"
    xmlns:void="http://rdfs.org/ns/void#"
    xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > 
  <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/20847">
    <dcterms:issued>2012</dcterms:issued>
    <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dc:creator>Strobelt, Hendrik</dc:creator>
    <dc:rights>terms-of-use</dc:rights>
    <foaf:homepage rdf:resource="http://localhost:8080/"/>
    <dcterms:abstract xml:lang="eng">Documents appear to us regularly in daily life in various designs and lengths to serve different purposes. We are used to read novels, news papers, advertisement flyers, instruction manuals, bus tickets, tube maps, etc. In addition, a lot of professional life is based on browsing through and understanding of documents. Methods to reduce stacks of printed paper on our desks and to allow bigger scalability then an office room would offer are the driving research objects of this thesis. As casual as this vision sounds as profound and manifold are the research question related to it.&lt;br /&gt;&lt;br /&gt;The thesis at hand covers topics from content acquisition to interaction with visualizations. A compact introduction motivates document visualization from different view points and discusses former efforts. As preliminary for later use, specific methods for content extraction from document files are depicted. Document Cards use this content to represent a documents textual and image highlights as rich representatives of small scale. The cards are intended to be used in larger application to replace dots in collection browsers. For higher abstraction, tag clouds can summarize document collections. How CDTE Tag Clouds can reflect content and context changes of dynamically evolving collections is depicted in the corresponding chapter.&lt;br /&gt;&lt;br /&gt;A common and important visual variable which is used in all visualizations in this thesis is position. Positions of data representatives can express closeness, reveal groupings, and help building mental maps. When dimensional objects like text snippets or Document Cards represent entities at specific positions, overlap can occur resulting in visual clutter. A review and evaluation on practical methods to remove overlap leads to the invention of Rolled-Out Wordles, a simple but effective method in dense visualization scenarios. The last chapter describes a design study, an interaction paradigm, and challenges of interdisciplinary work. HiTSEE for KNIME allows biochemists to observe structure activity relationship for high throughput screening experiments as integration into the KNIME platform. Although being based on biochemical data and tasks, the fundamental methods for visualization and interaction are applicable to a wide range of systems of large data visualization, including document collection browsing.&lt;br /&gt;&lt;br /&gt;Finally, a conclusion summarizes insights and describes future work ideas.</dcterms:abstract>
    <dspace:hasBitstream rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/20847/2/Diss_Strobelt.pdf"/>
    <dcterms:hasPart rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/20847/2/Diss_Strobelt.pdf"/>
    <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dc:language>eng</dc:language>
    <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/>
    <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2012-11-15T10:21:49Z</dc:date>
    <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/20847"/>
    <dcterms:rights rdf:resource="https://rightsstatements.org/page/InC/1.0/"/>
    <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2012-11-15T10:21:49Z</dcterms:available>
    <dcterms:title>Visualization of Large Document Corpora</dcterms:title>
    <dc:contributor>Strobelt, Hendrik</dc:contributor>
  </rdf:Description>
</rdf:RDF>
Interner Vermerk
xmlui.Submission.submit.DescribeStep.inputForms.label.kops_note_fromSubmitter
Kontakt
URL der Originalveröffentl.
Prüfdatum der URL
Prüfungsdatum der Dissertation
November 6, 2012
Finanzierungsart
Kommentar zur Publikation
Allianzlizenz
Corresponding Authors der Uni Konstanz vorhanden
Internationale Co-Autor:innen
Universitätsbibliographie
Ja
Begutachtet
Diese Publikation teilen