Visual Document Analysis : Towards a Semantic Analysis of Large Document Collections

Oelke, Daniela

Visual Document Analysis : Towards a Semantic Analysis of Large Document Collections

dc.contributor.author	Oelke, Daniela
dc.date.accessioned	2011-03-24T16:09:25Z	deu
dc.date.available	2011-03-24T16:09:25Z	deu
dc.date.issued	2010	deu
dc.description.abstract	Viele Daten sind nur in textueller Form verfügbar. Da Text zu den semi-strukturierten Datentypen gehört und natürliche Sprache sich durch erstaunliche Flexibilität und Komplexität auszeichnet, stellt die Entwicklung von automatischen Methoden eine herausfordernde Aufgabe dar. Der vorliegenden Arbeit liegt ein Framework zur Analyse von Dokumenten(kollektionen) zugrunde, das den gesamten Analyseprozess berücksichtigt. Die zentrale Annahme des Frameworks ist, dass die meisten Analyseaufgaben kein vollständiges Textverständnis erfordern. Stattdessen können ein oder mehrere semantische Aspekte identifiziert werden (genannt quasi-semantische Maße), die relevant für die Bearbeitung einer Analyseaufgabe sind. Das erlaubt es, gezielt nach Kombinationen von (messbaren) Texteigenschaften zu suchen, die in der Lage sind, den spezifischen semantischen Aspekt zu approximieren. Diese Approximation wird dann verwendet, um die Analyseaufgabe maschinell zu bearbeiten oder um Unterstützung durch Visualisierungstechniken anzubieten. Die Doktorarbeit diskutiert das oben genannte Framework theoretisch und präsentiert konkrete Anwendungsbeispiele aus vier verschiedenen Domänen: Literaturanalyse, Lesbarkeitsanalyse, Extraktion von diskriminierenden und überlappenden Termen, sowie Stimmungs- und Meinungsanalyse. Hierbei werden die Vorteile aufgezeigt, die eine Arbeit mit dem Framework mit sich bringt. Ein Schwerpunkt wird darauf gelegt, wo und wie Visualisierungstechniken gewinnbringend im Analyseprozess eingesetzt werden können. Neue Darstellungsarten werden vorgestellt und bewährte Techniken auf ihre Tauglichkeit in diesem Kontext untersucht. Darüber hinaus werden mehrere Beispiele dafür gegeben, wie gute Approximationen von semantischen Aspekten gefunden werden können und wie vorhandene Maße evaluiert und verbessert werden können.	deu
dc.description.version	published
dc.format.mimetype	application/pdf	deu
dc.identifier.ppn	330181882	deu
dc.identifier.uri	http://kops.uni-konstanz.de/handle/123456789/6078
dc.language.iso	eng	deu
dc.legacy.dateIssued	2010	deu
dc.rights	terms-of-use	deu
dc.rights.uri	https://rightsstatements.org/page/InC/1.0/	deu
dc.subject	Dokumentenanalyse	deu
dc.subject	Textanalyse	deu
dc.subject	Visuelle Datenexploration	deu
dc.subject	document analysis	deu
dc.subject	text analysis	deu
dc.subject	visual data exploration	deu
dc.subject.ccs	H.2.8.l	deu
dc.subject.ccs	I.6.9	deu
dc.subject.ccs	I.2.7	deu
dc.subject.ccs	I.7.5	deu
dc.subject.ccs	H.2.8	deu
dc.subject.ddc	004	deu
dc.subject.gnd	Dokumentanalyse	deu
dc.subject.gnd	Semantische Analyse	deu
dc.subject.gnd	Explorative Datenanalyse	deu
dc.title	Visual Document Analysis : Towards a Semantic Analysis of Large Document Collections	eng
dc.title.alternative	Visuelle Dokumentenanalyse	deu
dc.title.alternative	In Richtung einer semantischen Analyse großer Dokumentenkollektionen	deu
dc.type	DOCTORAL_THESIS	deu
dspace.entity.type	Publication
kops.citation.bibtex	@phdthesis{Oelke2010Visua-6078, year={2010}, title={Visual Document Analysis : Towards a Semantic Analysis of Large Document Collections}, author={Oelke, Daniela}, address={Konstanz}, school={Universität Konstanz} }
kops.citation.iso690	OELKE, Daniela, 2010. Visual Document Analysis : Towards a Semantic Analysis of Large Document Collections [Dissertation]. Konstanz: University of Konstanz	deu
kops.citation.iso690	OELKE, Daniela, 2010. Visual Document Analysis : Towards a Semantic Analysis of Large Document Collections [Dissertation]. Konstanz: University of Konstanz	eng
kops.citation.rdf	<rdf:RDF xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:bibo="http://purl.org/ontology/bibo/" xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:void="http://rdfs.org/ns/void#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/6078"> <dcterms:hasPart rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/6078/1/Dissertation_Oelke.pdf"/> <dcterms:abstract xml:lang="deu">Viele Daten sind nur in textueller Form verfügbar. Da Text zu den semi-strukturierten Datentypen gehört und natürliche Sprache sich durch erstaunliche Flexibilität und Komplexität auszeichnet, stellt die Entwicklung von automatischen Methoden eine herausfordernde Aufgabe dar.<br />Der vorliegenden Arbeit liegt ein Framework zur Analyse von Dokumenten(kollektionen) zugrunde, das den gesamten Analyseprozess berücksichtigt. Die zentrale Annahme des Frameworks ist, dass die meisten Analyseaufgaben kein vollständiges Textverständnis erfordern. Stattdessen können ein oder mehrere semantische Aspekte identifiziert werden (genannt quasi-semantische Maße), die relevant für die Bearbeitung einer Analyseaufgabe sind. Das erlaubt es, gezielt nach Kombinationen von (messbaren) Texteigenschaften zu suchen, die in der Lage sind, den spezifischen semantischen Aspekt zu approximieren. Diese Approximation wird dann verwendet, um die Analyseaufgabe maschinell zu bearbeiten oder um Unterstützung durch Visualisierungstechniken anzubieten.<br />Die Doktorarbeit diskutiert das oben genannte Framework theoretisch und präsentiert konkrete Anwendungsbeispiele aus vier verschiedenen Domänen: Literaturanalyse, Lesbarkeitsanalyse, Extraktion von diskriminierenden und überlappenden Termen, sowie Stimmungs- und Meinungsanalyse. Hierbei werden die Vorteile aufgezeigt, die eine Arbeit mit dem Framework mit sich bringt. Ein Schwerpunkt wird darauf gelegt, wo und wie Visualisierungstechniken gewinnbringend im Analyseprozess eingesetzt werden können. Neue Darstellungsarten werden vorgestellt und bewährte Techniken auf ihre Tauglichkeit in diesem Kontext untersucht. Darüber hinaus werden mehrere Beispiele dafür gegeben, wie gute Approximationen von semantischen Aspekten gefunden werden können und wie vorhandene Maße evaluiert und verbessert werden können.</dcterms:abstract> <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/> <dcterms:title>Visual Document Analysis : Towards a Semantic Analysis of Large Document Collections</dcterms:title> <dc:language>eng</dc:language> <dspace:hasBitstream rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/6078/1/Dissertation_Oelke.pdf"/> <dcterms:issued>2010</dcterms:issued> <dc:format>application/pdf</dc:format> <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/6078"/> <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/> <dc:rights>terms-of-use</dc:rights> <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2011-03-24T16:09:25Z</dc:date> <foaf:homepage rdf:resource="http://localhost:8080/"/> <dcterms:rights rdf:resource="https://rightsstatements.org/page/InC/1.0/"/> <dcterms:alternative>In Richtung einer semantischen Analyse großer Dokumentenkollektionen</dcterms:alternative> <dc:contributor>Oelke, Daniela</dc:contributor> <dcterms:alternative>Visuelle Dokumentenanalyse</dcterms:alternative> <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/> <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2011-03-24T16:09:25Z</dcterms:available> <dc:creator>Oelke, Daniela</dc:creator> </rdf:Description> </rdf:RDF>
kops.date.examination	2010-07-13	deu
kops.description.abstract	Large amounts of data are only available in textual form. However, due to the semi-structured nature of text and the impressive flexibility and complexity of natural language the development of automatic methods for text analysis is a challenging task.<br />The presented work is centered around a framework for analyzing document (collections) that takes the whole document analysis process into account. Central to this framework is the idea that most analysis tasks do not require a full text understanding. Instead, one or several semantic aspects of the text (called quasi-semantic properties) can be identied that are relevant for answering the analysis task. This permits to targetly search for combinations of (measurable) text features that are able to approximate the specific semantic aspect. Those approximations are then used to solve the analysis task computationally or to support the analysis of a document (collection) visually.<br />The thesis discusses the above mentioned framework theoretically and presents concrete application examples in four different domains: literature analysis, readability analysis, the extraction of discriminating and overlap terms, and finally sentiment and opinion analysis. Thereby, the advantages of working with the above mentioned framework are shown. A focus is put on showing where and how visualization techniques can provide valuable support in the document analysis process. Novel visualizations are introduced and common ones are evaluated for their suitability in this context. Furthermore, several examples are given how good approximations of semantic aspects of a document can be found and how given measures can be evaluated and improved.	eng
kops.description.openAccess	openaccessgreen
kops.flag.knbibliography	true
kops.identifier.nbn	urn:nbn:de:bsz:352-opus-123373	deu
kops.opus.id	12337	deu
relation.isAuthorOfPublication	9d28624c-b2ab-43bc-8614-dcbd2f46f72f
relation.isAuthorOfPublication.latestForDiscovery	9d28624c-b2ab-43bc-8614-dcbd2f46f72f

Dateien

Originalbündel

Gerade angezeigt 1 - 1 von 1

Name:: Dissertation_Oelke.pdf
Größe:: 26.59 MB
Format:: Adobe Portable Document Format

Dissertation_Oelke.pdfGröße: 26.59 MBDownloads: 1013

Sammlungen

Informatik und Informationswissenschaft: Publikationen