Entwicklung eines Modells für die Repräsentation tabellenförmiger Daten aus Dokumenten
Dateien
Datum
Autor:innen
Herausgeber:innen
ISSN der Zeitschrift
Electronic ISSN
ISBN
Bibliografische Daten
Verlag
Schriftenreihe
Auflagebezeichnung
URI (zitierfähiger Link)
Internationale Patentnummer
Link zur Lizenz
Angaben zur Forschungsförderung
Projekt
Open Access-Veröffentlichung
Sammlungen
Core Facility der Universität Konstanz
Titel in einer weiteren Sprache
Publikationstyp
Publikationsstatus
Erschienen in
Zusammenfassung
Tabellen finden sich in fast jedem Medium wieder. In Zeitungen, Büchern, Rechnungen oder in elektronischen Medien vermitteln sie dem Leser strukturierte Daten, die aus bloßem Text viel weniger ersichtlich wären. Wie die Tabellen präsentiert werden, ist für den Menschen irrelevant. Nahezu ohne Schwierigkeiten ist er in der Lage, die Strukturen zu erkennen und aufzunehmen. Automatische Computer-Prozesse müssen sich hier entgegen mühsam an verschiedenen Informationsquellen bedienen, um die Datenstruktur verstehen zu können. Die Menge an verschiedenen Dokumententypen und die verschiedenen Arten von Tabellenlayouts erschweren den Prozess der automatischen Tabellenerkennung zusätzlich. Ein formatübergreifender Austausch von tabellarischen Strukturen, selbst bei den gängigsten Dokumentarten, wird nicht unterstützt. Insbesondere der Transfer von Tabellen innerhalb pixelbasierter Dokumente fehlt. Eine besondere Herausforderung besteht also darin, Tabellen aus verschiedenen Dokumentarten einheitlich abzulegen. Diese Bachelorarbeit beschreibt die Entwicklung eines solchen Modells, in dem tabellenförmige Daten dokumentübergreifend repräsentiert werden können.
Zusammenfassung in einer weiteren Sprache
Tables can be found in almost every medium. In newspapers, books, invoices or electronic media. They provide the reader with structured data, which would be by far less obvious from text only. Usually humans do not have great difficulties with recognizing structured data in table forms. Automatic computer processes have to collect these information arduously from various sources to understand the data structure. Both the amount of different document types and the different types of table layouts complicate the process of automatic table extraction. An exchange of tabular structures between the most common document types is not supported. In particular, the transfer of pixel-based tables within documents is missing. The challenge consists of storing collected table content from various types of documents uniformly. This thesis describes the development of such a model that represents tabular data across different document types.
Fachgebiet (DDC)
Schlagwörter
Konferenz
Rezension
Zitieren
ISO 690
ZINTGRAF, Fabian, 2010. Entwicklung eines Modells für die Repräsentation tabellenförmiger Daten aus Dokumenten [Bachelor thesis]BibTex
@mastersthesis{Zintgraf2010Entwi-20095, year={2010}, title={Entwicklung eines Modells für die Repräsentation tabellenförmiger Daten aus Dokumenten}, author={Zintgraf, Fabian} }
RDF
<rdf:RDF xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:bibo="http://purl.org/ontology/bibo/" xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:void="http://rdfs.org/ns/void#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/20095"> <foaf:homepage rdf:resource="http://localhost:8080/"/> <dcterms:abstract xml:lang="deu">Tabellen finden sich in fast jedem Medium wieder. In Zeitungen, Büchern, Rechnungen oder in elektronischen Medien vermitteln sie dem Leser strukturierte Daten, die aus bloßem Text viel weniger ersichtlich wären. Wie die Tabellen präsentiert werden, ist für den Menschen irrelevant. Nahezu ohne Schwierigkeiten ist er in der Lage, die Strukturen zu erkennen und aufzunehmen. Automatische Computer-Prozesse müssen sich hier entgegen mühsam an verschiedenen Informationsquellen bedienen, um die Datenstruktur verstehen zu können. Die Menge an verschiedenen Dokumententypen und die verschiedenen Arten von Tabellenlayouts erschweren den Prozess der automatischen Tabellenerkennung zusätzlich. Ein formatübergreifender Austausch von tabellarischen Strukturen, selbst bei den gängigsten Dokumentarten, wird nicht unterstützt. Insbesondere der Transfer von Tabellen innerhalb pixelbasierter Dokumente fehlt. Eine besondere Herausforderung besteht also darin, Tabellen aus verschiedenen Dokumentarten einheitlich abzulegen. Diese Bachelorarbeit beschreibt die Entwicklung eines solchen Modells, in dem tabellenförmige Daten dokumentübergreifend repräsentiert werden können.</dcterms:abstract> <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/> <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2012-08-14T08:11:50Z</dcterms:available> <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/> <dc:creator>Zintgraf, Fabian</dc:creator> <dc:contributor>Zintgraf, Fabian</dc:contributor> <dc:language>deu</dc:language> <dcterms:rights rdf:resource="https://rightsstatements.org/page/InC/1.0/"/> <dcterms:issued>2010</dcterms:issued> <dcterms:hasPart rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/20095/1/Bachelor_F_Zintgraf.pdf"/> <dcterms:title>Entwicklung eines Modells für die Repräsentation tabellenförmiger Daten aus Dokumenten</dcterms:title> <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/> <dspace:hasBitstream rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/20095/1/Bachelor_F_Zintgraf.pdf"/> <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/20095"/> <dc:rights>terms-of-use</dc:rights> <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2012-08-14T08:11:50Z</dc:date> </rdf:Description> </rdf:RDF>