Publikation:

Verteilungsansätze von großen Datenmengen

Lade...
Vorschaubild

Dateien

Datum

2008

Autor:innen

Herausgeber:innen

Kontakt

ISSN der Zeitschrift

Electronic ISSN

ISBN

Bibliografische Daten

Verlag

Schriftenreihe

Auflagebezeichnung

DOI (zitierfähiger Link)
ArXiv-ID

Internationale Patentnummer

Angaben zur Forschungsförderung

Projekt

Open Access-Veröffentlichung
Open Access Green
Core Facility der Universität Konstanz

Gesperrt bis

Titel in einer weiteren Sprache

Distributing large amounts of data
Publikationstyp
Masterarbeit/Diplomarbeit
Publikationsstatus
Published

Erschienen in

Zusammenfassung

The era of single-core processors comes to an end. Only a few modern computer systems own less than two cores nowadays. To use these latterly parallel available ressources in an optimal way, the usage of data must be adapted. This adaption covers the distribution of the data. This thesis at hand is addressed to this aspect with respect to the evaluation of text-based data formats. More precisely, distributed queries are presented based on Comma Separated Values (CSV), on Extended Markup Language (XML)-based data regarding the string representation and on Extended Markup Language (XML)-based data with respect to the structure. Multiple variants for partitioning the data are presented for each approach. Especially the fragmentation of XML-based data in consideration of the structure shows the dependency between the structure itself and different approaches for partitioning the data. Therefore a possibility to generate a consistent fragmentation which is independent from the structure is presented. Distributed queries on well-known, fragmented XML-databases like wikipedia, treebank, xmark and dblp show the benefits of these approaches. Distributed XPath -queries need, depending on the fragmentation and the available ressources less than half of the time if a not-distributed query. Based on these results, further optimizations can be done. Especially the query could be improved by the usage of Pipelining on XPath.

Zusammenfassung in einer weiteren Sprache

Die Ära der Prozessoren mit einem Kern neigt sich dem Ende zu. Kaum ein modernes Computersystem besitzt heute noch weniger als zwei Kerne. Um diese neuerdings parallel verfügbaren Ressourcen optimal nutzen zu können, muss der Umgang mit Daten entsprechend angepasst werden. Diese Anpassung beinhaltet die Verteilung der zu evaluierenden Daten. Die vorliegende Arbeit befasst sich mit diesem Aspekt in Hinsicht auf die Evaluierung textbasierter Datenformate. Konkret werden verteilte Anfragen auf Comma Separated Values (CSV), auf Extended Markup Language (XML)-basierten Daten in der Zeichenkettenrepräsentation und auf Extended Markup Language (XML)-basierten Daten unter Berücksichtigung der Struktur vorgestellt. Dabei werden zu jedem der Ansätze verschiedene Partitionierungs-Varianten vorgestellt und verglichen. Speziell bei der Zerlegung von XML-basierten Daten auf Basis der Struktur wird die Abhängigkeit zwischen verschiedenen Verteilungsansätzen und genau dieser Struktur offensichtlich. Dazu wird eine Möglichkeit vorgeschlagen, wie unabhängig von der Struktur der Daten eine einheitliche Fragmentierung erreicht werden kann. Verteilte Anfragen auf fragmentierte bekannte XML-Datenbanken wie wikipedia, treebank, xmark und dblp zeigen die Vorteile dieser Ansätze auf. So benötigen verteilte XPath -Anfragen, abhängig von der Aufteilung und von verfügbaren Ressourcen, weniger als die Hälfte der Zeit lokaler Evaluationen. Basierend auf diesen Ergebnissen können weitere Optimierungen vorgenommen werden. Insbesondere die Anfrage könnte durch das Verwenden von Pipelining auf XPath weiter verbessert werden.

Fachgebiet (DDC)
004 Informatik

Schlagwörter

Verteilung, Distribution

Konferenz

Rezension
undefined / . - undefined, undefined

Forschungsvorhaben

Organisationseinheiten

Zeitschriftenheft

Zugehörige Datensätze in KOPS

Zitieren

ISO 690GRAF, Sebastian, 2008. Verteilungsansätze von großen Datenmengen [Master thesis]
BibTex
@mastersthesis{Graf2008Verte-5557,
  year={2008},
  title={Verteilungsansätze von großen Datenmengen},
  author={Graf, Sebastian}
}
RDF
<rdf:RDF
    xmlns:dcterms="http://purl.org/dc/terms/"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:bibo="http://purl.org/ontology/bibo/"
    xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#"
    xmlns:foaf="http://xmlns.com/foaf/0.1/"
    xmlns:void="http://rdfs.org/ns/void#"
    xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > 
  <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/5557">
    <dc:language>deu</dc:language>
    <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dcterms:hasPart rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/5557/1/Verteilungsansaetze_von_grossen_Datenmengen.pdf"/>
    <dcterms:issued>2008</dcterms:issued>
    <dspace:hasBitstream rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/5557/1/Verteilungsansaetze_von_grossen_Datenmengen.pdf"/>
    <foaf:homepage rdf:resource="http://localhost:8080/"/>
    <dc:contributor>Graf, Sebastian</dc:contributor>
    <dcterms:title>Verteilungsansätze von großen Datenmengen</dcterms:title>
    <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2011-03-24T15:56:24Z</dcterms:available>
    <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/>
    <dc:creator>Graf, Sebastian</dc:creator>
    <dcterms:rights rdf:resource="http://creativecommons.org/licenses/by-nc-nd/2.0/"/>
    <dcterms:abstract xml:lang="eng">The era of single-core processors comes to an end. Only a few modern computer systems own less than two cores nowadays. To use these latterly parallel available ressources in an optimal way, the usage of data must be adapted. This adaption covers the distribution of the data. This thesis at hand is addressed to this aspect with respect to the evaluation of text-based data formats. More precisely, distributed queries are presented based on Comma Separated Values (CSV), on Extended Markup Language (XML)-based data regarding the string representation and on Extended Markup Language (XML)-based data with respect to the structure. Multiple variants for partitioning the data are presented for each approach. Especially the fragmentation of XML-based data in consideration of the structure shows the dependency between the structure itself and different approaches for partitioning the data. Therefore a possibility to generate a consistent fragmentation which is independent from the structure is presented. Distributed queries on well-known, fragmented XML-databases like wikipedia, treebank, xmark and dblp show the benefits of these approaches. Distributed XPath -queries need, depending on the fragmentation and the available ressources less than half of the time if a not-distributed query. Based on these results, further optimizations can be done. Especially the query could be improved by the usage of Pipelining on XPath.</dcterms:abstract>
    <dc:rights>Attribution-NonCommercial-NoDerivs 2.0 Generic</dc:rights>
    <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/5557"/>
    <dc:format>application/pdf</dc:format>
    <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2011-03-24T15:56:24Z</dc:date>
    <dcterms:alternative>Distributing large amounts of data</dcterms:alternative>
    <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
  </rdf:Description>
</rdf:RDF>

Interner Vermerk

xmlui.Submission.submit.DescribeStep.inputForms.label.kops_note_fromSubmitter

Kontakt
URL der Originalveröffentl.

Prüfdatum der URL

Prüfungsdatum der Dissertation

Finanzierungsart

Kommentar zur Publikation

Allianzlizenz
Corresponding Authors der Uni Konstanz vorhanden
Internationale Co-Autor:innen
Universitätsbibliographie
Ja
Begutachtet
Diese Publikation teilen