Deep Learning als Virtual-High-Throughput-Screening-Methode unter Verwendung von gerasterten Molekülstrukturen

Lade...
Vorschaubild
Dateien
Winter_2-uhaun1jui1e97.pdf
Winter_2-uhaun1jui1e97.pdfGröße: 6.93 MBDownloads: 309
Datum
2020
Autor:innen
Herausgeber:innen
Kontakt
ISSN der Zeitschrift
Electronic ISSN
ISBN
Bibliografische Daten
Verlag
Schriftenreihe
Auflagebezeichnung
DOI (zitierfähiger Link)
ArXiv-ID
Internationale Patentnummer
Angaben zur Forschungsförderung
Projekt
Open Access-Veröffentlichung
Open Access Green
Core Facility der Universität Konstanz
Gesperrt bis
Titel in einer weiteren Sprache
Publikationstyp
Dissertation
Publikationsstatus
Published
Erschienen in
Zusammenfassung

Virtual High-Throughput Screening ist die Anwendung von Klassifizierungsmethoden des maschinellen Lernens, um die Aktivität von Molekülen abzuschätzen. Das Ziel dabei ist es oftmals, eine Vorauswahl zu treffen, welche Moleküle am ehesten eine Chance haben, eine gewünschte biologische Aktivität zu zeigen. Dadurch lässt sich die Menge an tatsächlich im Labor durchzuführenden Tests reduzieren.

Im Bereich des maschinellen Sehens hat sich in den letzten Jahren die Anwendung von Deep Learning als besonders akkurate Methode der Klassifizierung durchgesetzt. Hierbei werden oft Convolutional Neural Networks eingesetzt, die zuerst aus den Pixeln eines Bildes abstraktere Merkmale generieren, welche sich dann zu einer besseren Klassifizierung eignen.

Das Ziel dieser Arbeit ist es, diese Methoden des maschinellen Sehens so zu adaptieren, dass sie sich zum Einsatz für das Virtual High-Throughput Screening eignen. Dies wird durch die Umwandlung der Struktur eines Moleküls in ein bildähnliches Rasterformat ermöglicht. Hierbei wird die Anordnung der Atome auf der Basis der 2D-Darstellung der Struktur vorgenommen. Als Merkmale eines jeden Atoms dienen sowohl sein kodiertes Elementsymbol als auch seine chemischen Eigenschaften. Die verwendete Netzwerkarchitektur besteht aus Convolution-Schichten zur Generierung abstrakterer Merkmale und aus Dense-Schichten, die diese Merkmale nutzen, um ein Molekül zu klassifizieren. Durch diese Aufteilung des Netzwerks ist auch ein separates Generieren von Merkmalen möglich, die dann in Kombination mit anderen Methoden genutzt werden können.

Ein weiteres Ziel dieser Arbeit ist die Interpretation dessen, was ein Netzwerk aus den Daten gelernt hat. Hierzu werden in der vorgestellten Methode Saliency Maps genutzt, um zu berechnen, welche Bereiche der Eingabedaten den größten Einfluss auf die gewählte Klasse haben. Unter Verwendung dieser Berechnung ist eine Visualisierung der Substrukturen möglich, die laut Netzwerk für die Aktivität des Moleküls verantwortlich sind. Durch ein schwellenwertbasiertes Verfahren wird außerdem eine automatische Extraktion von wichtigen Substrukturen ermöglicht, die mittels einer Bewertung nach ihrer Relevanz sortiert werden.

Die im Zuge dieser Arbeit implementierte Softwarearchitektur wird ebenfalls vorgestellt. Sie ermöglicht eine effiziente Nutzung paralleler Ressourcen, indem die Vorbereitung neuer Daten auf alle Kerne des Prozessors verteilt wird, während die vorherigen Daten gleichzeitig auf der Grafikkarte zum Training verwendet werden. Ebenfalls speichert die Architektur Zwischenergebnisse, die ein einfaches Fortsetzen von abgebrochenen oder abgestürzten Experimenten ermöglichen.

Im experimentellen Teil der Arbeit werden sinnvolle Hyperparameter für die vorgestellte Methode gesucht. Des Weiteren wird die Methode mit gängigen Methoden des Virtual High-Throughput Screenings verglichen. In diesem Vergleich zeigt sich, dass die vorgestellte Methode es mit gängigen Fingerprints durchaus aufnehmen kann. Auch das Finden von relevanten Substrukturen wird untersucht. Die tatsächlich für die Aktivität relevanten Substrukturen werden hierbei erfolgreich gefunden.

Zusammenfassung in einer weiteren Sprache
Fachgebiet (DDC)
004 Informatik
Schlagwörter
Konferenz
Rezension
undefined / . - undefined, undefined
Forschungsvorhaben
Organisationseinheiten
Zeitschriftenheft
Datensätze
Zitieren
ISO 690WINTER, Patrick, 2020. Deep Learning als Virtual-High-Throughput-Screening-Methode unter Verwendung von gerasterten Molekülstrukturen [Dissertation]. Konstanz: University of Konstanz
BibTex
@phdthesis{Winter2020Learn-49332,
  year={2020},
  title={Deep Learning als Virtual-High-Throughput-Screening-Methode unter Verwendung von gerasterten Molekülstrukturen},
  author={Winter, Patrick},
  address={Konstanz},
  school={Universität Konstanz}
}
RDF
<rdf:RDF
    xmlns:dcterms="http://purl.org/dc/terms/"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:bibo="http://purl.org/ontology/bibo/"
    xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#"
    xmlns:foaf="http://xmlns.com/foaf/0.1/"
    xmlns:void="http://rdfs.org/ns/void#"
    xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > 
  <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/49332">
    <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <bibo:uri rdf:resource="https://kops.uni-konstanz.de/handle/123456789/49332"/>
    <dcterms:issued>2020</dcterms:issued>
    <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2020-04-28T12:47:01Z</dc:date>
    <dcterms:rights rdf:resource="https://rightsstatements.org/page/InC/1.0/"/>
    <dc:contributor>Winter, Patrick</dc:contributor>
    <dspace:hasBitstream rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/49332/3/Winter_2-uhaun1jui1e97.pdf"/>
    <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/>
    <dc:rights>terms-of-use</dc:rights>
    <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/36"/>
    <dcterms:abstract xml:lang="deu">Virtual High-Throughput Screening ist die Anwendung von Klassifizierungsmethoden des maschinellen Lernens, um die Aktivität von Molekülen abzuschätzen. Das Ziel dabei ist es oftmals, eine Vorauswahl zu treffen, welche Moleküle am ehesten eine Chance haben, eine gewünschte biologische Aktivität zu zeigen. Dadurch lässt sich die Menge an tatsächlich im Labor durchzuführenden Tests reduzieren.&lt;br /&gt;&lt;br /&gt;Im Bereich des maschinellen Sehens hat sich in den letzten Jahren die Anwendung von Deep Learning als besonders akkurate Methode der Klassifizierung durchgesetzt. Hierbei werden oft Convolutional Neural Networks eingesetzt, die zuerst aus den Pixeln eines Bildes abstraktere Merkmale generieren, welche sich dann zu einer besseren Klassifizierung eignen.&lt;br /&gt;&lt;br /&gt;Das Ziel dieser Arbeit ist es, diese Methoden des maschinellen Sehens so zu adaptieren, dass sie sich zum Einsatz für das Virtual High-Throughput Screening eignen. Dies wird durch die Umwandlung der Struktur eines Moleküls in ein bildähnliches Rasterformat ermöglicht. Hierbei wird die Anordnung der Atome auf der Basis der 2D-Darstellung der Struktur vorgenommen. Als Merkmale eines jeden Atoms dienen sowohl sein kodiertes Elementsymbol als auch seine chemischen Eigenschaften. Die verwendete Netzwerkarchitektur besteht aus Convolution-Schichten zur Generierung abstrakterer Merkmale und aus Dense-Schichten, die diese Merkmale nutzen, um ein Molekül zu klassifizieren. Durch diese Aufteilung des Netzwerks ist auch ein separates Generieren von Merkmalen möglich, die dann in Kombination mit anderen Methoden genutzt werden können.&lt;br /&gt;&lt;br /&gt;Ein weiteres Ziel dieser Arbeit ist die Interpretation dessen, was ein Netzwerk aus den Daten gelernt hat. Hierzu werden in der vorgestellten Methode Saliency Maps genutzt, um zu berechnen, welche Bereiche der Eingabedaten den größten Einfluss auf die gewählte Klasse haben. Unter Verwendung dieser Berechnung ist eine Visualisierung der Substrukturen möglich, die laut Netzwerk für die Aktivität des Moleküls verantwortlich sind. Durch ein schwellenwertbasiertes Verfahren wird außerdem eine automatische Extraktion von wichtigen Substrukturen ermöglicht, die mittels einer Bewertung nach ihrer Relevanz sortiert werden.&lt;br /&gt;&lt;br /&gt;Die im Zuge dieser Arbeit implementierte Softwarearchitektur wird ebenfalls vorgestellt. Sie ermöglicht eine effiziente Nutzung paralleler Ressourcen, indem die Vorbereitung neuer Daten auf alle Kerne des Prozessors verteilt wird, während die vorherigen Daten gleichzeitig auf der Grafikkarte zum Training verwendet werden. Ebenfalls speichert die Architektur Zwischenergebnisse, die ein einfaches Fortsetzen von abgebrochenen oder abgestürzten Experimenten ermöglichen.&lt;br /&gt;&lt;br /&gt;Im experimentellen Teil der Arbeit werden sinnvolle Hyperparameter für die vorgestellte Methode gesucht. Des Weiteren wird die Methode mit gängigen Methoden des Virtual High-Throughput Screenings verglichen. In diesem Vergleich zeigt sich, dass die vorgestellte Methode es mit gängigen Fingerprints durchaus aufnehmen kann. Auch das Finden von relevanten Substrukturen wird untersucht. Die tatsächlich für die Aktivität relevanten Substrukturen werden hierbei erfolgreich gefunden.</dcterms:abstract>
    <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2020-04-28T12:47:01Z</dcterms:available>
    <dcterms:title>Deep Learning als Virtual-High-Throughput-Screening-Methode unter Verwendung von gerasterten Molekülstrukturen</dcterms:title>
    <dc:language>deu</dc:language>
    <foaf:homepage rdf:resource="http://localhost:8080/"/>
    <dc:creator>Winter, Patrick</dc:creator>
    <dcterms:hasPart rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/49332/3/Winter_2-uhaun1jui1e97.pdf"/>
  </rdf:Description>
</rdf:RDF>
Interner Vermerk
xmlui.Submission.submit.DescribeStep.inputForms.label.kops_note_fromSubmitter
Kontakt
URL der Originalveröffentl.
Prüfdatum der URL
Prüfungsdatum der Dissertation
April 20, 2020
Hochschulschriftenvermerk
Konstanz, Univ., Diss., 2020
Finanzierungsart
Kommentar zur Publikation
Allianzlizenz
Corresponding Authors der Uni Konstanz vorhanden
Internationale Co-Autor:innen
Universitätsbibliographie
Nein
Begutachtet
Diese Publikation teilen