Freigeben über


Illumina Platinum Genomes

Mithilfe der vollständigen Genomsequenzierung können Wissenschaftler weltweit das menschliche Genom besser und genauer charakterisieren. Hierfür ist ein umfassender, genomweiter Katalog hochwahrscheinlicher Varianten in einer Genomgruppe als Maßstab nötig. Illumina hat vollständige Genomsequenzdaten von 17 Individuen aus drei Generationen generiert und die Varianten in jedem Genom mithilfe verschiedener, derzeit verfügbarer Algorithmen ermittelt.

Weitere Informationen zu den Daten finden Sie auf der offiziellen Illumina-Website.

Hinweis

Microsoft stellt Datasets der Plattform Azure Open Datasets auf einer „As is“-Basis (d. h. ohne Mängelgewähr) zur Verfügung. Microsoft übernimmt weder ausdrücklich noch stillschweigend die Gewährleistung für Ihre Nutzung der Datasets und sichert keinerlei Garantien oder Bedingungen zu. Soweit nach örtlich anwendbarem Recht zulässig, lehnt Microsoft jegliche Haftung für Schäden oder Verluste ab. Dies schließt direkte, indirekte, besondere oder zufällige Schäden oder Verluste sowie Folge- und Strafschäden und damit verbundene Verluste ein, die sich aus Ihrer Nutzung der Datasets ergeben.

Für die Bereitstellung dieses Datasets gelten die ursprünglichen Nutzungsbedingungen, unter denen Microsoft die Quelldaten bezogen hat. Das Dataset kann Daten von Microsoft enthalten.

Datenquellen-

Dieses Dataset ist eine Spiegelung von ftp://ussd-ftp.illumina.com/.

Datenvolumes und Aktualisierungshäufigkeit

Dieses Dataset enthält etwa 2 GB Daten und wird täglich aktualisiert.

Speicherort

Dieses Dataset wird in den Azure-Regionen „USA, Westen 2“ und „USA, Westen-Mitte“ gespeichert. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in den Regionen „USA, Westen 2“ oder „USA, Westen-Mitte“ empfohlen.

Datenzugriff

USA, Westen 2: https://datasetplatinumgenomes.blob.core.windows.net/dataset

USA, Westen-Mitte: ‚ https://datasetplatinumgenomes-secondary.blob.core.windows.net/dataset ‘

Nutzungsbedingungen

Die Daten stehen uneingeschränkt zur Verfügung. Weitere Informationen und Zitatdetails finden Sie auf der offiziellen Illumina-Website.

Contact

Bei Fragen oder Feedback zum Dataset wenden Sie sich an platinumgenomes@illumina.com.

Datenzugriff

Azure Notebooks

Abrufen von „Illumina Platinum Genomes“ aus Azure Open Datasets und Durchführen der ersten Analyse

Verwenden Sie Jupyter Notebooks, GATK und Picard in Analysen wie:

  1. Kommentieren von Genotypen mit VariantFiltration
  2. Auswählen bestimmter Varianten
  3. Filtern der relevanten Varianten – keine Aufrufe ODER bestimmte Regionen
  4. Durchführen einer Übereinstimmungsanalyse
  5. Konvertieren der endgültigen VCF-Dateien in eine Tabelle

Abhängigkeiten:

Für dieses Notebook sind die folgenden Bibliotheken erforderlich:

  • Azure Storage pip install azure-storage-blob

  • numpy pip install numpy

  • Genome Analysis Toolkit (GATK) (Benutzer müssen GATK von der Webseite des Broad Institute mit diesem Notebook in dieselbe Compute-Umgebung herunterladen: https://github.com/broadinstitute/gatk/releases )

Wichtige Information: Dieses Notebook verwendet den Python 3.6-Kernel.

Abrufen der Genomics-Daten aus Azure Open Datasets

Hier finden Sie eine Reihe von öffentlichen Genomikdaten, die in Azure Open Dataset hochgeladen wurden. Es wurde ein Blob-Dienst erstellt, der mit dieser Open Dataset-Instanz verknüpft ist. Beispiele zur Vorgehensweise beim Aufrufen von Daten aus Azure Open Dataset für Illumina Platinum Genomes-Datasets:

Herunterladen des spezifischen „Illumina Platinum Genomes“

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetplatinumgenomes', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D')     
blob_service_client.get_blob_to_path('dataset/2017-1.0/hg38/small_variants/NA12877', 'NA12877.vcf.gz', './NA12877.vcf.gz')

1. Kommentieren von Genotypen mit VariantFiltration

Wichtiger Hinweis: Überprüfen Sie, ob Ihr GATK auf Ihrem System ausgeführt wird.

Wenn wir heterozygote Genotypen filtern möchten, verwenden wir die VariantFiltration-Option --genotype-filter-expression isHet == 1. Wir können den Anmerkungswert für das Tool angeben, um die heterozygoten Genotypen mit der Option --genotype-filter-name zu bezeichnen. Hier wird der Wert dieses Parameters auf isHetFilter festgelegt. In unserem ersten Beispiel haben wir NA12877.vcf.gz aus „Illumina Platinum Genomes“ verwendet, aber Benutzer können beliebige VCF-Dateien aus anderen Datasets verwenden:Platinum Genomes

run gatk VariantFiltration -V NA12877.vcf.gz -O outputannot.vcf --genotype-filter-expression "isHet == 1" --genotype-filter-name "isHetFilter"

2. Auswählen bestimmter Varianten

Wählen Sie eine Teilmenge von Varianten aus einer VCF-Datei aus. Dieses Tool ermöglicht es, eine Teilmenge von Varianten basierend auf verschiedenen Kriterien auszuwählen, um bestimmte Analysen zu unterstützen. Beispiele für solche Analysen sind das Vergleichen und Gegenüberstellen von Fällen und Kontrollen, das Extrahieren von varianten oder nicht varianten Loci, die bestimmte Anforderungen erfüllen, oder die Problembehandlung einiger unerwarteter Ergebnisse, um nur einige zu nennen.

Es gibt viele verschiedene Optionen zum Auswählen von Teilmengen von Varianten aus einem größeren Aufrufsatz:

Extrahieren Sie eine oder mehrere Stichproben aus einem Aufrufsatz basierend auf einem vollständigen Stichprobennamen oder einem Musterabgleich. Geben Sie Kriterien für den Einschluss an, die Schwellenwerte für Anmerkungswerte festlegen, z. B. „DP > 1000“ (Abdeckungstiefe größer als 1000x), „AF < 0,25“ (Stellen mit einer Allelhäufigkeit kleiner als 0,25). Diese Kriterien werden als „JEXL-Ausdrücke“ geschrieben, die im Artikel zur Verwendung von JEXL-Ausdrücken dokumentiert sind. Stellen Sie Übereinstimmungs- oder Nichtübereinstimmungs-Tracks bereit, um Varianten einzuschließen oder auszuschließen, die auch in anderen angegebenen Aufrufsätzen vorhanden sind. Wählen Sie Varianten basierend auf Kriterien wie ihrem Typ (z. B. nur INDELs), Anzeichen für mendelsche Verletzungen, Filterstatus, Allelizität usw. aus. Es gibt auch mehrere Optionen zum Aufzeichnen der ursprünglichen Werte bestimmter Anmerkungen, die neu berechnet werden, wenn eine Teilmenge des neuen Aufrufsatzes erstellt wird, Allele gekürzt werden usw.

Eingabe: Ein Varianten-Aufrufsatz im VCF-Format, aus dem eine Teilmenge ausgewählt werden kann.

Ausgabe: Eine neue VCF-Datei, die die ausgewählte Teilmenge von Varianten enthält.

run gatk SelectVariants -R Homo_sapiens_assembly38.fasta -V outputannot.vcf --select-type-to-include SNP --select-type-to-include INDEL -O selective.vcf

3. Transformieren gefilterter Genotypen in „No call“

Wenn Sie SelectVariants mit „--set-filtered-gt-to-nocall“ ausführen, werden die gekennzeichneten Genotypen weiter mit einem Null-Genotyp-Aufruf weiter transformiert.

Diese Konvertierung ist erforderlich, da Downstreamtools das Filterfeld auf FORMAT-Ebene nicht analysieren.

Wie können wir die Varianten mit „No call“ filtern?

run gatk SelectVariants -V outputannot.vcf --set-filtered-gt-to-nocall -O outputnocall.vcf

4. Überprüfen der Übereinstimmung der VCF-Datei mit Ground Truth

Werten Sie die Übereinstimmung auf der Ebene der Stelle einer Eingabe-VCF anhand einer Truth-VCF aus. Dieses Tool wertet zwei variante Aufrufsätze gegeneinander aus und erzeugt eine sechsspaltige Tabelle mit zusammenfassenden Metriken.

Diese Funktion führt Folgendes aus:

  1. Stratifiziert SNP- und INDEL-Aufrufe
  2. Meldet richtig positive, falsch positive und falsch negative Aufrufe
  3. Berechnet Empfindlichkeit und Genauigkeit

Das Tool geht davon aus, dass alle Datensätze in der --truth-VCF Truth-Varianten übergeben. Für die -eval-VCF verwendet das Tool nur ungefilterte Übergabeaufrufe.

Optional kann das Tool so eingestellt werden, dass VCFs der folgenden Variantendatensätze erzeugt werden, die mit dem Status der einzelnen Varianten versehen sind:

Richtig positive und falsch negative Ergebnisse (d. h. alle Varianten in der Truth-VCF): nützlich zum Berechnen der Empfindlichkeit

Richtig positive und falsch positive Ergebnisse (d. h. alle Varianten in der Eval-VCF): nützlich zum Abrufen eines Trainingsdatensets für Machine Learning-Klassifizierer von Artefakten

Diese Ausgabe-VCFs können an VariantsToTable übergeben werden, um eine TSV-Datei für die statistische Analyse in R oder Python zu erstellen.

 run gatk Concordance -R Homo_sapiens_assembly38.fasta -eval outputannot.vcf --truth outputnocall.vcf  --summary summary.tsv 

5. VariantsToTable

Extrahieren Sie Felder aus einer VCF-Datei in eine durch Tabstopps getrennte Tabelle. Dieses Tool extrahiert angegebene Felder für jede Variante in einer VCF-Datei in eine durch Tabstopps getrennte Tabelle, die möglicherweise einfacher zu verwenden ist als eine VCF. Standardmäßig extrahiert das Tool nur PASS- oder (ungefilterte) Varianten in der VCF-Datei. Gefilterte Varianten können in die Ausgabe eingeschlossen werden, indem das Flag „--show-filtered“ hinzugefügt wird. Das Tool kann sowohl INFO-Felder (d. h. Felder auf der Ebene der Stelle) als auch FORMAT-Felder (d. h. Felder auf der Ebene der Stichprobe) extrahieren.

INFO-Felder/Felder auf der Ebene der Stelle:

Verwenden Sie das -F-Argument, um INFO-Felder zu extrahieren. Jedes Feld belegt eine einzelne Spalte in der Ausgabedatei. Das Feld kann eine beliebige VCF-Standardspalte (z. B. CHROM, ID, QUAL) oder ein beliebiger Anmerkungsname im INFO-Feld (z. B. AC, AF) sein. Das Tool unterstützt auch die folgenden Felder:

EVENTLENGTH (Länge des Ereignisses) TRANSITION (1 für eine biallelische Transition (SNP), 0 für eine biallelische Transversion (SNP), -1 für INDELs und multiallelische) HET (Anzahl heterozygoter Genotypen) HOM-REF (Anzahl homozygoter Referenzgenotypen) HOM-VAR (Anzahl homozygoter Variantengenotypen) NO-CALL (Anzahl von No-call-Genotypen) TYPE (Variantentyp, mögliche Werte sind NO_VARIATION, SNP, MNP, INDEL, SYMBOLIC und MIXED VAR (Anzahl der Nicht-Referenz-Genotypen) NSAMPLES (Anzahl der Stichproben) NCALLED (Anzahl der aufgerufenen Stichproben) MULTI-ALLELIC (ist diese Variante multiallelisch? wahr/falsch)

FORMAT-Felder/Felder auf der Ebene der Stichprobe:

Verwenden Sie das Argument -GF, um FORMAT-Felder/Felder auf der Ebene der Stichprobe zu extrahieren. Das Tool erstellt pro Stichprobe eine neue Spalte mit dem Namen „SAMPLE_NAME. FORMAT_FIELD_NAME“ z. B. NA12877.GQ, NA12878.GQ.

Eingabe:

Eine VCF-Datei, die in eine Tabelle konvertiert werden soll

Ausgabe:

Eine Datei mit Tabstopptrennzeichen, die die Werte der angeforderten Felder in der VCF-Datei enthält.

run gatk VariantsToTable -V NA12877.vcf.gz -F CHROM -F POS -F TYPE -F AC -F AD -F AF -GF DP -GF AD -O outputtable.table

Referenzen

  1. VariantFiltration: https://gatk.broadinstitute.org/hc/en-us/articles/360036827111-VariantFiltration
  2. Auswählen von Varianten: https://gatk.broadinstitute.org/hc/en-us/articles/360037052272-SelectVariants
  3. Übereinstimmung: https://gatk.broadinstitute.org/hc/en-us/articles/360041851651-Concordance
  4. Varianten in Tabelle: https://gatk.broadinstitute.org/hc/en-us/articles/360036882811-VariantsToTable
  5. Illumina Platinum Genomes: https://www.illumina.com/platinumgenomes.html

Nächste Schritte

Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.