Illumina Platinum Genomes
Dankzij WGS (whole genome sequencing) kunnen onderzoekers wereldwijd het menselijk genoom vollediger en nauwkeuriger karakteriseren. Deze inspanning vereist een uitgebreide, genoombrede catalogus met varianten met hoge betrouwbaarheid die in een set genomen als benchmark worden aangeroepen. Illumina heeft diepe, volledige genoomreeksgegevens gegenereerd van 17 personen in een pedigree van drie generatie. Illumina noemde varianten in elk genoom met behulp van een reeks momenteel beschikbare algoritmen.
Zie de officiële Illumina-site voor meer informatie over de gegevens.
Notitie
Microsoft biedt Azure Open Datasets op basis van 'zoals is'. Microsoft geeft geen garanties, uitdrukkelijk of impliciet, garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover toegestaan volgens uw lokale wetgeving, wijst Microsoft alle aansprakelijkheid af voor eventuele schade of verliezen, waaronder directe, gevolgschade, speciale, indirecte, incidentele of strafbare gegevenssets, die het gevolg zijn van uw gebruik van de gegevenssets.
Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.
Gegevensbron
Deze gegevensset is een spiegel van ftp://ussd-ftp.illumina.com/
Gegevensvolumes en updatefrequentie
Deze gegevensset bevat ongeveer 2 GB aan gegevens en wordt dagelijks bijgewerkt.
Opslaglocatie
Deze gegevensset is opgeslagen in de Azure-regio's US - west 2 en VS - west-centraal. We raden u aan rekenresources te zoeken in VS - west 2 of VS - west-centraal voor affiniteit.
Data Access
VS - west 2: 'https://datasetplatinumgenomes.blob.core.windows.net/dataset'
VS - west-centraal: 'https://datasetplatinumgenomes-secondary.blob.core.windows.net/dataset'
Gebruiksrechtovereenkomst
De gegevens zijn zonder beperkingen beschikbaar. Zie de officiële Illumina-site voor meer informatie en bronvermeldingen.
Contactpersoon
Neem voor vragen of feedback over de gegevensset contact op platinumgenomes@illumina.com.
Toegang tot gegevens
Azure Notebooks
De Illumina Platinum Genomes ophalen uit Azure Open Datasets en Initiële analyse uitvoeren
Gebruik Jupyter-notebooks, GATK en Microsoft In analyses zoals:
- Aantekeningen toevoegen aan genotypes met variantfiltratie
- Specifieke varianten selecteren
- De relevante varianten filteren: geen aanroepen OF specifieke regio's
- Concordantieanalyse uitvoeren
- De uiteindelijke VCF-bestanden converteren naar een tabel
Afhankelijkheden:
Voor dit notebook zijn de volgende bibliotheken vereist:
Azure Storage
pip install azure-storage-blob
numpy
pip install numpy
Genome Analysis Toolkit (GATK) (Gebruikers moeten GATK downloaden van de webpagina van Broad Institute naar dezelfde rekenomgeving met dit notebook: https://github.com/broadinstitute/gatk/releases)
Belangrijke informatie: dit notebook maakt gebruik van python 3.6-kernel
De Genomics-gegevens ophalen uit Azure Open Datasets
Hier zijn verschillende openbare genomics-gegevens geüpload als een Azure Open Dataset. We maken een blobservice die is gekoppeld aan deze geopende gegevensset. U vindt voorbeelden van een procedure voor het aanroepen van gegevens uit Azure Open Dataset voor Illumina Platinum Genomes
gegevenssets als:
De specifieke 'Illumina Platinum Genomes' downloaden
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetplatinumgenomes', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D')
blob_service_client.get_blob_to_path('dataset/2017-1.0/hg38/small_variants/NA12877', 'NA12877.vcf.gz', './NA12877.vcf.gz')
1. Aantekeningen toevoegen aan genotypes met behulp van VariantFiltratie
Belangrijke opmerking: Controleer of uw GATK wordt uitgevoerd op uw systeem.
Als we heterozygous genotypes willen filteren, gebruiken we de optie VariantFiltratie --genotype-filter-expression isHet == 1
. We kunnen de aantekeningswaarde voor het hulpprogramma opgeven om de heterozygous genotypes te labelen met de --genotype-filter-name
optie. Hier is de waarde van deze parameter ingesteld op isHetFilter
. In ons eerste voorbeeld hebben we Illimina Platinum Genomes gebruikt NA12877.vcf.gz
, maar gebruikers kunnen vcf-bestanden uit andere gegevenssets gebruiken:Platinum Genomes
run gatk VariantFiltration -V NA12877.vcf.gz -O outputannot.vcf --genotype-filter-expression "isHet == 1" --genotype-filter-name "isHetFilter"
2. Specifieke varianten selecteren
Selecteer een subset met varianten uit een VCF-bestand. Met dit hulpprogramma kunt u een subset van varianten selecteren op basis van verschillende criteria om bepaalde analyses te vergemakkelijken. Voorbeelden van dergelijke analyses zijn het vergelijken en contrasteren van gevallen versus besturingselementen, het extraheren van variant of niet-variant loci die voldoen aan bepaalde vereisten, of het oplossen van problemen met een aantal onverwachte resultaten.
Er zijn veel verschillende opties voor het selecteren van subsets van varianten uit een grotere aanroepset:
Pak een of meer voorbeelden uit een aanroepset op basis van een volledige voorbeeldnaam of een patroonovereenkomst. Geef criteria op voor opname waarbij drempelwaarden voor aantekeningswaarden worden geplaatst, bijvoorbeeld 'DP > 1000' (diepte van dekking groter dan 1000x), 'AF < 0,25' (sites met een frequentie van minder dan 0,25). Deze criteria worden geschreven als 'JEXL-expressies', die worden beschreven in het artikel over het gebruik van JEXL-expressies. Geef concordantie- of discordantiesporen op om varianten op te nemen of uit te sluiten die ook aanwezig zijn in andere aanroepsets. Selecteer varianten op basis van criteria zoals hun type (bijvoorbeeld ALLEEN INDEL's), bewijs van schending van mendelian, filterstatus, alleliciteit, enzovoort. Er zijn ook verschillende opties voor het vastleggen van de oorspronkelijke waarden van bepaalde aantekeningen, die opnieuw worden berekend wanneer een subset van de nieuwe oproepset, allelen bijwerkt, enzovoort.
Invoer: Een variantoproepset in VCF-indeling waaruit een subset kan worden geselecteerd.
Uitvoer: Een nieuw VCF-bestand met de geselecteerde subset van varianten.
run gatk SelectVariants -R Homo_sapiens_assembly38.fasta -V outputannot.vcf --select-type-to-include SNP --select-type-to-include INDEL -O selective.vcf
3. Gefilterde genotypes transformeren tot geen aanroep
Als u SelectVariants uitvoert met --set-filtered-gt-to-nocall, worden de gemarkeerde genotypes verder getransformeerd met een null-genotype-aanroep.
Deze conversie is nodig omdat downstreamhulpprogramma's het filterveld FORMAT-niveau niet parseren.
Hoe kunnen we de varianten filteren met 'Geen aanroep'
run gatk SelectVariants -V outputannot.vcf --set-filtered-gt-to-nocall -O outputnocall.vcf
4. Controleer de Concordance van VCF-bestand met Ground Truth
Evalueer de overeenstemming op siteniveau van een invoer-VCF tegen een waarheids-VCF. Met dit hulpprogramma worden twee verschillende aanroepsets voor elkaar geëvalueerd en wordt een tabel met metrische gegevens over zes kolommen gegenereerd.
Met deze functie wordt het volgende uitgevoerd:
- SNP- en INDEL-aanroepen stratiferen
- Terecht-positieve, fout-positieve en fout-negatieve aanroepen rapporteren
- Berekent gevoeligheid en precisie
Het hulpprogramma gaat ervan uit dat alle records in de VCF --truth waarheidsvarianten doorgeven. Voor de VCF -eval gebruikt het hulpprogramma alleen niet-gefilterde aanroepen die worden doorgegeven.
Optioneel kan het hulpprogramma worden ingesteld om VCF's van de volgende variantrecords te produceren, geannoteerd met de concordantiestatus van elke variant:
Terecht-positieven en fout-negatieven (dat wil zeggen, alle varianten in de waarheid VCF): handig voor het berekenen van de gevoeligheid
Terecht-positieven en fout-positieven (dat wil weten alle varianten in de evaluatie-VCF): handig voor het verkrijgen van een trainingsgegevensset voor machine learning-classificaties van artefacten
Deze uitvoer-VCF's kunnen worden doorgegeven aan VariantsToTable om een TSV-bestand te produceren voor statistische analyse in R of Python.
run gatk Concordance -R Homo_sapiens_assembly38.fasta -eval outputannot.vcf --truth outputnocall.vcf --summary summary.tsv
5. VariantenToTable
Extraheer velden uit een VCF-bestand naar een tabel met tabscheidingstekens. Met dit hulpprogramma worden opgegeven velden voor elke variant in een VCF-bestand geëxtraheerd naar een tabel met tabscheidingstekens, waarmee u gemakkelijker kunt werken dan een VCF. Standaard extraheert het hulpprogramma alleen PASS- of (niet-gefilterde) varianten in het VCF-bestand. Gefilterde varianten kunnen worden opgenomen in de uitvoer door de vlag --show-filter toe te voegen. Het hulpprogramma kan zowel INFO(dat wil gezegd, siteniveau) velden extraheren als FORMAT (dat wil gezegd, velden op voorbeeldniveau).
INFO/velden op siteniveau:
Gebruik het -F
argument om INFO-velden te extraheren. Elk veld neemt één kolom in het uitvoerbestand in beslag. Het veld kan elke standaard VCF-kolom zijn (bijvoorbeeld CHROM, ID, QUAL) of een naam van aantekeningen in het veld INFO (bijvoorbeeld AC, AF). Het hulpprogramma ondersteunt ook de volgende velden:
EVENTLENGTH (lengte van de gebeurtenis) TRANSITION (1 voor een bi-allelic-overgang (SNP), 0 voor bi-allelic transversion (SNP), -1 voor INDELs en multi-allelics) HET (aantal van het genotypes) HOM-REF (count of homozygous reference genotypes) HOM-VAR (count of homozygous variant genotypes) NO-CALL (aantal no-call genotypes) TYPE (type variant, mogelijke waarden zijn NO_VARIATION, SNP, MNP, INDEL, SYMBOLISCH en MIXED VAR (aantal niet-referentiegenotypes) NSAMPLES (aantal steekproeven) NCALLED (aantal aangeroepen steekproeven) MULTI-ALLELIC (is deze variant multi-allelic? waar/onwaar)
VELDEN OP FORMAT/voorbeeldniveau:
Gebruik het -GF
argument om velden FORMAT/sample-niveau te extraheren. Het hulpprogramma maakt een nieuwe kolom per voorbeeld met de naam 'SAMPLE_NAME. FORMAT_FIELD_NAME bijvoorbeeld NA12877.GQ, NA12878. GQ.
Invoer:
Een VCF-bestand dat moet worden geconverteerd naar een tabel
Uitvoer:
Een door tabs gescheiden bestand met de waarden van de aangevraagde velden in het VCF-bestand.
run gatk VariantsToTable -V NA12877.vcf.gz -F CHROM -F POS -F TYPE -F AC -F AD -F AF -GF DP -GF AD -O outputtable.table
Verwijzingen
- VariantFiltratie: https://gatk.broadinstitute.org/hc/en-us/articles/360036827111-VariantFiltration
- Varianten selecteren:https://gatk.broadinstitute.org/hc/en-us/articles/360037052272-SelectVariants
- Overeenstemming: https://gatk.broadinstitute.org/hc/en-us/articles/360041851651-Concordance
- Varianten naar tabel: https://gatk.broadinstitute.org/hc/en-us/articles/360036882811-VariantsToTable
- Illumina Platinum Genomes:https://www.illumina.com/platinumgenomes.html
Volgende stappen
Bekijk de rest van de gegevenssets in de catalogus Open Datasets.