Genoomaggregatiedatabase (gnomAD)
De Genome Aggregation Database (gnomAD) is een resource die is ontwikkeld door een internationale coalitie van onderzoekers, met als doel het verzamelen en harmoniseren van zowel exome als genoom sequentiërende gegevens uit een groot aantal grootschalige sequentiërende projecten, en het beschikbaar maken van samenvattingsgegevens voor de bredere wetenschappelijke gemeenschap.
Notitie
Microsoft biedt Azure Open Datasets op basis van 'zoals is'. Microsoft geeft geen garanties, uitdrukkelijk of impliciet, garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover toegestaan volgens uw lokale wetgeving, wijst Microsoft alle aansprakelijkheid af voor eventuele schade of verliezen, waaronder directe, gevolgschade, speciale, indirecte, incidentele of strafbare gegevenssets, die het gevolg zijn van uw gebruik van de gegevenssets.
Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.
Gegevensbron
Deze gegevensset wordt gehost als een samenwerking met Broad Institute en de volledige gegevenscatalogus van gnomAD kan worden bekeken op https://gnomad.broadinstitute.org/downloads
Gegevensvolumes en updatefrequentie
Deze gegevensset bevat ongeveer 30 TB aan gegevens en wordt met elke versie van gnomAD bijgewerkt.
Opslaglocatie
Het opslagaccount waarin deze gegevensset wordt gehost, bevindt zich in de Azure-regio US - oost. Het wordt aanbevolen om rekenresources in US - oost toe te wijzen voor affiniteit.
Data Access
Opslagaccount: 'https://datasetgnomad.blob.core.windows.net/dataset/'
De gegevens zijn openbaar beschikbaar zonder beperkingen en het AzCopy-hulpprogramma wordt aanbevolen voor bulkbewerkingen. Als u bijvoorbeeld de VCF's in versie 3.0 van gnomAD wilt weergeven:
$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes
Alle VCF's recursief downloaden:
$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .
NIEUW: Parquet-indeling van gnomAD v2.1.1 VCF-bestanden (exomes en genomen)
De Parquet-bestanden weergeven:
$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset
Alle Parquet-bestanden recursief downloaden:
$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset
Azure Storage Explorer is ook een handig hulpprogramma als u wilt bladeren in de lijst met bestanden in de versie van gnomAD.
Gebruiksrechtovereenkomst
De gegevens zijn zonder beperkingen beschikbaar. Zie de pagina gnomAD voor meer informatie en bronvermeldingen.
Contactpersoon
Neem contact op met het gnomAD-team voor vragen of feedback over deze gegevensset.
Volgende stappen
Bekijk de rest van de gegevenssets in de catalogus Open Datasets.