ENCODE: Enzyklopädie der DNA-Elemente

Artikel
12/12/2024

Die Enzyklopädie der DNA-Elemente (ENCODE) ist eine fortlaufende internationale Zusammenarbeit von Forschungsgruppen, die vom National Human Genome Research Institute (NHGRI) finanziert werden. Das Ziel von ENCODE besteht darin, eine umfassende Liste der funktionalen Elemente im menschlichen Genom zu erstellen, einschließlich der Elemente, die auf der Ebene „Protein“ und „RNA“ agieren, sowie der regulatorischen Elemente, die Zellen und Umstände steuern, in denen ein Gen aktiv ist.

ENCODE-Forscher verwenden verschiedene Analysen und Methoden zur Identifizierung funktionaler Elemente. Die Ermittlung und Annotierung von Genelementen erfolgt hauptsächlich durch Sequenzierung einer Vielzahl von RNA-Quellen, vergleichende Genomik, integrative bioinformatische Methoden und menschliche Kuratierung. Regulatorische Elemente werden normalerweise durch DNA-Hypersensibilitätsassays, Assays zur DNA-Methylierung und Immunpräzipation (IP) von Proteinen untersucht, die mit DNA und RNA interagieren, d. h. modifizierte Histone, Transkriptionsfaktoren, Chromatinregulatoren und RNA-bindende Proteine, gefolgt von Sequenzierung.

Hinweis

Microsoft stellt Datasets der Plattform Azure Open Datasets auf einer „As is“-Basis (d. h. ohne Mängelgewähr) zur Verfügung. Microsoft übernimmt weder ausdrücklich noch stillschweigend die Gewährleistung für Ihre Nutzung der Datasets und sichert keinerlei Garantien oder Bedingungen zu. Soweit nach örtlich anwendbarem Recht zulässig, lehnt Microsoft jegliche Haftung für Schäden oder Verluste ab. Dies schließt direkte, indirekte, besondere oder zufällige Schäden oder Verluste sowie Folge- und Strafschäden und damit verbundene Verluste ein, die sich aus Ihrer Nutzung der Datasets ergeben.

Für die Bereitstellung dieses Datasets gelten die ursprünglichen Nutzungsbedingungen, unter denen Microsoft die Quelldaten bezogen hat. Das Dataset kann Daten von Microsoft enthalten.

Datenquelle

Bei diesem Dataset handelt es sich um eine Spiegelung des Datenspeichers unter https://www.encodeproject.org/.

Datenvolumes und Aktualisierungshäufigkeit

Dieses Dataset enthält etwa 756 TB Daten und wird täglich aktualisiert.

Speicherort

Dieses Dataset wird in den Azure-Regionen „USA, Westen 2“ und „USA, Westen-Mitte“ gespeichert. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in den Regionen „USA, Westen 2“ oder „USA, Westen-Mitte“ empfohlen.

Datenzugriff

USA, Westen 2: https://datasetencode.blob.core.windows.net/dataset

USA, Westen-Mitte: ‚ https://datasetencode-secondary.blob.core.windows.net/dataset ‘

Nutzungsbedingungen

Externe Datenbenutzer können auf ENCODE-Daten basierende Ergebnisse unabhängig von Typ oder Größe kostenlos herunterladen und ohne Einschränkungen analysieren und veröffentlichen. Dabei gilt für ENCODE-Datenproduzenten (sei es als Einzelmitglied oder als Mitglied des Konsortiums) keine Toleranzperiode. Forscher, die nicht veröffentlichte ENCODE-Daten verwenden, werden darin bestärkt, sich an die Datenproduzenten zu wenden, um die Möglichkeit einer Veröffentlichung zu erörtern. Das Konsortium wird die Ergebnisse seiner eigenen Analyseaktivitäten auch weiterhin in unabhängigen Publikationen veröffentlichen.

ENCODE bittet darum, dass Forscher, die ENCODE-Datensätze (veröffentlicht oder unveröffentlicht) in Publikationen und Präsentationen verwenden, das ENCODE-Konsortium auf alle folgenden Arten zitieren, die unter https://www.encodeproject.org/help/citing-encode/ aufgeführt sind.

Contact

Wenn Sie Fragen, Bedenken oder Kommentare haben, senden Sie eine E-Mail an unseren Helpdesk unter encode-help@lists.stanford.edu.

Nächste Schritte

Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.

Freigeben über