Sdílet prostřednictvím


opendatasets Balíček

Obsahuje funkce pro využívání Azure Open Datasets jako datových rámců a pro rozšiřování zákaznických dat.

Azure Open Datasets jsou kurátorované veřejné datové sady, které můžete použít k přidání funkcí specifických pro konkrétní scénáře do řešení strojového učení pro přesnější modely. Tyto veřejné datové sady můžete převést na datové rámce Spark a pandas s použitými filtry. U některých datových sad můžete pomocí rozšiřujícího nástroje spojit veřejná data s vašimi daty. Data můžete například spojit s daty o počasí podle zeměpisné délky a šířky nebo PSČ a času.

Součástí Azure Open Datasets jsou data z veřejné domény pro počasí, sčítání lidu, svátky, veřejnou bezpečnost a polohu, která pomáhají trénovat modely strojového učení a obohacovat prediktivní řešení. Otevřené datové sady jsou v cloudu v Microsoft Azure a jsou integrované do služby Azure Machine Learning. Další informace o práci s Azure Open Datasets najdete v tématu Vytváření datových sad pomocí Azure Open Datasets.

Obecné informace o službě Azure Open Datasets najdete v dokumentaci ke službě Azure Open Datasets.

Balíčky

accessories

Obsahuje funkce, které pomáhají identifikovat typy sloupců v datech, včetně lat/long, PSČ a času.

aggregators

Obsahuje funkce pro definování způsobu agregace spojených dat.

Agregátory definují operace, které lze provést s výsledkem spojení dat ze dvou datových sad. Pokud například použijete některou z tříd v enrichersnástroji , můžete jako součást operace zadat agregátor. Pokud není agregace potřeba, použijte AggregatorAll.

data

Obsahuje soubor init pro datové prostředky v modulu publicholidays.

dataaccess

Obsahuje funkce poskytující metody přístupu k souborům objektů blob.

Když použijete třídu z opendatasets balíčku, jako ChicagoSafety je třída , třídy a funkce datového přístupu v tomto balíčku se používají interně. Obecně platí, že funkce v balíčku dataaccess nebudete muset používat přímo.

enrichers

Obsahuje funkce pro rozšiřování a spojování dat ze dvou datových sad.

Obecně platí, že obohacování spojují data z různých zdrojů. Konkrétně umožňují spojovat vaše data (zákaznická data) s daty z Azure Open Datasets nebo jiných veřejných datových sad.

granularities

Obsahuje funkci definující míry času a vzdálenosti používané enrichery.

Členitosti jsou míry času nebo vzdálenosti používané při enrichers rozšiřování (spojování) dat. Existují časové intervaly, jako je hodinová nebo denní, a členitost umístění, jako je nejbližší vzdálenost.

selectors

Obsahuje funkci pro výběr a spojování dat ze zákaznické datové sady s daty z veřejné datové sady.

Selektory definují logiku, která umožňuje obohatit vaše data o veřejné datové sady na základě měření času a vzdálenosti. Pomocí selektoru můžete například najít veřejná data, která chcete spojit s vašimi daty na základě nejbližšího umístění, nebo zaokrouhlením na stejnou časovou členitost.

Při práci s některou z tříd v balíčku zadejte selektory enrichers .

Moduly

environ

Definuje třídy prostředí modulu runtime, ve kterých se používají služby Azure Open Datasets.

Třídy v tomto modulu zajišťují, že funkce Azure Open Datasets jsou optimalizované pro různá prostředí. Obecně platí, že není nutné vytvářet instance těchto tříd prostředí nebo se starat o jejich implementaci. Místo toho použijte get_environ funkci modulu k vrácení prostředí.

Třídy

BingCOVID19Data

Představuje datovou sadu Bing COVID-19.

Tyto datové sady obsahují data Bingu o COVID-19 z několika důvěryhodných a spolehlivých zdrojů, včetně Světové zdravotnické organizace (WHO), Center for Disease Control and Prevention (CDC), národních a státních zdravotnických oddělení, BNO News, 24/7 Wall St., a Wikipedie. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Data o COVID-19 Bingu v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

BostonSafety

Představuje veřejnou datovou sadu Boston Safety.

Tato datová sada obsahuje 311 volání hlášených městu Boston. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Data o bezpečnosti v Bostonu v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

COVID19OpenResearch

Představuje datovou sadu COVID-19 Open Research Dataset.

Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu COVID-19 Open Research Dataset v katalogu Microsoft Azure Open Datasets.

COVIDTrackingProject

Představuje datovou sadu projektu COVID Tracking.

Tyto datové sady obsahují datovou sadu projektu COVID Tracking, která poskytuje nejnovější čísla testů, potvrzených případů, hospitalizací a výsledků pacientů ze všech států a území USA. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Datová sada projektu COVID Tracking v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

ChicagoSafety

Představuje veřejnou datovou sadu Zabezpečení v Chicagu.

Tato datová sada obsahuje 311 žádostí o služby z města Chicago, včetně historických stížností na hygienický kód, nahlášených děr a problémů se pouličním osvětlením. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Bezpečnostní data pro Chicago v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

CitySafety

Třída zabezpečení města – toto je nadřazená třída, kterou může zdědit každé město.

Inicializace polí filtrování

Diabetes

Představuje veřejnou datovou sadu Sample Diabetes.

Datová sada Diabetes má 442 vzorků s 10 funkcemi a je ideální pro zahájení práce s algoritmy strojového učení. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Ukázka: Diabetes v katalogu Microsoft Azure Open Datasets.

EcdcCOVIDCases

Zastupuje Evropské středisko pro prevenci a kontrolu nemocí (ECDC) Případy Covid-19.

Tyto datové sady jsou od Evropského střediska pro prevenci a kontrolu nemocí (ECDC). Každý řádek nebo položka obsahuje počet nových případů nahlášených za den a podle země/oblasti. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Případy Covid-19 Evropského centra pro prevenci a kontrolu nemocí (ECDC) v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

MNIST

Představuje datovou sadu MNIST ručně psaných číslic.

Databáze MNIST ručně psaných číslic obsahuje trénovací sadu 60 000 příkladů a testovací sadu 10 000 příkladů. Číslice mají normalizovanou velikost a jsou umístěné ve středu obrázku s pevnou velikostí. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Databáze MNIST ručně psaných číslic v katalogu Microsoft Azure Open Datasets.

Příklad použití datové sady MNIST najdete v kurzu trénování modelů klasifikace obrázků s daty MNIST a scikit-learn pomocí služby Azure Machine Learning.

NoParameterOpenDatasetBase

Základní třída práce v USA.

Inicializovat.

NoaaGfsWeather

Představuje datovou sadu GFS (National Oceanic and Atmospheric Administration) NOAA (Global Forecast System).

Tato datová sada obsahuje 15denní data hodinové předpovědi počasí v USA (například: teplota, srážky, vítr) vygenerovaná systémem GFS (Global Forecast System) z Národního úřadu pro oceán a atmosféru (NOAA). Informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NOAA Global Forecast System v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

NoaaIsdWeather

Představuje datovou sadu ISD (National Oceanic and Atmospheric Administration) (National Oceanic and Atmospheric Administration) (NOAA).

Tato datová sada obsahuje data historie počasí po hodinách po celém světě (například: teplota, srážky, vítr) z Národního úřadu pro oceán a atmosféru (NOAA). Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NoAA Integrovaná data zařízení Surface v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

NycSafety

Představuje veřejnou datovou sadu Zabezpečení města New York.

Tato datová sada obsahuje všechny žádosti o služby 311 v New Yorku od roku 2010 až do současnosti. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Bezpečnostní data města New York v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

NycTaxiBase

New York Taxi třída – toto je nadřazená třída, kterou lze dědit.

Inicializace polí filtrování

NycTlcFhv

Představuje veřejnou datovou sadu NYC Taxi & Limousine Commission.

Tato datová sada obsahuje záznamy o jízdách For-Hire Vechicle (FHV), které obsahují pole obsahující číslo základní licence dispečera, datum vyzvednutí, čas a ID umístění zóny taxislužby (soubor obrazce níže). Tyto záznamy se generují ze záznamů o jízdách pronajatými vozidly odeslaných základnami. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NYC Taxi & Limuzíny – záznamy o jízdách For-Hire vozidel (FHV) v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

NycTlcGreen

Představuje veřejnou datovou sadu NYC Taxi & Limuzíny.

Záznamy o cestách zeleným taxíkem obsahují pole zachytávající data a časy vyzvednutí a vysazení, místa vyzvednutí a vysazení, ujeté vzdálenosti, jízdné rozdělené na položky, typy sazeb, typy plateb a počty cestujících nahlášené řidičem. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NYC Taxi & Limuzíny – záznamy o jízdě zeleným taxíkem v katalogu Microsoft Azure Open Datasets.

Příklad použití třídy NycTlcGreen najdete v kurzu Použití automatizovaného strojového učení k predikci jízdy taxíkem.

Inicializace polí filtrování

NycTlcYellow

Představuje veřejnou datovou sadu pro jízdu žlutým taxíkem NYC Taxi & Limuzíny.

Záznamy o cestách žlutým taxíkem obsahují pole zachytávající data a časy vyzvednutí a vysazení, místa vyzvednutí a vysazení, ujeté vzdálenosti, jízdné rozdělené na položky, typy sazeb, typy plateb a počty cestujících nahlášené řidičem. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Komise pro newyorské taxislužby & Limuzíny – záznamy o žlutých jízdách taxíkem v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

OjSalesSimulated

Představuje ukázkovou datovou sadu Orange Juice Sales Simulované.

Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Ukázka: Simulovaná data OJ Sales v katalogu Microsoft Azure Open Datasets.

PublicHolidays

Představuje datovou sadu pro státní svátky.

Tyto datové sady obsahují data o svátcích po celém světě, která pocházejí z balíčku svátků PyPI a Wikipedie, která pokrývají 38 zemí nebo oblastí od roku 1970 do roku 2099. Každý řádek obsahuje informace o svátcích pro konkrétní datum a zemi nebo oblast a uvádí, jestli má během daného svátku většina lidí placené volno. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Svátky v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

PublicHolidaysOffline

Představuje veřejnou datovou sadu pro offline svátky.

Popis řádků najdete v tématu Svátky v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

SampleDatasetBase

Představuje základní třídu Ukázková datová sada.

SanFranciscoSafety

Představuje veřejnou datovou sadu Zabezpečení San Francisca.

Tato datová sada obsahuje volání hasičů pro službu a 311 případů v San Franciscu. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Bezpečnostní data v San Franciscu v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

SeattleSafety

Představuje veřejnou datovou sadu Seattle Safety.

Tato datová sada obsahuje data dispečeru 911 hasičů v Seattlu. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Seattle Safety Data v katalogu Microsoft Azure Open Datasets.

Inicializace polí filtrování

UsLaborCPI

Představuje veřejnou datovou sadu indexu spotřebitelských cen v USA.

Index spotřebitelských cen (CPI) měří průměrnou změnu cen, které městští spotřebitelé zaplatí za spotřební koš zboží a služeb, v průběhu času. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Index spotřebitelských cen USA v katalogu Microsoft Azure Open Datasets.

Inicializovat.

UsLaborEHENational

Představuje veřejnou datovou sadu pracovní doby a příjmy v USA.

Tato datová sada obsahuje oborové odhady pracovních míst, hodin a příjmů pracovníků na mzdách v USA. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Hodiny a příjmy v usa v katalogu Microsoft Azure Open Datasets.

Inicializovat.

UsLaborEHEState

Představuje veřejnou datovou sadu pro pracovní dobu a příjmy států USA.

Tato datová sada obsahuje oborové odhady pracovních míst, hodin a příjmů pracovníků na mzdách v USA. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Pracovní doba a příjmy ve státech USA v katalogu Microsoft Azure Open Datasets.

Inicializovat.

UsLaborLAUS

Představuje veřejnou datovou sadu pro statistiku nezaměstnanosti místních oblastí USA.

Tato datová sada obsahuje měsíční a roční údaje o zaměstnanosti, nezaměstnanosti a pracovní síle pro oblasti a divize sčítání lidu, státy, okresy, metropolitní oblasti a mnoho měst v USA. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Statistika místní nezaměstnanosti USA v katalogu Microsoft Azure Open Datasets.

Inicializovat.

UsLaborLFS

Představuje veřejnou datovou sadu statistiky pracovních sil USA.

Tato datová sada obsahuje data o pracovní síle v USA, včetně míry účasti pracovních sil a civilního neinstitučního obyvatelstva podle věku, pohlaví, rasy a etnických skupin. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Statistika pracovních sil USA v katalogu Microsoft Azure Open Datasets.

Inicializovat.

UsLaborPPICommodity

Představuje veřejnou datovou sadu indexu cen výrobců v USA (PPI) – Komodity.

Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své výstupy, v průběhu času. Ceny zahrnuté do PPI pocházejí z prvních komerčních transakcí produktů a služeb zahrnutých do tohoto indexu. Tato datová sada obsahuje ppi pro jednotlivé produkty a skupiny produktů vydané měsíčně. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Index cen producentů USA – komodity v katalogu Microsoft Azure Open Datasets.

Inicializovat.

UsLaborPPIIndustry

Představuje datovou sadu PPI (Producer Price Index) v USA – Oborová veřejná datová sada.

Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své výstupy, v průběhu času. Ceny zahrnuté do PPI pocházejí z prvních komerčních transakcí produktů a služeb zahrnutých do tohoto indexu. Tato datová sada obsahuje PPI pro širokou škálu průmyslových sektorů americké ekonomiky. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Index cen producentů USA – odvětví v katalogu Microsoft Azure Open Datasets.

Obecné informace o službě Azure Open Datasets najdete v dokumentaci ke službě Azure Open Datasets.

Inicializovat.

UsPopulationCounty

Představuje veřejnou datovou sadu pro populaci USA podle okresu County.

Tato datová sada obsahuje populaci USA podle pohlaví a rasy pro jednotlivé okresy USA, která pochází z decenniálního sčítání lidu z let 2000 a 2010. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu US Population by County v katalogu Microsoft Azure Open Datasets.

Inicializovat.

UsPopulationZip

Představuje populaci USA podle veřejné datové sady PSČ.

Tato datová sada obsahuje populaci USA podle pohlaví a rasy pro každé PSČ v USA, které pochází z decenniálního sčítání lidu z roku 2010. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Obyvatelstvo USA podle PSČ v katalogu Microsoft Azure Open Datasets.

Inicializovat.