opendatasets Balíček
Obsahuje funkce pro využívání Azure Open Datasets jako datových rámců a pro rozšiřování zákaznických dat.
Azure Open Datasets jsou kurátorované veřejné datové sady, které můžete použít k přidání funkcí specifických pro konkrétní scénáře do řešení strojového učení pro přesnější modely. Tyto veřejné datové sady můžete převést na datové rámce Spark a pandas s použitými filtry. U některých datových sad můžete pomocí rozšiřujícího nástroje spojit veřejná data s vašimi daty. Data můžete například spojit s daty o počasí podle zeměpisné délky a šířky nebo PSČ a času.
Součástí Azure Open Datasets jsou data z veřejné domény pro počasí, sčítání lidu, svátky, veřejnou bezpečnost a polohu, která pomáhají trénovat modely strojového učení a obohacovat prediktivní řešení. Otevřené datové sady jsou v cloudu v Microsoft Azure a jsou integrované do služby Azure Machine Learning. Další informace o práci s Azure Open Datasets najdete v tématu Vytváření datových sad pomocí Azure Open Datasets.
Obecné informace o službě Azure Open Datasets najdete v dokumentaci ke službě Azure Open Datasets.
Balíčky
accessories |
Obsahuje funkce, které pomáhají identifikovat typy sloupců v datech, včetně lat/long, PSČ a času. |
aggregators |
Obsahuje funkce pro definování způsobu agregace spojených dat. Agregátory definují operace, které lze provést s výsledkem spojení dat ze dvou datových sad. Pokud například použijete některou z tříd v enrichersnástroji , můžete jako součást operace zadat agregátor. Pokud není agregace potřeba, použijte AggregatorAll. |
data |
Obsahuje soubor init pro datové prostředky v modulu publicholidays. |
dataaccess |
Obsahuje funkce poskytující metody přístupu k souborům objektů blob. Když použijete třídu z opendatasets balíčku, jako ChicagoSafety je třída , třídy a funkce datového přístupu v tomto balíčku se používají interně. Obecně platí, že funkce v balíčku dataaccess nebudete muset používat přímo. |
enrichers |
Obsahuje funkce pro rozšiřování a spojování dat ze dvou datových sad. Obecně platí, že obohacování spojují data z různých zdrojů. Konkrétně umožňují spojovat vaše data (zákaznická data) s daty z Azure Open Datasets nebo jiných veřejných datových sad. |
granularities |
Obsahuje funkci definující míry času a vzdálenosti používané enrichery. Členitosti jsou míry času nebo vzdálenosti používané při enrichers rozšiřování (spojování) dat. Existují časové intervaly, jako je hodinová nebo denní, a členitost umístění, jako je nejbližší vzdálenost. |
selectors |
Obsahuje funkci pro výběr a spojování dat ze zákaznické datové sady s daty z veřejné datové sady. Selektory definují logiku, která umožňuje obohatit vaše data o veřejné datové sady na základě měření času a vzdálenosti. Pomocí selektoru můžete například najít veřejná data, která chcete spojit s vašimi daty na základě nejbližšího umístění, nebo zaokrouhlením na stejnou časovou členitost. Při práci s některou z tříd v balíčku zadejte selektory enrichers . |
Moduly
environ |
Definuje třídy prostředí modulu runtime, ve kterých se používají služby Azure Open Datasets. Třídy v tomto modulu zajišťují, že funkce Azure Open Datasets jsou optimalizované pro různá prostředí.
Obecně platí, že není nutné vytvářet instance těchto tříd prostředí nebo se starat o jejich implementaci.
Místo toho použijte |
Třídy
BingCOVID19Data |
Představuje datovou sadu Bing COVID-19. Tyto datové sady obsahují data Bingu o COVID-19 z několika důvěryhodných a spolehlivých zdrojů, včetně Světové zdravotnické organizace (WHO), Center for Disease Control and Prevention (CDC), národních a státních zdravotnických oddělení, BNO News, 24/7 Wall St., a Wikipedie. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Data o COVID-19 Bingu v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
BostonSafety |
Představuje veřejnou datovou sadu Boston Safety. Tato datová sada obsahuje 311 volání hlášených městu Boston. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Data o bezpečnosti v Bostonu v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
COVID19OpenResearch |
Představuje datovou sadu COVID-19 Open Research Dataset. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu COVID-19 Open Research Dataset v katalogu Microsoft Azure Open Datasets. |
COVIDTrackingProject |
Představuje datovou sadu projektu COVID Tracking. Tyto datové sady obsahují datovou sadu projektu COVID Tracking, která poskytuje nejnovější čísla testů, potvrzených případů, hospitalizací a výsledků pacientů ze všech států a území USA. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Datová sada projektu COVID Tracking v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
ChicagoSafety |
Představuje veřejnou datovou sadu Zabezpečení v Chicagu. Tato datová sada obsahuje 311 žádostí o služby z města Chicago, včetně historických stížností na hygienický kód, nahlášených děr a problémů se pouličním osvětlením. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Bezpečnostní data pro Chicago v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
CitySafety |
Třída zabezpečení města – toto je nadřazená třída, kterou může zdědit každé město. Inicializace polí filtrování |
Diabetes |
Představuje veřejnou datovou sadu Sample Diabetes. Datová sada Diabetes má 442 vzorků s 10 funkcemi a je ideální pro zahájení práce s algoritmy strojového učení. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Ukázka: Diabetes v katalogu Microsoft Azure Open Datasets. |
EcdcCOVIDCases |
Zastupuje Evropské středisko pro prevenci a kontrolu nemocí (ECDC) Případy Covid-19. Tyto datové sady jsou od Evropského střediska pro prevenci a kontrolu nemocí (ECDC). Každý řádek nebo položka obsahuje počet nových případů nahlášených za den a podle země/oblasti. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Případy Covid-19 Evropského centra pro prevenci a kontrolu nemocí (ECDC) v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
MNIST |
Představuje datovou sadu MNIST ručně psaných číslic. Databáze MNIST ručně psaných číslic obsahuje trénovací sadu 60 000 příkladů a testovací sadu 10 000 příkladů. Číslice mají normalizovanou velikost a jsou umístěné ve středu obrázku s pevnou velikostí. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Databáze MNIST ručně psaných číslic v katalogu Microsoft Azure Open Datasets. Příklad použití datové sady MNIST najdete v kurzu trénování modelů klasifikace obrázků s daty MNIST a scikit-learn pomocí služby Azure Machine Learning. |
NoParameterOpenDatasetBase |
Základní třída práce v USA. Inicializovat. |
NoaaGfsWeather |
Představuje datovou sadu GFS (National Oceanic and Atmospheric Administration) NOAA (Global Forecast System). Tato datová sada obsahuje 15denní data hodinové předpovědi počasí v USA (například: teplota, srážky, vítr) vygenerovaná systémem GFS (Global Forecast System) z Národního úřadu pro oceán a atmosféru (NOAA). Informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NOAA Global Forecast System v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
NoaaIsdWeather |
Představuje datovou sadu ISD (National Oceanic and Atmospheric Administration) (National Oceanic and Atmospheric Administration) (NOAA). Tato datová sada obsahuje data historie počasí po hodinách po celém světě (například: teplota, srážky, vítr) z Národního úřadu pro oceán a atmosféru (NOAA). Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NoAA Integrovaná data zařízení Surface v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
NycSafety |
Představuje veřejnou datovou sadu Zabezpečení města New York. Tato datová sada obsahuje všechny žádosti o služby 311 v New Yorku od roku 2010 až do současnosti. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Bezpečnostní data města New York v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
NycTaxiBase |
New York Taxi třída – toto je nadřazená třída, kterou lze dědit. Inicializace polí filtrování |
NycTlcFhv |
Představuje veřejnou datovou sadu NYC Taxi & Limousine Commission. Tato datová sada obsahuje záznamy o jízdách For-Hire Vechicle (FHV), které obsahují pole obsahující číslo základní licence dispečera, datum vyzvednutí, čas a ID umístění zóny taxislužby (soubor obrazce níže). Tyto záznamy se generují ze záznamů o jízdách pronajatými vozidly odeslaných základnami. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NYC Taxi & Limuzíny – záznamy o jízdách For-Hire vozidel (FHV) v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
NycTlcGreen |
Představuje veřejnou datovou sadu NYC Taxi & Limuzíny. Záznamy o cestách zeleným taxíkem obsahují pole zachytávající data a časy vyzvednutí a vysazení, místa vyzvednutí a vysazení, ujeté vzdálenosti, jízdné rozdělené na položky, typy sazeb, typy plateb a počty cestujících nahlášené řidičem. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu NYC Taxi & Limuzíny – záznamy o jízdě zeleným taxíkem v katalogu Microsoft Azure Open Datasets. Příklad použití třídy NycTlcGreen najdete v kurzu Použití automatizovaného strojového učení k predikci jízdy taxíkem. Inicializace polí filtrování |
NycTlcYellow |
Představuje veřejnou datovou sadu pro jízdu žlutým taxíkem NYC Taxi & Limuzíny. Záznamy o cestách žlutým taxíkem obsahují pole zachytávající data a časy vyzvednutí a vysazení, místa vyzvednutí a vysazení, ujeté vzdálenosti, jízdné rozdělené na položky, typy sazeb, typy plateb a počty cestujících nahlášené řidičem. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Komise pro newyorské taxislužby & Limuzíny – záznamy o žlutých jízdách taxíkem v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
OjSalesSimulated |
Představuje ukázkovou datovou sadu Orange Juice Sales Simulované. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Ukázka: Simulovaná data OJ Sales v katalogu Microsoft Azure Open Datasets. |
PublicHolidays |
Představuje datovou sadu pro státní svátky. Tyto datové sady obsahují data o svátcích po celém světě, která pocházejí z balíčku svátků PyPI a Wikipedie, která pokrývají 38 zemí nebo oblastí od roku 1970 do roku 2099. Každý řádek obsahuje informace o svátcích pro konkrétní datum a zemi nebo oblast a uvádí, jestli má během daného svátku většina lidí placené volno. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Svátky v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
PublicHolidaysOffline |
Představuje veřejnou datovou sadu pro offline svátky. Popis řádků najdete v tématu Svátky v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
SampleDatasetBase |
Představuje základní třídu Ukázková datová sada. |
SanFranciscoSafety |
Představuje veřejnou datovou sadu Zabezpečení San Francisca. Tato datová sada obsahuje volání hasičů pro službu a 311 případů v San Franciscu. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Bezpečnostní data v San Franciscu v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
SeattleSafety |
Představuje veřejnou datovou sadu Seattle Safety. Tato datová sada obsahuje data dispečeru 911 hasičů v Seattlu. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Seattle Safety Data v katalogu Microsoft Azure Open Datasets. Inicializace polí filtrování |
UsLaborCPI |
Představuje veřejnou datovou sadu indexu spotřebitelských cen v USA. Index spotřebitelských cen (CPI) měří průměrnou změnu cen, které městští spotřebitelé zaplatí za spotřební koš zboží a služeb, v průběhu času. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Index spotřebitelských cen USA v katalogu Microsoft Azure Open Datasets. Inicializovat. |
UsLaborEHENational |
Představuje veřejnou datovou sadu pracovní doby a příjmy v USA. Tato datová sada obsahuje oborové odhady pracovních míst, hodin a příjmů pracovníků na mzdách v USA. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Hodiny a příjmy v usa v katalogu Microsoft Azure Open Datasets. Inicializovat. |
UsLaborEHEState |
Představuje veřejnou datovou sadu pro pracovní dobu a příjmy států USA. Tato datová sada obsahuje oborové odhady pracovních míst, hodin a příjmů pracovníků na mzdách v USA. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Pracovní doba a příjmy ve státech USA v katalogu Microsoft Azure Open Datasets. Inicializovat. |
UsLaborLAUS |
Představuje veřejnou datovou sadu pro statistiku nezaměstnanosti místních oblastí USA. Tato datová sada obsahuje měsíční a roční údaje o zaměstnanosti, nezaměstnanosti a pracovní síle pro oblasti a divize sčítání lidu, státy, okresy, metropolitní oblasti a mnoho měst v USA. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Statistika místní nezaměstnanosti USA v katalogu Microsoft Azure Open Datasets. Inicializovat. |
UsLaborLFS |
Představuje veřejnou datovou sadu statistiky pracovních sil USA. Tato datová sada obsahuje data o pracovní síle v USA, včetně míry účasti pracovních sil a civilního neinstitučního obyvatelstva podle věku, pohlaví, rasy a etnických skupin. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Statistika pracovních sil USA v katalogu Microsoft Azure Open Datasets. Inicializovat. |
UsLaborPPICommodity |
Představuje veřejnou datovou sadu indexu cen výrobců v USA (PPI) – Komodity. Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své výstupy, v průběhu času. Ceny zahrnuté do PPI pocházejí z prvních komerčních transakcí produktů a služeb zahrnutých do tohoto indexu. Tato datová sada obsahuje ppi pro jednotlivé produkty a skupiny produktů vydané měsíčně. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Index cen producentů USA – komodity v katalogu Microsoft Azure Open Datasets. Inicializovat. |
UsLaborPPIIndustry |
Představuje datovou sadu PPI (Producer Price Index) v USA – Oborová veřejná datová sada. Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své výstupy, v průběhu času. Ceny zahrnuté do PPI pocházejí z prvních komerčních transakcí produktů a služeb zahrnutých do tohoto indexu. Tato datová sada obsahuje PPI pro širokou škálu průmyslových sektorů americké ekonomiky. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Index cen producentů USA – odvětví v katalogu Microsoft Azure Open Datasets. Obecné informace o službě Azure Open Datasets najdete v dokumentaci ke službě Azure Open Datasets. Inicializovat. |
UsPopulationCounty |
Představuje veřejnou datovou sadu pro populaci USA podle okresu County. Tato datová sada obsahuje populaci USA podle pohlaví a rasy pro jednotlivé okresy USA, která pochází z decenniálního sčítání lidu z let 2000 a 2010. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu US Population by County v katalogu Microsoft Azure Open Datasets. Inicializovat. |
UsPopulationZip |
Představuje populaci USA podle veřejné datové sady PSČ. Tato datová sada obsahuje populaci USA podle pohlaví a rasy pro každé PSČ v USA, které pochází z decenniálního sčítání lidu z roku 2010. Další informace o této datové sadě, včetně popisů sloupců, různých způsobů přístupu k datové sadě a příkladů, najdete v tématu Obyvatelstvo USA podle PSČ v katalogu Microsoft Azure Open Datasets. Inicializovat. |