Partilhar via


opendatasets Pacote

Contém funcionalidades para consumir conjuntos de dados do Azure Open como dataframes e para melhorar os dados dos clientes.

Os Conjuntos de Dados Abertos do Azure são conjuntos de dados públicos organizados que pode utilizar para adicionar funcionalidades específicas de cenários a soluções de machine learning para modelos mais precisos. Pode converter estes conjuntos de dados públicos em dataframes do Spark e pandas com filtros aplicados. Para alguns conjuntos de dados, pode utilizar um melhorador para associar os dados públicos aos seus dados. Por exemplo, pode associar os seus dados com dados meteorológicos por longitude e latitude ou código postal e tempo.

Incluídos nos Conjuntos de Dados Abertos do Azure são dados de domínio público para meteorologia, censo, feriados, segurança pública e localização que o ajudam a preparar modelos de machine learning e a enriquecer soluções preditivas. Os Conjuntos de Dados Abertos estão na cloud no Microsoft Azure e estão integrados no Azure Machine Learning. Para obter mais informações sobre como trabalhar com conjuntos de dados do Azure Open, veja Criar conjuntos de dados com o Azure Open Datasets.

Para obter informações gerais sobre o Azure Open Datasets, veja Documentação do Azure Open Datasets.

Pacote

accessories

Contém funcionalidades que ajudam a identificar tipos de colunas em dados, incluindo lat/long, código postal e tempo.

aggregators

Contém funcionalidades para definir a forma como os dados associados são agregados.

Os agregadores definem operações que podem ser executadas no resultado da associação de dados de dois conjuntos de dados. Por exemplo, quando utiliza uma das classes no enrichers, pode especificar um agregador como parte da operação. Se não for necessária nenhuma agregação, utilize AggregatorAll.

data

Contém o ficheiro init para recursos de dados no módulo publicholidays.

dataaccess

Contém a funcionalidade que fornece métodos de acesso a ficheiros de blobs.

Quando utiliza uma classe do opendatasets pacote como a ChicagoSafety classe , as classes e funções dataaccess neste pacote são utilizadas internamente. Em geral, não terá de utilizar a funcionalidade diretamente no pacote dataaccess.

enrichers

Contém funcionalidades para enriquecer e unir dados de dois conjuntos de dados.

Geralmente, os melhoradores associam dados de diferentes origens. Especificamente, os melhoradores permitem-lhe associar os seus dados (dados de cliente) a dados do Azure Open Datasets ou de outros conjuntos de dados públicos.

granularities

Contém funcionalidades que definem as medidas de tempo e distância utilizadas pelos melhoradores.

As granularidades são medidas de tempo ou distância utilizadas pelo ao enrichers enriquecer (associar) dados. Existem granularidades de tempo, como hora a hora ou diariamente, e granularidade da localização, como a distância mais próxima.

selectors

Contém funcionalidades para selecionar e associar dados de um conjunto de dados de cliente com dados de um conjunto de dados público.

Os seletores definem a lógica que lhe permite enriquecer os seus dados com conjuntos de dados públicos com base em medidas de tempo e distância. Por exemplo, com um seletor, pode encontrar dados públicos para associar aos seus dados com base na localização mais próxima ou arredondando para a mesma granularidade de tempo.

Especifique seletores ao trabalhar com uma das classes no enrichers pacote.

Módulos

environ

Define as classes de ambiente de runtime onde os Conjuntos de Dados Abertos do Azure são utilizados.

As classes neste módulo garantem que a funcionalidade Azure Open Datasets está otimizada para diferentes ambientes. Em geral, não precisa de instanciar estas classes de ambiente nem de se preocupar com a respetiva implementação. Em vez disso, utilize a get_environ função module para devolver o ambiente.

Classes

BingCOVID19Data

Representa o conjunto de dados COVID-19 do Bing.

Estes conjuntos de dados contêm dados do Bing COVID-19 de múltiplas origens fidedignas e fiáveis, incluindo a Organização Mundial de Saúde (OMS), Centros de Controlo e Prevenção de Doenças (CDC), departamentos nacionais e estatais de saúde pública, BNO News, Wall St., 24/7 e Wikipédia. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Bing COVID-19 Data in the Microsoft Azure Open Datasets catalog ( Dados do Bing COVID-19 no catálogo Microsoft Azure Open Datasets).

Inicializar campos de filtragem.

BostonSafety

Representa o conjunto de dados público da Boston Safety.

Este conjunto de dados contém 311 chamadas comunicadas à cidade de Boston. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Dados de Segurança de Boston no catálogo microsoft Azure Open Datasets.

Inicializar campos de filtragem.

COVID19OpenResearch

Representa o conjunto de dados COVID-19 Open Research.

Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja COVID-19 Open Research Dataset no catálogo Microsoft Azure Open Datasets.

COVIDTrackingProject

Representa o conjunto de dados projeto de controlo COVID.

Estes conjuntos de dados contêm um conjunto de dados coVID Tracking Project que fornece os números mais recentes em testes, casos confirmados, internamentos e resultados de pacientes de todos os estados e territórios dos EUA. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja CoVID Tracking Project dataset in the Microsoft Azure Open Datasets catalog (Conjuntos de Dados Abertos do Microsoft Azure).

Inicializar campos de filtragem.

ChicagoSafety

Representa o conjunto de dados público chicago safety.

Este conjunto de dados contém 311 pedidos de serviço da cidade de Chicago, incluindo queixas históricas de código saneamento, buracos de pote relatados e problemas de luz de rua. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Dados de Segurança de Chicago no catálogo microsoft Azure Open Datasets.

Inicializar campos de filtragem.

CitySafety

Classe de segurança da cidade - esta é uma classe principal que pode ser herdada por cada cidade individual.

Inicializar campos de filtragem.

Diabetes

Representa o conjunto de dados público de Diabetes de Exemplo.

O conjunto de dados Diabetes tem 442 amostras com 10 funcionalidades, o que faz com que seja ideal para começar a trabalhar com algoritmos de aprendizagem automática. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Exemplo: Diabetes no catálogo microsoft Azure Open Datasets.

EcdcCOVIDCases

Representa os casos covid-19 do Centro Europeu de Prevenção e Controlo de Doenças (ECDC).

Estes conjuntos de dados contêm do Centro Europeu de Prevenção e Controlo de Doenças (ECDC). Cada linha/entrada contém o número de novos casos comunicados por dia e por país/região. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja European Centre for Disease Prevention and Control (ECDC) Covid-19 Cases in the Microsoft Azure Open Datasets catalog (Casos covid-19 do Centro Europeu de Prevenção e Controlo de Doenças (ECDC) no catálogo microsoft Azure Open Datasets.

Inicializar campos de filtragem.

MNIST

Representa o conjunto de dados MNIST de dígitos manuscritos.

A base de dados MNIST de dígitos manuscritos tem um conjunto de preparação com 60 000 exemplos e um conjunto de testes com 10 000 exemplos. O tamanho dos dígitos foi normalizado e centrado numa imagem de tamanho fixo. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja A base de dados MNIST de dígitos manuscritos no catálogo Microsoft Azure Open Datasets.

Para obter um exemplo de utilização do conjunto de dados MNIST, veja o tutorial Train image classification models with MNIST data and scikit-learn using Azure Machine Learning (Preparar modelos de classificação de imagens com dados MNIST e scikit-learn com o Azure Machine Learning).

NoParameterOpenDatasetBase

Classe de base de trabalho dos EUA.

Inicializar.

NoaaGfsWeather

Representa o conjunto de dados GFS (National Oceanic and Atmospheric Administration) Global Forecast System (GFS).

Este conjunto de dados contém dados de previsão meteorológica por hora dos EUA de 15 dias (exemplo: temperatura, precipitação, vento) produzidos pelo Global Forecast System (GFS) da National Oceanic and Atmospheric Administration (NOAA). Para obter informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja NOAA Global Forecast System no catálogo Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

NoaaIsdWeather

Representa o Conjunto de Dados Integrados do Surface (ISD) da Administração Oceânica e Atmosférica Nacional (NOAA).

Este conjunto de dados contém dados mundiais da história meteorológica por hora (por exemplo: temperatura, precipitação, vento) provenientes da Administração Oceânica e Atmosférica Nacional (NOAA). Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja NOAA Integrated Surface Data in the Microsoft Azure Open Datasets catalog (Dados Integrados do Surface da NOAA no catálogo microsoft Azure Open Datasets).

Inicializar campos de filtragem.

NycSafety

Representa o conjunto de dados público da Segurança da Cidade de Nova Iorque.

Este conjunto de dados contém todos os pedidos de emergência de 311 de Nova Iorque desde 2010 até hoje. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Dados de Segurança da Cidade de Nova Iorque no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

NycTaxiBase

Classe de táxi de Nova Iorque - esta é uma classe principal que pode ser herdada.

Inicializar campos de filtragem.

NycTlcFhv

Representa o conjunto de dados público da Comissão de Táxis de NYC & Limousine.

Este conjunto de dados contém For-Hire registos de viagem vechicle (FHV), que incluem campos que capturam o número de licença base de distribuição e a data de recolha, hora e ID de localização da zona de táxi (ficheiro de forma abaixo). Estes registos são gerados a partir das submissões de Registos de Corridas de FHV realizadas pelas centrais. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Nyc Taxi & Limousine Commission - For-Hire Vehicle (FHV) trip records in the Microsoft Azure Open Datasets catalog (Nyc Taxi & Limousine Commission - For-Hire Vehicle (FHV) no catálogo microsoft Azure Open Datasets.

Inicializar campos de filtragem.

NycTlcGreen

Representa o conjunto de dados públicos da viagem de táxi verde da Comissão de Táxis de NYC & Limousine.

Os registos de corridas de "green taxi" incluem campos que registam as datas/horas de recolha e entrega, as localizações de recolha e entrega, as distâncias das corridas, tarifas discriminadas, tipos de taxas, tipos de pagamentos e contagens de passageiros feitas pelo motorista. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, diferentes formas de aceder ao conjunto de dados e exemplos, veja Nyc Taxi & Comissão limusine - registos de viagens de táxi verdes no catálogo microsoft Azure Open Datasets.

Para obter um exemplo de utilização da classe NycTlcGreen, veja o tutorial Utilizar machine learning automatizado para prever tarifas de táxi.

Inicializar campos de filtragem.

NycTlcYellow

Representa o conjunto de dados públicos amarelos da Comissão de Táxis de NYC & Limousine.

Os registos de corridas de "yellow taxi" incluem campos que registam as datas/horas de recolha e entrega, as localizações de recolha e entrega, as distâncias das corridas, tarifas discriminadas, tipos de taxas, tipos de pagamentos e contagens de passageiros feitas pelo motorista. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, diferentes formas de aceder ao conjunto de dados e exemplos, veja Nyc Taxi & Limousine Commission - yellow taxi trip records in the Microsoft Azure Open Datasets catalog (Nyc Taxi & Comissão limusine – registos amarelos de viagens de táxi no catálogo microsoft Azure Open Datasets).

Inicializar campos de filtragem.

OjSalesSimulated

Representa o conjunto de dados De Dados Simulados de Vendas de Sumo de Laranja de Exemplo.

Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Exemplo: Dados Simulados de Vendas do OJ no catálogo Microsoft Azure Open Datasets.

PublicHolidays

Representa o conjunto de dados públicos feriados.

Estes conjuntos de dados contêm dados de feriados públicos em todo o mundo provenientes do pacote de feriados PyPI e da Wikipédia, abrangendo 38 países ou regiões de 1970 a 2099. Cada linha indica as informações de feriados para uma data, um país ou uma região específicos e se a maioria das pessoas não vê o ordenado sofrer descontos por esses dias. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Feriados Públicos no catálogo Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

PublicHolidaysOffline

Representa o conjunto de dados públicos Feriados Offline.

Para obter uma descrição das linhas, veja Feriados Públicos no catálogo Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

SampleDatasetBase

Representa a classe Base de Conjuntos de Dados de Exemplo.

SanFranciscoSafety

Representa o conjunto de dados público da Segurança de São Francisco.

Este conjunto de dados contém pedidos de serviço dos bombeiros e 311 casos em São Francisco. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Dados de Segurança de São Francisco no catálogo Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

SeattleSafety

Representa o conjunto de dados público seattle Safety.

Este conjunto de dados contém dados de envio dos Bombeiros de Seattle 911. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Dados de Segurança de Seattle no catálogo Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

UsLaborCPI

Representa o conjunto de dados público do Índice de Preços no Consumidor dos EUA.

O Índice de Preços no Consumidor (CPI) é uma medida da alteração média ao longo do tempo nos preços que os consumidores urbanos pagam para um cabaz de compras de bens e serviços de consumo. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Índice de Preços no Consumidor dos EUA no catálogo Microsoft Azure Open Datasets.

Inicializar.

UsLaborEHENational

Representa o conjunto de dados público horas de trabalho e ganhos nacionais dos EUA.

Este conjunto de dados contém estimativas do setor de emprego não agrícola, horas e ganhos de trabalhadores em folha de pagamentos no Estados Unidos. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Horários de Trabalho Nacionais dos EUA e Ganhos no catálogo microsoft Azure Open Datasets.

Inicializar.

UsLaborEHEState

Representa o conjunto de dados público Horas de Trabalho e Ganhos do Estado dos EUA.

Este conjunto de dados contém estimativas do setor de emprego não agrícola, horas e ganhos de trabalhadores em folha de pagamentos no Estados Unidos. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, diferentes formas de aceder ao conjunto de dados e exemplos, veja Horários de Trabalho e Ganhos do Estado dos EUA no catálogo Microsoft Azure Open Datasets.

Inicializar.

UsLaborLAUS

Representa o conjunto de dados público estatísticas de desemprego da área local dos EUA.

Este conjunto de dados contém dados mensais e anuais de emprego, desemprego e mão-de-obra para regiões e divisões do Censo, Estados, condados, áreas metropolitanas e muitas cidades do Estados Unidos. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, diferentes formas de aceder ao conjunto de dados e exemplos, veja Estatísticas de Desemprego da Área Local dos EUA no catálogo Microsoft Azure Open Datasets.

Inicializar.

UsLaborLFS

Representa o conjunto de dados público estatísticas da Força de Trabalho dos EUA.

Este conjunto de dados contém dados sobre a mão-de-obra no Estados Unidos, incluindo taxas de participação da força de trabalho, e a população civil nãotitucional por idade, sexo, raça e grupos étnicos. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, diferentes formas de aceder ao conjunto de dados e exemplos, veja Estatísticas da Força de Trabalho dos EUA no catálogo Microsoft Azure Open Datasets.

Inicializar.

UsLaborPPICommodity

Representa o índice de preços do produtor norte-americano (PPI) – conjunto de dados público de mercadorias.

O Índice de Preços no Produtor (IPP) é uma medida da mudança média ao longo do tempo nos preços de venda que os produtores domésticos recebem pelos seus produtos. Os preços incluídos no IPP pertencem à primeira transação comercial de produtos e serviços abrangidos. Este conjunto de dados contém PPIs para produtos individuais e grupos de produtos disponibilizados mensalmente. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, diferentes formas de aceder ao conjunto de dados e exemplos, veja Índice de Preços do Produtor dos EUA - Mercadorias no catálogo Microsoft Azure Open Datasets.

Inicializar.

UsLaborPPIIndustry

Representa o Índice de Preços do Produtor (PPI) dos EUA – conjunto de dados público da indústria.

O Índice de Preços no Produtor (IPP) é uma medida da mudança média ao longo do tempo nos preços de venda que os produtores domésticos recebem pelos seus produtos. Os preços incluídos no IPP pertencem à primeira transação comercial de produtos e serviços abrangidos. Este conjunto de dados contém PPIs para uma vasta gama de setores da indústria da economia dos EUA. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja Índice de Preços do Produtor dos EUA – Indústria no catálogo Microsoft Azure Open Datasets.

Para obter informações gerais sobre o Azure Open Datasets, veja Documentação do Azure Open Datasets.

Inicializar.

UsPopulationCounty

Representa o conjunto de dados público População dos E.U.A. por Condado.

Este conjunto de dados contém população dos EUA por género e raça para cada condado norte-americano com origem no Censo Decennial de 2000 e 2010. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, diferentes formas de aceder ao conjunto de dados e exemplos, veja População dos E.U.A. por Condado no catálogo Microsoft Azure Open Datasets.

Inicializar.

UsPopulationZip

Representa o conjunto de dados público População dos E.U.A. por Código Postal.

Este conjunto de dados contém população dos EUA por género e raça para cada código POSTAL dos EUA proveniente do Censo Decennial de 2010. Para obter mais informações sobre este conjunto de dados, incluindo descrições de colunas, formas diferentes de aceder ao conjunto de dados e exemplos, veja População dos E.U.A. por Código Postal no catálogo Microsoft Azure Open Datasets.

Inicializar.