O que são Conjuntos de Dados Abertos do Azure e como você pode usá-los?
Os Conjuntos de Dados Abertos do Azure são conjuntos de dados públicos selecionados que você pode adicionar a recursos específicos de cenários para soluções de aprendizado de máquina, para modelos mais precisos. Os conjuntos de dados abertos estão disponíveis na nuvem, no Microsoft Azure. Eles estão integrados ao Azure Machine Learning e prontamente disponíveis para o Azure Databricks e o Machine Learning Studio (clássico). Você também pode acessar os conjuntos de dados por meio de APIs e usá-los em outros produtos, como o Power BI e o Azure Data Factory.
Os conjuntos de dados incluem dados de domínio público para meteorologia, censos, feriados, segurança pública e localização que ajudam a treinar modelos de aprendizado de máquina e enriquecer soluções preditivas. Também pode partilhar os seus conjuntos de dados públicos através dos Conjuntos de Dados Abertos do Azure.
Conjuntos de dados preparados e com curadoria
Os conjuntos de dados públicos abertos com curadoria nos Conjuntos de Dados Abertos do Azure são otimizados para consumo em fluxos de trabalho de aprendizado de máquina.
Para obter mais informações sobre os conjuntos de dados disponíveis, visite o recurso Catálogo de Conjuntos de Dados Abertos do Azure.
Os cientistas de dados geralmente passam a maior parte do tempo limpando e preparando dados para análises avançadas. Para poupar tempo, os conjuntos de dados abertos são copiados para a nuvem do Azure e, em seguida, pré-processados. Em intervalos regulares, os dados são extraídos das fontes - por exemplo, por uma conexão FTP com a Administração Nacional Oceânica e Atmosférica (NOAA). Em seguida, os dados são analisados em um formato estruturado e, em seguida, enriquecidos conforme necessário, com recursos como CEP ou os locais das estações meteorológicas mais próximas.
Os conjuntos de dados são cohospedados com a computação em nuvem no Azure, para facilitar o acesso e a manipulação.
Eis alguns exemplos de conjuntos de dados disponíveis:
Dados meteorológicos
Conjunto de dados | Notebooks | Description |
---|---|---|
Dados de superfície integrados (ISD) da NOAA | Azure Notebooks Azure Databricks |
Dados meteorológicos por hora em todo o mundo da NOAA com a melhor cobertura espacial na América do Norte, Europa, Austrália e partes da Ásia. Atualizado diariamente. |
Sistema de Previsão Global (GFS) da NOAA | Azure Notebooks Azure Databricks |
Dados de previsão do tempo por hora para 15 dias nos EUA da NOAA. Atualizado diariamente. |
Dados do calendário
Conjunto de dados | Notebooks | Description |
---|---|---|
Feriados | Azure Notebooks Azure Databricks |
Dados de feriados em todo o mundo, abrangendo 41 nações ou regiões de 1970 a 2099. Inclui o país/região e se a maioria das pessoas tem folgas remuneradas. |
Acesso aos conjuntos de dados
Com uma conta do Azure, você pode acessar conjuntos de dados abertos por meio de código ou por meio da interface de serviço do Azure. Os dados são colocalizados com recursos de computação em nuvem do Azure para uso em suas soluções de aprendizado de máquina.
O Open Datasets está disponível através da IU e do SDK do Azure Machine Learning. Os conjuntos de dados abertos também fornecem blocos de anotações do Azure e do Azure Databricks que podem conectar dados ao Azure Machine Learning e ao Azure Databricks. Os conjuntos de dados também podem ser acedidos através de um SDK do Python.
No entanto, não precisa de uma conta do Azure para aceder ao Open Datasets; pode aceder a partir de qualquer ambiente Python com ou sem o Apache Spark.
Solicitar ou contribuir com conjuntos de dados
Se não conseguir encontrar os dados que pretende, envie-nos um e-mail para solicitar um conjunto de dados ou contribuir com um conjunto de dados.