Azure Open Datasets
Melhorar a precisão dos seus modelos de machine learning com conjuntos de dados disponíveis publicamente. Para economizar tempo na descoberta e preparação de dados, use conjuntos de dados selecionados que estão prontos para projetos de aprendizado de máquina.
Transportes
Conjunto de dados | Description |
---|---|
TartanAir: Conjunto de dados de simulação AirSim | Dados do veículo autônomo AirSim gerados para resolver Localização e Mapeamento Simultâneos (SLAM). |
NYC Taxi & Limousine Commission - registros amarelos de viagem de táxi | Os registros de viagem de táxi amarelo incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista. |
NYC Taxi & Limousine Commission - registros de viagem de táxi verde | Os registros de viagem de táxi verde incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista. |
NYC Taxi & Limousine Commission - Registros de viagem do For-Hire Vehicle (FHV) | Os registos de viagem do Veículo de Aluguer incluem o número da licença base de expedição e a data, hora e ID da zona de táxi de recolha. |
Saúde e genómica
Conjunto de dados | Description |
---|---|
COVID-19 Data Lake | A coleção do Data Lake relacionada com a COVID-19 é uma coleção de conjuntos de dados relacionados com a COVID-19 provenientes de diversas origens, que abrangem dados de teste e rastreio de resultados de pacientes, política de distanciamento social, capacidade dos hospitais, mobilidade, etc. |
Conjunto de dados de pesquisa aberta COVID-19 | Um conjunto de dados de texto completo e metadados de artigos acadêmicos relacionados ao COVID-19 e ao coronavírus, otimizado para legibilidade por máquina e disponibilizado para uso pela comunidade de pesquisa global. |
Lago de Dados Genómicos | O Genomics Data Lake fornece vários conjuntos de dados públicos disponíveis gratuitamente, prontos para serem integrados em seus fluxos de trabalho e aplicativos de análise genômica. Os conjuntos de dados incluem sequenciação de genomas, informações sobre variantes e metadados de sujeitos de experiências/exemplo nos formatos de ficheiro BAM, FASTA, VCF e CSV. |
Trabalho e economia
Conjunto de dados | Description |
---|---|
US Labor Force Statistics (Estatísticas da Mão-de-Obra dos E.U.A.) | As Estatísticas da Força de Trabalho dos EUA fornecem Estatísticas da Força de Trabalho, taxas de participação da força de trabalho e a população civil não institucional por idade, sexo, raça e grupos étnicos nos Estados Unidos. |
US National Employment Hours and Earnings (Salários e Horários de Emprego a Nível Nacional nos E.U.A.) | O programa Current Employment Statistics (CES, Estatísticas de Emprego Atuais) produz estimativas detalhadas dos vários setores de atividade, excluindo trabalhadores agrícolas, empregados de organizações sem fins lucrativos e trabalhadores domésticos, relativas a emprego, horário e rendimentos dos trabalhadores por conta de outrem nos Estados Unidos. |
Salários e Horários de Emprego a Nível Estadual nos E.U.A. | O programa Current Employment Statistics (CES, Estatísticas de Emprego Atuais) produz estimativas detalhadas dos vários setores de atividade, excluindo trabalhadores agrícolas, empregados de organizações sem fins lucrativos e trabalhadores domésticos, relativas a emprego, horário e rendimentos dos trabalhadores por conta de outrem nos Estados Unidos. |
US Local Area Unemployment Statistics (Estatísticas de Desemprego a Nível Local nos E.U.A.) | Os conjuntos de dados do programa US Local Area Unemployment Statistics fornecem dados mensais e anuais relativos a emprego, desemprego e mão-de-obra para regiões e divisões do Census, estados, condados, áreas metropolitanas e muitas cidades dos Estados Unidos. |
US Consumer Price Index (Índice de Preço do Consumidor dos EUA) | O Índice de Preços no Consumidor (IPC) mede a variação média ao longo do tempo dos preços pagos pelos consumidores urbanos por um cabaz de bens de consumo e serviços do mercado. |
US Producer Price Index - Industry (Índice de Preços do Produtor dos EUA - Indústria) | O Índice de Preços ao Produtor (IPP) mede a variação média, ao longo do tempo, dos preços de venda recebidos pelos produtores nacionais pela sua produção. |
US Producer Price Index - Commodities (Índice de Preços do Produtor dos EUA - Matérias-primas) | O Índice de Preços ao Produtor (IPP) mede a variação média, ao longo do tempo, dos preços de venda recebidos pelos produtores nacionais por suas commodities. |
População e segurança
Conjunto de dados | Description |
---|---|
População dos EUA por Condado | População dos EUA por sexo e raça para cada condado dos EUA, com base no Censo Decenal de 2000 e 2010. Este conjunto de dados provém da Divisão do Censo dos Estados Unidos. |
População dos EUA por Código Postal | População dos EUA por sexo e raça para cada CEP dos EUA, proveniente do Censo Decenal de 2010. Este conjunto de dados provém da Divisão do Censo dos Estados Unidos. |
Dados de segurança de Boston | Ler dados relativos a chamadas ao 311 reportadas à cidade de Boston. Este conjunto de dados é armazenado em formato Parquet e recebe atualizações diárias. |
Dados de segurança de Chicago | Ler dados relativos a chamadas ao 311 reportadas à cidade de Chicago. Este conjunto de dados é armazenado em formato Parquet e recebe atualizações diárias. |
Dados de segurança da cidade de Nova Iorque | Este conjunto de dados contém todos os pedidos de emergência de 311 de Nova Iorque desde 2010 até hoje. Este conjunto de dados é armazenado em formato Parquet e recebe atualizações diárias. |
Dados de segurança de São Francisco | Chamadas para os Bombeiros para emergências e incidentes de 311 em São Francisco. Este conjunto de dados contém registos históricos acumulados desde 2015 até ao presente. |
Dados de segurança de Seattle | Despachos do 112 dos Bombeiros de Seattle. Este conjunto de dados é atualizado diariamente e contém registos históricos acumulados desde 2010 até ao presente |
Conjuntos de dados suplementares e comuns
Conjunto de dados | Description |
---|---|
Diabetes | O conjunto de dados Diabetes tem 442 amostras com 10 funcionalidades, o que faz com que seja ideal para começar a trabalhar com algoritmos de aprendizagem automática. |
Dados simulados de vendas do JO | Esse conjunto de dados é derivado do conjunto de dados OJ da Dominick e inclui dados simulados extras, com o objetivo de fornecer um conjunto de dados que facilite o treinamento simultâneo de milhares de modelos no Azure Machine Learning. |
Base de dados MNIST de dígitos manuscritos | A base de dados MNIST de dígitos manuscritos tem um conjunto de preparação com 60 000 exemplos e um conjunto de testes com 10 000 exemplos. Os dígitos são normalizados por tamanho e centralizados em uma imagem de tamanho fixo. |
Conjunto de dados de recomendação do Microsoft News | O Microsoft News Dataset (MIND) é um conjunto de dados em grande escala para pesquisa de recomendações de notícias. Ele serve como um conjunto de dados de referência para recomendação de notícias e facilita a pesquisa em sistemas de recomendação e recomendação de notícias. |
Feriados | Dados de feriados nacionais de todo o mundo obtidos com base nos pacotes de férias PyPI e na Wikipedia, abrangendo 38 países ou regiões de 1970 a 2099. |
Discurso aberto russo ao texto | Russian Open STT é um conjunto de dados de fala aberta em grande escala para texto para a língua russa |