Melhore a precisão dos modelos de machine learning com conjuntos de dados disponíveis publicamente. Para economizar tempo na descoberta e preparação de dados, use conjuntos de dados coletados que estão prontos para projetos de aprendizado de máquina.
Os registros de viagem de táxi amarelo incluem as datas/horas e localizações de partida e chegada, distâncias, tarifas discriminadas, tipos de taxa, tipos de pagamento, e contagens de passageiro relatadas pelo motorista.
Os registros de viagem de táxi verde incluem as datas/horas e localizações de partida e chegada, distâncias, tarifas discriminadas, tipos de taxa, tipos de pagamento, e contagens de passageiro relatadas pelo motorista.
Os registros de viagem em veículo para locação incluem o número da licença de base despachada, a data e hora da retirada e a ID da localização da zona de táxi.
O Data Lake COVID-19 é uma coleção de conjuntos de dados relacionados à COVID-19 de várias fontes, que abrangem dados de teste e acompanhamento de resultados do paciente, políticas de distanciamento social, capacidade de hospitais, mobilidade etc.
Um conjunto de dados completo de artigos acadêmicos sobre COVID-19 e relacionados ao coronavírus, incluindo texto completo e metadados, otimizado para leitura por máquina e disponibilizado para uso pela comunidade global de pesquisa.
O Data Lake Genomics conta com vários conjuntos de dados públicos disponíveis gratuitamente, prontos para serem integrados aos seus aplicativos e fluxos de trabalho de análise genômica. Os conjuntos de dados incluem: sequências de genomas, informações sobre variantes e metadados de indivíduos/amostras nos formatos de arquivo BAM, FASTA, VCF e CSV.
As Estatísticas da Força de Trabalho dos EUA fornecem dados sobre estatísticas da força de trabalho, taxas de participação na força de trabalho e a população civil não institucional por idade, gênero, raça e grupos étnicos nos Estados Unidos.
O programa das CES (Estatísticas Atuais de Emprego) produz estimativas detalhadas da indústria de empregos não agrícolas, horas e salários de trabalhadores em folhas de pagamento nos Estados Unidos.
O programa das CES (Estatísticas Atuais de Emprego) produz estimativas detalhadas da indústria de empregos não agrícolas, horas e salários de trabalhadores em folhas de pagamento nos Estados Unidos.
Os conjuntos de dados de Estatísticas de Desemprego na Área Local dos EUA produz dados mensais e anuais de emprego, desemprego e da força de trabalho nas regiões e divisões do Censo, Estados, condados, áreas metropolitanas e muitas cidades dos Estados Unidos.
O Índice de Preços ao Consumidor (IPC) mede a variação média ao longo do tempo nos preços pagos por consumidores urbanos por uma cesta de bens e serviços de consumo.
O Índice de Preços ao Produtor (PPI) mede a variação média, ao longo do tempo, nos preços de venda recebidos pelos produtores domésticos por sua produção.
O Índice de Preços ao Produtor (PPI) mede a variação média ao longo do tempo nos preços de venda recebidos pelos produtores domésticos por suas mercadorias.
População dos EUA por gênero e raça para cada condado do país, originada dos censos decenais de 2000 e 2010. Este conjunto de dados é produzido pelo Departamento do Censo dos Estados Unidos.
População dos EUA por gênero e raça para cada CEP do país, originada do censo decenal de 2010. Este conjunto de dados é produzido pelo Departamento do Censo dos Estados Unidos.
Leia dados sobre as chamadas ao número 311 relatadas na cidade de Boston. Esse conjunto de dados é armazenado no formato Parquet e recebe atualizações diárias.
Leia dados sobre as chamadas ao número 311 relatadas na cidade de Chicago. Esse conjunto de dados é armazenado no formato Parquet e recebe atualizações diárias.
Este conjunto de dados contém todas as solicitações de serviço ao número 311 da cidade de Nova York de 2010 até agora. Esse conjunto de dados é armazenado no formato Parquet e recebe atualizações diárias.
Chamadas de serviço ao corpo de bombeiros e casos do 311 em São Francisco. Este conjunto de dados contém registros históricos acumulados de 2015 até o presente.
Despachos do corpo de bombeiros de Seattle para a central de emergência. Este conjunto de dados é atualizado diariamente e contém registros históricos acumulados de 2010 até agora
Esse conjunto de dados é derivado do conjunto de dados sobre sucos de laranja da rede de lojas Dominick’s e inclui dados extra simulados com a meta de fornecer um conjunto de dados que facilite o treinamento simultâneo de milhares de modelos no Azure Machine Learning.
O banco de dados MNIST de dígitos manuscritos tem um conjunto de treinamento com 60.000 exemplos e um conjunto de teste com 10.000 exemplos. Os dígitos estão normalizados em termos de tamanho e centralizados em uma imagem de tamanho fixo.
O MIND (Conjunto de dados do Microsoft Notícias) é um conjunto de dados de grande escala para a pesquisa de notícias de recomendação. Ele serve como um conjunto de dados de referência para recomendação de notícias e facilita a pesquisa em recomendações de notícias e sistemas de recomendação.