US Population by ZIP code

Článek
09/01/2024

Obyvatelstvo USA podle pohlaví a rasy pro každý PSČ v USA zdrojové z roku 2000 a 2010 Decennial Census.

Tato datová sada je zdrojová z rozhraní API pro datové sady USA Census Bureau decennial Census Dataset API. Podmínky a ujednání související s používáním této datové sady najdete v podmínkách služby a v zásadách a upozorněních.

Poznámka:

Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Objem a uchovávání

Tato datová sada se uchovává ve formátu Parquet a obsahuje data z roku 2010.

Dočasné úložiště

Tato datová sada se uchovává v oblasti Azure Východní USA. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.

Obyvatelstvo USA podle okresu

Sloupce

Name	Datový typ	Jedinečný	Values (sample)	Popis
decennialTime	string	0	2010	Nastal čas sčítání lidu, například 2010, 2000.
maxAge	int	23	54 21	Maximum věkového rozmezí. Pokud je hodnota null, je ve všech věkových kategoriích nebo věková oblast nemá žádnou horní mez, například 85 let > .
minAge	int	23	45 30	Minimum věkového rozmezí. Pokud je hodnota null, platí pro všechny věkové kategorie.
počet obyvatel	int	29,274	1 2	Stav obyvatelstva v tomto segmentu
závod	string	8	JINÉ RASY SAMOTNÉ ČERNÉ NEBO AFRICKÉ AMERICKÉ SÁM	Kategorie rasy v údajích ze sčítání lidu. Pokud je hodnota null, platí pro všechny rasy.
Sex	string	3	Žena muž	Muž nebo žena. Pokud je hodnota null, platí pro obě pohlaví.
rok	int	0	2010	Rok (vyjádřený celým číslem), ve kterém proběhlo desetileté sčítání lidu
zipCode	string	33,120	39218 87420	5místný kód ZCTA5 (ZIP Code Tabulation Area)

Preview

decennialTime	zipCode	počet obyvatel	závod	Sex	minAge	maxAge	rok
2010	77477	265	BÍLÁ SAMA	Žena	15	17	2010
2010	77477	107	JINÝ ZÁVOD SÁM	Žena	15	17	2010
2010	77477	12	JINÝ ZÁVOD SÁM	Žena	65	66	2010
2010	77477	101	SAMOTNÁ ASIATKA	Žena	60	61	2010
2010	77477	221	SAMOTNÁ ASIATKA	Muž	10	14	2010
2010	77478	256	BÍLÁ SAMA	Žena	15	17	2010
2010	77478	17	JINÝ ZÁVOD SÁM	Žena	15	17	2010
2010	77478	3	JINÝ ZÁVOD SÁM	Žena	65	66	2010

Přístup k datům

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import UsPopulationZip

population = UsPopulationZip()
population_df = population.to_pandas_dataframe()

population_df.info()

# Pip install packages
import os, sys

!{sys.executable} -m pip install azure-storage-blob
!{sys.executable} -m pip install pyarrow
!{sys.executable} -m pip install pandas

# Azure storage access info
azure_storage_account_name = "azureopendatastorage"
azure_storage_sas_token = r""
container_name = "censusdatacontainer"
folder_name = "release/us_population_zip/"

from azure.storage.blob import BlockBlobServicefrom azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient

if azure_storage_account_name is None or azure_storage_sas_token is None:
    raise Exception(
        "Provide your specific name and key for your Azure Storage account--see the Prerequisites section earlier.")

print('Looking for the first parquet under the folder ' +
      folder_name + ' in container "' + container_name + '"...')
container_url = f"https://{azure_storage_account_name}.blob.core.windows.net/"
blob_service_client = BlobServiceClient(
    container_url, azure_storage_sas_token if azure_storage_sas_token else None)

container_client = blob_service_client.get_container_client(container_name)
blobs = container_client.list_blobs(folder_name)
sorted_blobs = sorted(list(blobs), key=lambda e: e.name, reverse=True)
targetBlobName = ''
for blob in sorted_blobs:
    if blob.name.startswith(folder_name) and blob.name.endswith('.parquet'):
        targetBlobName = blob.name
        break

print('Target blob to download: ' + targetBlobName)
_, filename = os.path.split(targetBlobName)
blob_client = container_client.get_blob_client(targetBlobName)
with open(filename, 'wb') as local_file:
    blob_client.download_blob().download_to_stream(local_file)

# Read the parquet file into Pandas data frame
import pandas as pd

print('Reading the parquet file into Pandas data frame')
df = pd.read_parquet(filename)

# you can add your filter at below
print('Loaded as a Pandas data frame: ')
df

Azure Databricks

# This is a package in preview.
from azureml.opendatasets import UsPopulationZip

population = UsPopulationZip()
population_df = population.to_spark_dataframe()

display(population_df.limit(5))

# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "censusdatacontainer"
blob_relative_path = "release/us_population_zip/"
blob_sas_token = r""

# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)

# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')

# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import UsPopulationZip

population = UsPopulationZip()
population_df = population.to_spark_dataframe()

# Display top 5 rows
display(population_df.limit(5))

# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "censusdatacontainer"
blob_relative_path = "release/us_population_zip/"
blob_sas_token = r""

# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)

# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')

# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.

Sdílet prostřednictvím

US Population by ZIP code

Objem a uchovávání

Dočasné úložiště

Sloupce

Preview

Přístup k datům

Azure Notebooks

Azure Databricks

Azure Synapse

Další kroky

Váš názor

Další materiály

Sdílet prostřednictvím

US Population by ZIP code

Objem a uchovávání

Dočasné úložiště

Související datové sady

Sloupce

Preview

Přístup k datům

Azure Notebooks

Azure Databricks

Azure Synapse

Další kroky

Váš názor

Další materiály