Databáze MNIST ručně psaných číslic

Článek
09/01/2024

Databáze MNIST ručně psaných číslic obsahuje trénovací sadu 60 000 příkladů a testovací sadu 10 000 příkladů. Číslice mají normalizovanou velikost a jsou umístěné ve středu obrázku s pevnou velikostí.

Poznámka:

Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Zdrojem této datové sady je tato databáze MNIST ručně psaných číslic. Je to podmnožina větších ručně tištěných formulářů a znaků NIST, kterou publikoval National Institute of Standards and Technology.

Dočasné úložiště

Účet objektů blob: azureopendatastorage
Název kontejneru: mnist

Přímo v tomto kontejneru jsou k dispozici čtyři soubory:

train-images-idx3-ubyte.gz: obrázky trénovací sady (9 912 422 bajtů)
train-labels-idx1-ubyte.gz: popisky trénovací sady (28 881 bajtů)
t10k-images-idx3-ubyte.gz: obrázky testovací sady (1 648 877 bajtů)
t10k-labels-idx1-ubyte.gz: popisky testovací sady (4 542 bajtů)

Přístup k datům

Načtěte MNIST do datového rámce pomocí tabulkových datových sad služby Azure Machine Learning.

Další informace o datových sadách Azure Machine Learning najdete v tématu Vytváření datových sad Azure Machine Learning.

Získání úplné datové sady do datového rámce

from azureml.opendatasets import MNIST

mnist = MNIST.get_tabular_dataset()
mnist_df = mnist.to_pandas_dataframe()
mnist_df.info()

Získání datových rámců pro trénování a testování

mnist_train = MNIST.get_tabular_dataset(dataset_filter='train')
mnist_train_df = mnist_train.to_pandas_dataframe()
X_train = mnist_train_df.drop("label", axis=1).astype(int).values/255.0
y_train = mnist_train_df.filter(items=["label"]).astype(int).values

mnist_test = MNIST.get_tabular_dataset(dataset_filter='test')
mnist_test_df = mnist_test.to_pandas_dataframe()
X_test = mnist_test_df.drop("label", axis=1).astype(int).values/255.0
y_test = mnist_test_df.filter(items=["label"]).astype(int).values

Vykreslení některých obrázků číslic

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

# now let's show some randomly chosen images from the traininng set.
count = 0
sample_size = 30
plt.figure(figsize=(16, 6))
for i in np.random.permutation(X_train.shape[0])[:sample_size]:
    count = count + 1
    plt.subplot(1, sample_size, count)
    plt.axhline('')
    plt.axvline('')
    plt.text(x=10, y=-10, s=y_train[i], fontsize=18)
    plt.imshow(X_train[i].reshape(28, 28), cmap=plt.cm.Greys)
plt.show()

Stáhněte nebo připojte nezpracované soubory MNIST k datovým sadám azure Machine Learning.

To funguje jenom pro výpočetní prostředky založené na Linuxu. Další informace o datových sadách Azure Machine Learning najdete v tématu Vytváření datových sad Azure Machine Learning.

mnist_file = MNIST.get_file_dataset()
mnist_file

mnist_file.to_path()

Stažení souborů do místního úložiště

import os
import tempfile

data_folder = tempfile.mkdtemp()
data_paths = mnist_file.download(data_folder, overwrite=True)
data_paths

Připojte soubory. Užitečné při spuštění úlohy trénování na vzdáleném výpočetním prostředí.

import gzip
import struct
import pandas as pd
import numpy as np

# load compressed MNIST gz files and return pandas dataframe of numpy arrays
def load_data(filename, label=False):
    with gzip.open(filename) as gz:
        gz.read(4)
        n_items = struct.unpack('>I', gz.read(4))
        if not label:
            n_rows = struct.unpack('>I', gz.read(4))[0]
            n_cols = struct.unpack('>I', gz.read(4))[0]
            res = np.frombuffer(gz.read(n_items[0] * n_rows * n_cols), dtype=np.uint8)
            res = res.reshape(n_items[0], n_rows * n_cols)
        else:
            res = np.frombuffer(gz.read(n_items[0]), dtype=np.uint8)
            res = res.reshape(n_items[0], 1)
    return pd.DataFrame(res)

import sys
mount_point = tempfile.mkdtemp()
print(mount_point)
print(os.path.exists(mount_point))

if sys.platform == 'linux':
  print("start mounting....")
  with mnist_file.mount(mount_point):
    print("list dir...")
    print(os.listdir(mount_point))
    print("get the dataframe info of mounted data...")
    train_images_df = load_data(next(path for path in data_paths if path.endswith("train-images-idx3-ubyte.gz")))
    print(train_images_df.info())

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

import urllib.request
import os

data_folder = os.path.join(os.getcwd(), 'data')
os.makedirs(data_folder, exist_ok=True)

urllib.request.urlretrieve('https://azureopendatastorage.blob.core.windows.net/mnist/train-images-idx3-ubyte.gz',
                           filename=os.path.join(data_folder, 'train-images.gz'))
urllib.request.urlretrieve('https://azureopendatastorage.blob.core.windows.net/mnist/train-labels-idx1-ubyte.gz',
                           filename=os.path.join(data_folder, 'train-labels.gz'))
urllib.request.urlretrieve('https://azureopendatastorage.blob.core.windows.net/mnist/t10k-images-idx3-ubyte.gz',
                           filename=os.path.join(data_folder, 'test-images.gz'))
urllib.request.urlretrieve('https://azureopendatastorage.blob.core.windows.net/mnist/t10k-labels-idx1-ubyte.gz',
                           filename=os.path.join(data_folder, 'test-labels.gz'))

import gzip
import struct

# load compressed MNIST gz files and return numpy arrays
def load_data(filename, label=False):
    with gzip.open(filename) as gz:
        struct.unpack('I', gz.read(4))
        n_items = struct.unpack('>I', gz.read(4))
        if not label:
            n_rows = struct.unpack('>I', gz.read(4))[0]
            n_cols = struct.unpack('>I', gz.read(4))[0]
            res = np.frombuffer(gz.read(n_items[0] * n_rows * n_cols), dtype=np.uint8)
            res = res.reshape(n_items[0], n_rows * n_cols)
        else:
            res = np.frombuffer(gz.read(n_items[0]), dtype=np.uint8)
            res = res.reshape(n_items[0], 1)
    return res

# note we also shrink the intensity values (X) from 0-255 to 0-1. This helps the model converge faster.
X_train = load_data(os.path.join(
    data_folder, 'train-images.gz'), False) / 255.0
X_test = load_data(os.path.join(data_folder, 'test-images.gz'), False) / 255.0
y_train = load_data(os.path.join(
    data_folder, 'train-labels.gz'), True).reshape(-1)
y_test = load_data(os.path.join(
    data_folder, 'test-labels.gz'), True).reshape(-1)

# now let's show some randomly chosen images from the traininng set.
count = 0
sample_size = 30
plt.figure(figsize=(16, 6))
for i in np.random.permutation(X_train.shape[0])[:sample_size]:
    count = count + 1
    plt.subplot(1, sample_size, count)
    plt.axhline('')
    plt.axvline('')
    plt.text(x=10, y=-10, s=y_train[i], fontsize=18)
    plt.imshow(X_train[i].reshape(28, 28), cmap=plt.cm.Greys)
plt.show()

Azure Databricks

azureml-opendatasets
azure-storage

Načtěte MNIST do datového rámce pomocí tabulkových datových sad služby Azure Machine Learning.

Další informace o datových sadách Azure Machine Learning najdete v tématu Vytváření datových sad Azure Machine Learning.

Získání úplné datové sady do datového rámce

# This is a package in preview.
from azureml.opendatasets import MNIST

mnist = MNIST.get_tabular_dataset()
mnist_df = mnist.to_spark_dataframe()

display(mnist_df.limit(5))

Stáhněte nebo připojte nezpracované soubory MNIST k datovým sadám azure Machine Learning.

To funguje jenom pro výpočetní prostředky založené na Linuxu. Další informace o datových sadách Azure Machine Learning najdete v tématu Vytváření datových sad Azure Machine Learning.

mnist_file = MNIST.get_file_dataset()
mnist_file

mnist_file.to_path()

Stažení souborů do místního úložiště

import os
import tempfile

mount_point = tempfile.mkdtemp()
mnist_file.download(mount_point, overwrite=True)

Připojte soubory. Užitečné při spuštění úlohy trénování na vzdáleném výpočetním prostředí.

import gzip
import struct
import pandas as pd
import numpy as np

# load compressed MNIST gz files and return numpy arrays
def load_data(filename, label=False):
    with gzip.open(filename) as gz:
        gz.read(4)
        n_items = struct.unpack('>I', gz.read(4))
        if not label:
            n_rows = struct.unpack('>I', gz.read(4))[0]
            n_cols = struct.unpack('>I', gz.read(4))[0]
            res = np.frombuffer(gz.read(n_items[0] * n_rows * n_cols), dtype=np.uint8)
            res = res.reshape(n_items[0], n_rows * n_cols)
        else:
            res = np.frombuffer(gz.read(n_items[0]), dtype=np.uint8)
            res = res.reshape(n_items[0], 1)
    return pd.DataFrame(res)

import sys
mount_point = tempfile.mkdtemp()
print(mount_point)
print(os.path.exists(mount_point))
print(os.listdir(mount_point))

if sys.platform == 'linux':
  print("start mounting....")
  with mnist_file.mount(mount_point):
    print(context.mount_point )
    print(os.listdir(mount_point))  
    train_images_df = load_data(os.path.join(mount_point, 'train-images-idx3-ubyte.gz'))
    print(train_images_df.info())

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.

Sdílet prostřednictvím

Databáze MNIST ručně psaných číslic

Dočasné úložiště

Přístup k datům

Azure Notebooks

Načtěte MNIST do datového rámce pomocí tabulkových datových sad služby Azure Machine Learning.

Získání úplné datové sady do datového rámce

Získání datových rámců pro trénování a testování

Vykreslení některých obrázků číslic

Stáhněte nebo připojte nezpracované soubory MNIST k datovým sadám azure Machine Learning.

Stažení souborů do místního úložiště

Připojte soubory. Užitečné při spuštění úlohy trénování na vzdáleném výpočetním prostředí.

Azure Databricks

Načtěte MNIST do datového rámce pomocí tabulkových datových sad služby Azure Machine Learning.

Získání úplné datové sady do datového rámce

Stáhněte nebo připojte nezpracované soubory MNIST k datovým sadám azure Machine Learning.

Stažení souborů do místního úložiště

Připojte soubory. Užitečné při spuštění úlohy trénování na vzdáleném výpočetním prostředí.

Další kroky

Váš názor

Další materiály