Identyfikowanie zasobów usługi Azure Machine Learning

Ukończone

Jako analityk danych pracujesz głównie z elementami zawartości w obszarze roboczym usługi Azure Machine Learning. Zasoby są tworzone i używane na różnych etapach projektu i obejmują:

  • Modele
  • Środowiska
  • Data
  • Składniki

Tworzenie modeli i zarządzanie nimi

Końcowym produktem trenowania modelu jest sam model. Modele uczenia maszynowego można trenować przy użyciu różnych struktur, takich jak Scikit-learn lub PyTorch. Typowym sposobem przechowywania takich modeli jest spakowanie modelu jako pliku pickle języka Python (.pkl rozszerzenie).

Alternatywnie możesz użyć platformy open source MLflow do przechowywania modelu w formacie MLModel.

Niezależnie od wybranego formatu pliki binarne reprezentują model i odpowiednie metadane. Aby zachować te pliki, możesz utworzyć lub zarejestrować model w obszarze roboczym.

Podczas tworzenia modelu w obszarze roboczym należy określić nazwę i wersję. Szczególnie przydatne podczas wdrażania zarejestrowanego modelu przechowywanie wersji umożliwia śledzenie określonego modelu, którego chcesz użyć.

Tworzenie środowisk i zarządzanie nimi

Podczas pracy z obliczeniami w chmurze ważne jest, aby upewnić się, że kod jest uruchamiany na wszystkich dostępnych obliczeniach. Niezależnie od tego, czy chcesz uruchomić skrypt w wystąpieniu obliczeniowym, czy w klastrze obliczeniowym, kod powinien zostać wykonany pomyślnie.

Wyobraź sobie, że pracujesz w języku Python lub R, używając struktur typu open source do trenowania modelu na urządzeniu lokalnym. Jeśli chcesz użyć biblioteki, takiej jak Scikit-learn lub PyTorch, musisz zainstalować ją na urządzeniu.

Podobnie podczas pisania kodu korzystającego z dowolnych struktur lub bibliotek należy upewnić się, że niezbędne zależności są instalowane na obliczeniach, które wykonują kod. Aby wyświetlić listę wszystkich niezbędnych wymagań, możesz utworzyć środowiska. Podczas tworzenia środowiska należy określić nazwę i wersję.

Środowiska określają pakiety oprogramowania, zmienne środowiskowe i ustawienia oprogramowania do uruchamiania skryptów. Środowisko jest przechowywane jako obraz w usłudze Azure Container Registry utworzonym za pomocą obszaru roboczego, gdy jest używane po raz pierwszy.

Za każdym razem, gdy chcesz uruchomić skrypt, możesz określić środowisko, które musi być używane przez docelowy obiekt obliczeniowy. Środowisko instaluje wszystkie niezbędne wymagania dotyczące obliczeń przed wykonaniem skryptu, dzięki czemu kod jest niezawodny i wielokrotnego użytku w obiektach docelowych obliczeniowych.

Tworzenie i zarządzanie danymi

Magazyny danych zawierają informacje o połączeniu z usługami azure data storage, zasoby danych odwołują się do określonego pliku lub folderu.

Za pomocą zasobów danych można łatwo uzyskiwać dostęp do danych za każdym razem bez konieczności zapewniania uwierzytelniania za każdym razem, gdy chcesz uzyskać do nich dostęp.

Podczas tworzenia zasobu danych w obszarze roboczym należy określić ścieżkę wskazującą plik lub folder oraz nazwę i wersję.

Tworzenie składników i zarządzanie nimi

Aby wytrenować modele uczenia maszynowego, napiszesz kod. W różnych projektach może istnieć kod, którego można użyć ponownie. Zamiast pisać kod od podstaw, chcesz ponownie użyć fragmentów kodu z innych projektów.

Aby ułatwić udostępnianie kodu, możesz utworzyć składnik w obszarze roboczym. Aby utworzyć składnik, musisz określić nazwę, wersję, kod i środowisko potrzebne do uruchomienia kodu.

Składniki można używać podczas tworzenia potoków. W związku z tym składnik często reprezentuje krok w potoku, na przykład w celu normalizacji danych, trenowania modelu regresji lub testowania wytrenowanego modelu na zestawie danych weryfikacji.