Identyfikowanie zasobów usługi Azure Machine Learning
Jako analityk danych pracujesz głównie z elementami zawartości w obszarze roboczym usługi Azure Machine Learning. Zasoby są tworzone i używane na różnych etapach projektu i obejmują:
- Modele
- Środowiska
- Data
- Składniki
Tworzenie modeli i zarządzanie nimi
Końcowym produktem trenowania modelu jest sam model. Modele uczenia maszynowego można trenować przy użyciu różnych struktur, takich jak Scikit-learn lub PyTorch. Typowym sposobem przechowywania takich modeli jest spakowanie modelu jako pliku pickle języka Python (.pkl
rozszerzenie).
Alternatywnie możesz użyć platformy open source MLflow do przechowywania modelu w formacie MLModel.
Napiwek
Dowiedz się więcej na temat rejestrowania artefaktów przepływu pracy jako modeli przy użyciu biblioteki MLflow i formatu MLModel.
Niezależnie od wybranego formatu pliki binarne reprezentują model i odpowiednie metadane. Aby zachować te pliki, możesz utworzyć lub zarejestrować model w obszarze roboczym.
Podczas tworzenia modelu w obszarze roboczym należy określić nazwę i wersję. Szczególnie przydatne podczas wdrażania zarejestrowanego modelu przechowywanie wersji umożliwia śledzenie określonego modelu, którego chcesz użyć.
Tworzenie środowisk i zarządzanie nimi
Podczas pracy z obliczeniami w chmurze ważne jest, aby upewnić się, że kod jest uruchamiany na wszystkich dostępnych obliczeniach. Niezależnie od tego, czy chcesz uruchomić skrypt w wystąpieniu obliczeniowym, czy w klastrze obliczeniowym, kod powinien zostać wykonany pomyślnie.
Wyobraź sobie, że pracujesz w języku Python lub R, używając struktur typu open source do trenowania modelu na urządzeniu lokalnym. Jeśli chcesz użyć biblioteki, takiej jak Scikit-learn lub PyTorch, musisz zainstalować ją na urządzeniu.
Podobnie podczas pisania kodu korzystającego z dowolnych struktur lub bibliotek należy upewnić się, że niezbędne zależności są instalowane na obliczeniach, które wykonują kod. Aby wyświetlić listę wszystkich niezbędnych wymagań, możesz utworzyć środowiska. Podczas tworzenia środowiska należy określić nazwę i wersję.
Środowiska określają pakiety oprogramowania, zmienne środowiskowe i ustawienia oprogramowania do uruchamiania skryptów. Środowisko jest przechowywane jako obraz w usłudze Azure Container Registry utworzonym za pomocą obszaru roboczego, gdy jest używane po raz pierwszy.
Za każdym razem, gdy chcesz uruchomić skrypt, możesz określić środowisko, które musi być używane przez docelowy obiekt obliczeniowy. Środowisko instaluje wszystkie niezbędne wymagania dotyczące obliczeń przed wykonaniem skryptu, dzięki czemu kod jest niezawodny i wielokrotnego użytku w obiektach docelowych obliczeniowych.
Tworzenie i zarządzanie danymi
Magazyny danych zawierają informacje o połączeniu z usługami azure data storage, zasoby danych odwołują się do określonego pliku lub folderu.
Za pomocą zasobów danych można łatwo uzyskiwać dostęp do danych za każdym razem bez konieczności zapewniania uwierzytelniania za każdym razem, gdy chcesz uzyskać do nich dostęp.
Podczas tworzenia zasobu danych w obszarze roboczym należy określić ścieżkę wskazującą plik lub folder oraz nazwę i wersję.
Tworzenie składników i zarządzanie nimi
Aby wytrenować modele uczenia maszynowego, napiszesz kod. W różnych projektach może istnieć kod, którego można użyć ponownie. Zamiast pisać kod od podstaw, chcesz ponownie użyć fragmentów kodu z innych projektów.
Aby ułatwić udostępnianie kodu, możesz utworzyć składnik w obszarze roboczym. Aby utworzyć składnik, musisz określić nazwę, wersję, kod i środowisko potrzebne do uruchomienia kodu.
Składniki można używać podczas tworzenia potoków. W związku z tym składnik często reprezentuje krok w potoku, na przykład w celu normalizacji danych, trenowania modelu regresji lub testowania wytrenowanego modelu na zestawie danych weryfikacji.