Datastore Klasa
Reprezentuje abstrakcję magazynu na koncie magazynu usługi Azure Machine Learning.
Magazyny danych są dołączone do obszarów roboczych i są używane do przechowywania informacji o połączeniu z usługami Azure Storage, dzięki czemu można odwoływać się do nich według nazwy i nie trzeba pamiętać informacji o połączeniu i wpisów tajnych używanych do łączenia się z usługami magazynu.
Przykłady obsługiwanych usług magazynu platformy Azure, które można zarejestrować jako magazyny danych, to:
Azure Blob Container
Udział plików platformy Azure
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database for PostgreSQL
System plików usługi Databricks
Azure Database for MySQL
Ta klasa służy do wykonywania operacji zarządzania, w tym rejestrowania, wyświetlania listy, pobierania i usuwania magazynów danych.
Magazyny danych dla każdej usługi są tworzone przy użyciu register*
metod tej klasy. W przypadku uzyskiwania dostępu do danych przy użyciu magazynu danych musisz mieć uprawnienia dostępu do tych danych, co zależy od poświadczeń zarejestrowanych w magazynie danych.
Aby uzyskać więcej informacji na temat magazynów danych i sposobu ich użycia w uczeniu maszynowym, zobacz następujące artykuły:
Uzyskiwanie dostępu do danych w usługach magazynu platformy Azure
Trenowanie modeli za pomocą usługi Azure Machine Learning przy użyciu narzędzia do szacowania
Pobierz magazyn danych według nazwy. To wywołanie spowoduje przesłanie żądania do usługi magazynu danych.
- Dziedziczenie
-
builtins.objectDatastore
Konstruktor
Datastore(workspace, name=None)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy. |
name
|
str, <xref:optional>
Nazwa magazynu danych domyślnie ma wartość None, która pobiera domyślny magazyn danych. Domyślna wartość: None
|
Uwagi
Aby wchodzić w interakcje z danymi w magazynach danych na potrzeby zadań uczenia maszynowego, takich jak trenowanie, utwórz zestaw danych usługi Azure Machine Learning. Zestawy danych udostępniają funkcje, które ładują dane tabelaryczne do biblioteki pandas lub Spark DataFrame. Zestawy danych umożliwiają również pobieranie lub instalowanie plików dowolnego formatu z usługi Azure Blob Storage, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database i Azure Database for PostgreSQL. Dowiedz się więcej na temat trenowania za pomocą zestawów danych.
W poniższym przykładzie pokazano, jak utworzyć magazyn danych połączony z kontenerem obiektów blob platformy Azure.
# from azureml.exceptions import UserErrorException
#
# blob_datastore_name='MyBlobDatastore'
# account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
# container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
# account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
#
# try:
# blob_datastore = Datastore.get(ws, blob_datastore_name)
# print("Found Blob Datastore with name: %s" % blob_datastore_name)
# except UserErrorException:
# blob_datastore = Datastore.register_azure_blob_container(
# workspace=ws,
# datastore_name=blob_datastore_name,
# account_name=account_name, # Storage account name
# container_name=container_name, # Name of Azure blob container
# account_key=account_key) # Storage account key
# print("Registered blob datastore with name: %s" % blob_datastore_name)
#
# blob_data_ref = DataReference(
# datastore=blob_datastore,
# data_reference_name="blob_test_data",
# path_on_datastore="testdata")
Pełna próbka jest dostępna w witrynie https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb
Metody
get |
Pobierz magazyn danych według nazwy. Jest to takie samo, jak wywoływanie konstruktora. |
get_default |
Pobierz domyślny magazyn danych dla obszaru roboczego. |
register_azure_blob_container |
Rejestrowanie kontenera obiektów blob platformy Azure w magazynie danych. Obsługiwany jest dostęp do danych opartych na poświadczeniach (GA) i opartych na tożsamościach (wersja zapoznawcza), a także możesz użyć tokenu SAS lub klucza konta magazynu. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Narzędzie Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj. |
register_azure_data_lake |
Zainicjuj nowy magazyn danych usługi Azure Data Lake. Obsługiwane są poświadczenia oparte na poświadczeniach i dostęp do danych opartych na tożsamościach (wersja zapoznawcza), można zarejestrować magazyn danych za pomocą jednostki usługi w celu uzyskania dostępu do danych opartych na poświadczeniach. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj. Poniżej przedstawiono przykład rejestrowania usługi Azure Data Lake Gen1 jako magazynu danych.
|
register_azure_data_lake_gen2 |
Zainicjuj nowy magazyn danych usługi Azure Data Lake Gen2. Obsługiwane są poświadczenia oparte na poświadczeniach i dostęp do danych opartych na tożsamościach (wersja zapoznawcza), można zarejestrować magazyn danych za pomocą jednostki usługi w celu uzyskania dostępu do danych opartych na poświadczeniach. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj. |
register_azure_file_share |
Zarejestruj udział plików platformy Azure w magazynie danych. Możesz użyć tokenu sygnatury dostępu współdzielonego lub klucza konta magazynu |
register_azure_my_sql |
Zainicjuj nowy magazyn danych usługi Azure MySQL. Magazyn danych MySQL może służyć tylko do tworzenia danych DataReference jako danych wejściowych i wyjściowych do elementu DataTransferStep w potokach usługi Azure Machine Learning. Więcej szczegółów można znaleźć tutaj. Zapoznaj się z poniższym przykładem rejestrowania bazy danych Azure MySQL jako magazynu danych. |
register_azure_postgre_sql |
Zainicjuj nowy magazyn danych usługi Azure PostgreSQL. Zapoznaj się z poniższym przykładem rejestrowania bazy danych Azure PostgreSQL jako magazynu danych. |
register_azure_sql_database |
Zainicjuj nowy magazyn danych Azure SQL. Dostęp do danych opartych na poświadczeniach (GA) i oparty na tożsamościach (wersja zapoznawcza) jest obsługiwany. Możesz wybrać opcję użycia jednostki usługi lub nazwy użytkownika i hasła. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Narzędzie Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj. Poniżej przedstawiono przykład rejestrowania bazy danych Azure SQL jako magazynu danych. |
register_dbfs |
Zainicjuj nowy magazyn danych systemu plików usługi Databricks (DBFS). Magazyn danych DBFS może służyć tylko do tworzenia elementu DataReference jako danych wejściowych i PipelineData jako danych wyjściowych do elementu DatabricksStep w potokach usługi Azure Machine Learning. Więcej szczegółów można znaleźć tutaj. |
register_hdfs |
Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Zainicjuj nowy magazyn danych HDFS. |
set_as_default |
Ustaw domyślny magazyn danych. |
unregister |
Wyrejestrowuje magazyn danych. podstawowa usługa magazynu nie zostanie usunięta. |
get
Pobierz magazyn danych według nazwy. Jest to takie samo, jak wywoływanie konstruktora.
static get(workspace, datastore_name)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy. |
datastore_name
Wymagane
|
str, <xref:optional>
Nazwa magazynu danych domyślnie ma wartość None, która pobiera domyślny magazyn danych. |
Zwraca
Typ | Opis |
---|---|
Odpowiedni magazyn danych dla tej nazwy. |
get_default
Pobierz domyślny magazyn danych dla obszaru roboczego.
static get_default(workspace)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy. |
Zwraca
Typ | Opis |
---|---|
Domyślny magazyn danych dla obszaru roboczego |
register_azure_blob_container
Rejestrowanie kontenera obiektów blob platformy Azure w magazynie danych.
Obsługiwany jest dostęp do danych opartych na poświadczeniach (GA) i opartych na tożsamościach (wersja zapoznawcza), a także możesz użyć tokenu SAS lub klucza konta magazynu. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Narzędzie Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj.
static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy. |
datastore_name
Wymagane
|
Nazwa magazynu danych, bez uwzględniania wielkości liter, może zawierać tylko znaki alfanumeryczne i _. |
container_name
Wymagane
|
Nazwa kontenera obiektów blob platformy Azure. |
account_name
Wymagane
|
Nazwa konta magazynu. |
sas_token
|
str, <xref:optional>
Token SYGNATURy dostępu współdzielonego konta domyślnie ma wartość Brak. W przypadku odczytu danych wymagane jest co najmniej uprawnienia Do odczytu & list dla kontenerów & Objects, a w przypadku zapisu danych dodatkowo wymagamy uprawnień Do zapisu & Dodaj. Domyślna wartość: None
|
account_key
|
str, <xref:optional>
Klucze dostępu konta magazynu są domyślnie ustawione na Wartość Brak. Domyślna wartość: None
|
protocol
|
str, <xref:optional>
Protokół używany do nawiązywania połączenia z kontenerem obiektów blob. Jeśli brak, wartość domyślna to https. Domyślna wartość: None
|
endpoint
|
str, <xref:optional>
Punkt końcowy konta magazynu. Jeśli brak, wartość domyślna to core.windows.net. Domyślna wartość: None
|
overwrite
|
bool, <xref:optional>
zastępuje istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony, a wartość domyślna to False Domyślna wartość: False
|
create_if_not_exists
|
bool, <xref:optional>
utwórz kontener obiektów blob, jeśli nie istnieje, wartość domyślna to False Domyślna wartość: False
|
skip_validation
|
bool, <xref:optional>
Pomija walidację kluczy magazynu, a wartość domyślna to False Domyślna wartość: False
|
blob_cache_timeout
|
int, <xref:optional>
Po zamontowaniu tego obiektu blob ustaw limit czasu pamięci podręcznej na tę liczbę sekund. Jeśli brak, domyślnie nie zostanie przekroczony limit czasu (tj. obiekty blob będą buforowane przez czas trwania zadania podczas odczytu). Domyślna wartość: None
|
grant_workspace_access
|
bool, <xref:optional>
Wartość domyślna to False. Ustaw wartość True, aby uzyskać dostęp do danych za siecią wirtualną z usługi Machine Learning Studio. Spowoduje to, że dostęp do danych z usługi Machine Learning Studio korzysta z tożsamości zarządzanej obszaru roboczego do uwierzytelniania, a następnie dodaje tożsamość zarządzaną obszaru roboczego jako Czytelnik magazynu. Aby wyrazić zgodę, musisz być właścicielem lub administratorem dostępu użytkowników magazynu. Poproś administratora o skonfigurowanie go, jeśli nie masz wymaganych uprawnień. Dowiedz się więcej "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network" Domyślna wartość: False
|
subscription_id
|
str, <xref:optional>
Identyfikator subskrypcji konta magazynu domyślnie ma wartość Brak. Domyślna wartość: None
|
resource_group
|
str, <xref:optional>
Grupa zasobów konta magazynu domyślnie ma wartość Brak. Domyślna wartość: None
|
Zwraca
Typ | Opis |
---|---|
Magazyn danych obiektów blob. |
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienia i dodatkowe koszty użycia sieci.
register_azure_data_lake
Zainicjuj nowy magazyn danych usługi Azure Data Lake.
Obsługiwane są poświadczenia oparte na poświadczeniach i dostęp do danych opartych na tożsamościach (wersja zapoznawcza), można zarejestrować magazyn danych za pomocą jednostki usługi w celu uzyskania dostępu do danych opartych na poświadczeniach. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj.
Poniżej przedstawiono przykład rejestrowania usługi Azure Data Lake Gen1 jako magazynu danych.
adlsgen1_datastore_name='adlsgen1datastore'
store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal
adls_datastore = Datastore.register_azure_data_lake(
workspace=ws,
datastore_name=aslsgen1_datastore_name,
subscription_id=subscription_id, # subscription id of ADLS account
resource_group=resource_group, # resource group of ADLS account
store_name=store_name, # ADLS account name
tenant_id=tenant_id, # tenant id of service principal
client_id=client_id, # client id of service principal
client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, do którego należy ten magazyn danych. |
datastore_name
Wymagane
|
Nazwa magazynu danych. |
store_name
Wymagane
|
Nazwa magazynu usługi ADLS. |
tenant_id
|
str, <xref:optional>
Identyfikator katalogu/identyfikator dzierżawy jednostki usługi używanej do uzyskiwania dostępu do danych. Domyślna wartość: None
|
client_id
|
str, <xref:optional>
Identyfikator klienta/identyfikator aplikacji jednostki usługi używanej do uzyskiwania dostępu do danych. Domyślna wartość: None
|
client_secret
|
str, <xref:optional>
Klucz tajny klienta jednostki usługi używany do uzyskiwania dostępu do danych. Domyślna wartość: None
|
resource_url
|
str, <xref:optional>
Adres URL zasobu, który określa, jakie operacje będą wykonywane w usłudze Data Lake Store, jeśli brak, domyślnie Domyślna wartość: None
|
authority_url
|
str, <xref:optional>
Adres URL urzędu używany do uwierzytelniania użytkownika jest domyślnie ustawiona na Domyślna wartość: None
|
subscription_id
|
str, <xref:optional>
Identyfikator subskrypcji, do której należy magazyn usługi ADLS. Domyślna wartość: None
|
resource_group
|
str, <xref:optional>
Grupa zasobów, do której należy magazyn usługi ADLS. Domyślna wartość: None
|
overwrite
|
bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False. Domyślna wartość: False
|
grant_workspace_access
|
bool, <xref:optional>
Wartość domyślna to False. Ustaw wartość True, aby uzyskać dostęp do danych za siecią wirtualną z usługi Machine Learning Studio. Spowoduje to, że dostęp do danych z usługi Machine Learning Studio korzysta z tożsamości zarządzanej obszaru roboczego do uwierzytelniania, a następnie dodaje tożsamość zarządzaną obszaru roboczego jako Czytelnik magazynu. Aby wyrazić zgodę, musisz być właścicielem lub administratorem dostępu użytkowników magazynu. Poproś administratora o skonfigurowanie go, jeśli nie masz wymaganych uprawnień. Dowiedz się więcej "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network" Domyślna wartość: False
|
Zwraca
Typ | Opis |
---|---|
Zwraca magazyn danych usługi Azure Data Lake. |
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienie i dodatkowe koszty użycia sieci.
Uwaga
Usługa Azure Data Lake Datastore obsługuje transfer danych i uruchamianie zadań U-Sql przy użyciu potoków usługi Azure Machine Learning.
Można go również użyć jako źródła danych dla zestawu danych usługi Azure Machine Learning, który można pobrać lub zamontować na dowolnym obsługiwanym obiekcie obliczeniowym.
register_azure_data_lake_gen2
Zainicjuj nowy magazyn danych usługi Azure Data Lake Gen2.
Obsługiwane są poświadczenia oparte na poświadczeniach i dostęp do danych opartych na tożsamościach (wersja zapoznawcza), można zarejestrować magazyn danych za pomocą jednostki usługi w celu uzyskania dostępu do danych opartych na poświadczeniach. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj.
static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, do którego należy ten magazyn danych. |
datastore_name
Wymagane
|
Nazwa magazynu danych. |
filesystem
Wymagane
|
Nazwa systemu plików usługi Data Lake Gen2. |
account_name
Wymagane
|
Nazwa konta magazynu. |
tenant_id
|
str, <xref:optional>
Identyfikator katalogu/identyfikator dzierżawy jednostki usługi. Domyślna wartość: None
|
client_id
|
str, <xref:optional>
Identyfikator klienta/identyfikator aplikacji jednostki usługi. Domyślna wartość: None
|
client_secret
|
str, <xref:optional>
Wpis tajny jednostki usługi. Domyślna wartość: None
|
resource_url
|
str, <xref:optional>
Adres URL zasobu, który określa, jakie operacje będą wykonywane w usłudze Data Lake Store, domyślnie Domyślna wartość: None
|
authority_url
|
str, <xref:optional>
Adres URL urzędu używany do uwierzytelniania użytkownika domyślnie to Domyślna wartość: None
|
protocol
|
str, <xref:optional>
Protokół służący do nawiązywania połączenia z kontenerem obiektów blob. Jeśli brak, wartość domyślna to https. Domyślna wartość: None
|
endpoint
|
str, <xref:optional>
Punkt końcowy konta magazynu. Jeśli brak, wartość domyślna to core.windows.net. Domyślna wartość: None
|
overwrite
|
bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False. Domyślna wartość: False
|
subscription_id
|
str, <xref:optional>
Identyfikator subskrypcji, do której należy magazyn usługi ADLS. Domyślna wartość: None
|
resource_group
|
str, <xref:optional>
Grupa zasobów, do której należy magazyn usługi ADLS. Domyślna wartość: None
|
grant_workspace_access
|
bool, <xref:optional>
Wartość domyślna to False. Ustaw wartość True w celu uzyskania dostępu do danych za siecią wirtualną z usługi Machine Learning Studio. Dzięki temu dostęp do danych z usługi Machine Learning Studio używa tożsamości zarządzanej obszaru roboczego do uwierzytelniania i dodaje tożsamość zarządzaną obszaru roboczego jako Czytelnik magazynu. Aby wyrazić zgodę, musisz być właścicielem lub administratorem dostępu użytkowników magazynu. Poproś administratora o skonfigurowanie go, jeśli nie masz wymaganych uprawnień. Dowiedz się więcej "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network" Domyślna wartość: False
|
Zwraca
Typ | Opis |
---|---|
Zwraca magazyn danych usługi Azure Data Lake Gen2. |
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienie i dodatkowe koszty użycia sieci.
register_azure_file_share
Zarejestruj udział plików platformy Azure w magazynie danych.
Możesz użyć tokenu sygnatury dostępu współdzielonego lub klucza konta magazynu
static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, do którego należy ten magazyn danych. |
datastore_name
Wymagane
|
Nazwa magazynu danych bez uwzględniania wielkości liter może zawierać tylko znaki alfanumeryczne i _. |
file_share_name
Wymagane
|
Nazwa kontenera plików platformy Azure. |
account_name
Wymagane
|
Nazwa konta magazynu. |
sas_token
|
str, <xref:optional>
Token sygnatury dostępu współdzielonego konta domyślnie ma wartość Brak. W przypadku odczytu danych wymagane jest co najmniej uprawnienia Listy & odczytu dla kontenerów & Obiektów, a w przypadku zapisu danych wymagane są uprawnienia Do zapisu & Dodaj. Domyślna wartość: None
|
account_key
|
str, <xref:optional>
Klucze dostępu do konta magazynu są domyślnie ustawione na Wartość Brak. Domyślna wartość: None
|
protocol
|
str, <xref:optional>
Protokół używany do nawiązywania połączenia z udziałem plików. Jeśli brak, wartość domyślna to https. Domyślna wartość: None
|
endpoint
|
str, <xref:optional>
Punkt końcowy udziału plików. Jeśli brak, wartość domyślna to core.windows.net. Domyślna wartość: None
|
overwrite
|
bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False. Domyślna wartość: False
|
create_if_not_exists
|
bool, <xref:optional>
Czy utworzyć udział plików, jeśli nie istnieje. Wartość domyślna to False. Domyślna wartość: False
|
skip_validation
|
bool, <xref:optional>
Czy pominąć walidację kluczy magazynu. Wartość domyślna to False. Domyślna wartość: False
|
Zwraca
Typ | Opis |
---|---|
Magazyn danych plików. |
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienie i dodatkowe koszty użycia sieci.
register_azure_my_sql
Zainicjuj nowy magazyn danych usługi Azure MySQL.
Magazyn danych MySQL może służyć tylko do tworzenia danych DataReference jako danych wejściowych i wyjściowych do elementu DataTransferStep w potokach usługi Azure Machine Learning. Więcej szczegółów można znaleźć tutaj.
Zapoznaj się z poniższym przykładem rejestrowania bazy danych Azure MySQL jako magazynu danych.
static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, do którego należy ten magazyn danych. |
datastore_name
Wymagane
|
Nazwa magazynu danych. |
server_name
Wymagane
|
Nazwa serwera MySQL. |
database_name
Wymagane
|
Nazwa bazy danych MySQL. |
user_id
Wymagane
|
Identyfikator użytkownika serwera MySQL. |
user_password
Wymagane
|
Hasło użytkownika serwera MySQL. |
port_number
|
Numer portu serwera MySQL. Domyślna wartość: None
|
endpoint
|
str, <xref:optional>
Punkt końcowy serwera MySQL. Jeśli brak, wartość domyślna to mysql.database.azure.com. Domyślna wartość: None
|
overwrite
|
bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False. Domyślna wartość: False
|
Zwraca
Typ | Opis |
---|---|
Zwraca magazyn danych bazy danych MySQL. |
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienie i dodatkowe koszty użycia sieci.
mysql_datastore_name="mysqldatastore"
server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.
mysql_datastore = Datastore.register_azure_my_sql(
workspace=ws,
datastore_name=mysql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_postgre_sql
Zainicjuj nowy magazyn danych usługi Azure PostgreSQL.
Zapoznaj się z poniższym przykładem rejestrowania bazy danych Azure PostgreSQL jako magazynu danych.
static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, do którego należy ten magazyn danych. |
datastore_name
Wymagane
|
Nazwa magazynu danych. |
server_name
Wymagane
|
Nazwa serwera PostgreSQL. |
database_name
Wymagane
|
Nazwa bazy danych PostgreSQL. |
user_id
Wymagane
|
Identyfikator użytkownika serwera PostgreSQL. |
user_password
Wymagane
|
Hasło użytkownika serwera PostgreSQL. |
port_number
|
Numer portu serwera PostgreSQL Domyślna wartość: None
|
endpoint
|
str, <xref:optional>
Punkt końcowy serwera PostgreSQL. Jeśli brak, wartość domyślna to postgres.database.azure.com. Domyślna wartość: None
|
overwrite
|
bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False. Domyślna wartość: False
|
enforce_ssl
|
Wskazuje wymaganie protokołu SSL serwera PostgreSQL. Wartość domyślna to True. Domyślna wartość: True
|
Zwraca
Typ | Opis |
---|---|
Zwraca magazyn danych bazy danych PostgreSQL. |
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienie i dodatkowe koszty użycia sieci.
psql_datastore_name="postgresqldatastore"
server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password
psql_datastore = Datastore.register_azure_postgre_sql(
workspace=ws,
datastore_name=psql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_sql_database
Zainicjuj nowy magazyn danych Azure SQL.
Dostęp do danych opartych na poświadczeniach (GA) i oparty na tożsamościach (wersja zapoznawcza) jest obsługiwany. Możesz wybrać opcję użycia jednostki usługi lub nazwy użytkownika i hasła. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Narzędzie Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj.
Poniżej przedstawiono przykład rejestrowania bazy danych Azure SQL jako magazynu danych.
static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, do którego należy ten magazyn danych. |
datastore_name
Wymagane
|
Nazwa magazynu danych. |
server_name
Wymagane
|
Nazwa serwera SQL. W przypadku w pełni kwalifikowanej nazwy domeny, takiej jak "sample.database.windows.net", wartość server_name powinna mieć wartość "sample", a wartość punktu końcowego powinna mieć wartość "database.windows.net". |
database_name
Wymagane
|
Nazwa bazy danych SQL. |
tenant_id
|
Identyfikator katalogu/identyfikator dzierżawy jednostki usługi. Domyślna wartość: None
|
client_id
|
Identyfikator klienta/identyfikator aplikacji jednostki usługi. Domyślna wartość: None
|
client_secret
|
Wpis tajny jednostki usługi. Domyślna wartość: None
|
resource_url
|
str, <xref:optional>
Adres URL zasobu, który określa, jakie operacje będą wykonywane w magazynie bazy danych SQL, jeśli wartość domyślna https://database.windows.net/to None (Brak). Domyślna wartość: None
|
authority_url
|
str, <xref:optional>
Adres URL urzędu używany do uwierzytelniania użytkownika jest domyślnie ustawiona na https://login.microsoftonline.com. Domyślna wartość: None
|
endpoint
|
str, <xref:optional>
Punkt końcowy serwera SQL. Jeśli brak, wartość domyślna to database.windows.net. Domyślna wartość: None
|
overwrite
|
bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False. Domyślna wartość: False
|
username
|
Nazwa użytkownika bazy danych w celu uzyskania dostępu do bazy danych. Domyślna wartość: None
|
password
|
Hasło użytkownika bazy danych w celu uzyskania dostępu do bazy danych. Domyślna wartość: None
|
skip_validation
Wymagane
|
bool, <xref:optional>
Czy pominąć walidację nawiązywania połączenia z bazą danych SQL. Wartość domyślna to False. |
subscription_id
|
str, <xref:optional>
Identyfikator subskrypcji, do której należy magazyn usługi ADLS. Domyślna wartość: None
|
resource_group
|
str, <xref:optional>
Grupa zasobów, do której należy magazyn usługi ADLS. Domyślna wartość: None
|
grant_workspace_access
|
bool, <xref:optional>
Wartość domyślna to False. Ustaw wartość True, aby uzyskać dostęp do danych za siecią wirtualną z usługi Machine Learning Studio. Spowoduje to, że dostęp do danych z usługi Machine Learning Studio korzysta z tożsamości zarządzanej obszaru roboczego do uwierzytelniania, a następnie dodaje tożsamość zarządzaną obszaru roboczego jako Czytelnik magazynu. Aby wyrazić zgodę, musisz być właścicielem lub administratorem dostępu użytkowników magazynu. Poproś administratora o skonfigurowanie go, jeśli nie masz wymaganych uprawnień. Dowiedz się więcej "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network" Domyślna wartość: False
|
Zwraca
Typ | Opis |
---|---|
Zwraca magazyn danych bazy danych SQL. |
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienia i dodatkowe koszty użycia sieci.
sql_datastore_name="azuresqldatastore"
server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.
sql_datastore = Datastore.register_azure_sql_database(
workspace=ws,
datastore_name=sql_datastore_name,
server_name=server_name, # name should not contain fully qualified domain endpoint
database_name=database_name,
username=username,
password=password,
endpoint='database.windows.net')
register_dbfs
Zainicjuj nowy magazyn danych systemu plików usługi Databricks (DBFS).
Magazyn danych DBFS może służyć tylko do tworzenia elementu DataReference jako danych wejściowych i PipelineData jako danych wyjściowych do elementu DatabricksStep w potokach usługi Azure Machine Learning. Więcej szczegółów można znaleźć tutaj.
static register_dbfs(workspace, datastore_name)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, do którego należy ten magazyn danych. |
datastore_name
Wymagane
|
Nazwa magazynu danych. |
Zwraca
Typ | Opis |
---|---|
Zwraca magazyn danych DBFS. |
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienia i dodatkowe koszty użycia sieci.
register_hdfs
Uwaga
Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.
Zainicjuj nowy magazyn danych HDFS.
static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
obszar roboczy, do którego należy ten magazyn danych |
datastore_name
Wymagane
|
nazwa magazynu danych |
protocol
Wymagane
|
str lub
<xref:_restclient.models.enum>
Protokół używany podczas komunikowania się z klastrem HDFS. http lub https. Możliwe wartości to: "http", "https" |
namenode_address
Wymagane
|
Adres IP lub nazwa hosta DNS węzła nazw systemu plików HDFS. Opcjonalnie zawiera port. |
hdfs_server_certificate
Wymagane
|
str, <xref:optional>
Ścieżka do certyfikatu podpisywania TLS węzła namenode systemu plików HDFS, jeśli używasz protokołu TLS z certyfikatem z podpisem własnym. |
kerberos_realm
Wymagane
|
Obszar Protokołu Kerberos. |
kerberos_kdc_address
Wymagane
|
Adres IP lub nazwa hosta DNS centrum dystrybucji kluczy Protokołu Kerberos. |
kerberos_principal
Wymagane
|
Podmiot zabezpieczeń protokołu Kerberos do użycia na potrzeby uwierzytelniania i autoryzacji. |
kerberos_keytab
Wymagane
|
str, <xref:optional>
Ścieżka do pliku keytab zawierającego klucze odpowiadające podmiotowi zabezpieczeń protokołu Kerberos. Podaj to lub hasło. |
kerberos_password
Wymagane
|
str, <xref:optional>
Hasło odpowiadające podmiotowi zabezpieczeń protokołu Kerberos. Podaj tę wartość lub ścieżkę do pliku keytab. |
overwrite
Wymagane
|
bool, <xref:optional>
zastępuje istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False. |
set_as_default
Ustaw domyślny magazyn danych.
set_as_default()
Parametry
Nazwa | Opis |
---|---|
datastore_name
Wymagane
|
Nazwa magazynu danych. |
unregister
Wyrejestrowuje magazyn danych. podstawowa usługa magazynu nie zostanie usunięta.
unregister()