Importowanie z Azure Blob Storage
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
W tym temacie opisano sposób używania modułu Import danych w programie Machine Learning Studio (wersja klasyczna) do odczytywania danych z programu Azure Blob Storage, aby można było używać danych w eksperymencie uczenia maszynowego.
Uwaga
Dotyczy: tylko Machine Learning Studio (klasyczne)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Usługa Azure Blob Service jest do przechowywania dużych ilości danych, w tym danych binarnych. Dostęp do obiektów blob platformy Azure można uzyskać z dowolnego miejsca przy użyciu protokołu HTTP lub HTTPS. Uwierzytelnianie może być wymagane w zależności od typu magazynu obiektów blob.
- Dostęp do publicznych obiektów blob może uzyskać każdy lub użytkownicy, którzy mają adres URL sygnatury dostępu współdzielonego.
- Prywatne obiekty blob wymagają logowania i poświadczeń.
Importowanie z magazynu obiektów blob wymaga przechowywania danych w obiektach blob, które używają formatu blokowych obiektów blob . Pliki przechowywane w obiekcie blob muszą używać formatów rozdzielanych przecinkami (CSV) lub rozdzielanych tabulatorami (TSV). Podczas odczytywania pliku rekordy i wszelkie odpowiednie nagłówki atrybutów są ładowane jako wiersze do pamięci jako zestaw danych.
Uwaga
Moduł importu danych nie obsługuje nawiązywania połączenia z kontem Azure Blob Storage, jeśli opcja "Wymagany bezpieczny transfer" jest włączona.
Aby uzyskać inne ograniczenia dotyczące typów magazynu obiektów blob obsługiwanych przez program Machine Learning, zobacz sekcję Uwagi techniczne.
Porada
Musisz zaimportować dane w formacie, który nie jest obsługiwany? Możesz użyć języka Python lub R. Zobacz ten przykład w Azure AI Gallery: Ładowanie pliku nie tekstowego z Azure Blob Storage
Jak importować dane z obiektów blob platformy Azure
Zdecydowanie zalecamy profilowanie danych przed zaimportowaniem, aby upewnić się, że schemat jest zgodnie z oczekiwaniami. Proces importowania skanuje kilka wierszy głowy w celu określenia schematu, ale późniejsze wiersze mogą zawierać dodatkowe kolumny lub dane, które powodują błędy.
Korzystanie z Kreatora importu danych
Moduł zawiera nowy kreator, który pomaga wybrać opcję magazynu, wybrać jedną z istniejących subskrypcji i kont oraz szybko skonfigurować wszystkie opcje.
Dodaj moduł Import data (Importuj dane) do eksperymentu. Moduł można znaleźć w programie Studio (wersja klasyczna) w kategorii Dane wejściowe i Wyjściowe .
Kliknij pozycję Uruchom Kreatora importu danych i postępuj zgodnie z monitami.
Po zakończeniu konfiguracji, aby rzeczywiście skopiować dane do eksperymentu, kliknij prawym przyciskiem myszy moduł i wybierz pozycję Uruchom wybrane.
Jeśli musisz edytować istniejące połączenie danych, kreator ładuje wszystkie poprzednie szczegóły konfiguracji, aby nie trzeba było uruchamiać ponownie od podstaw.
Ręczne ustawianie właściwości w module Importowanie danych
W poniższych krokach opisano sposób ręcznego konfigurowania źródła importu.
Dodaj moduł Import data (Importuj dane) do eksperymentu. Ten moduł można znaleźć w programie Studio (wersja klasyczna) w kategorii Dane wejściowe i Wyjściowe .
W przypadku źródła danych wybierz pozycję Azure Blob Storage.
W polu Typ uwierzytelniania wybierz opcję Publiczny (adres URL sygnatury dostępu współdzielonego), jeśli wiesz, że informacje zostały podane jako publiczne źródło danych. Adres URL sygnatury dostępu współdzielonego to ograniczony w czasie adres URL dostępu publicznego, który można wygenerować za pomocą narzędzia magazynu platformy Azure.
W przeciwnym razie wybierz pozycję Konto.
Jeśli dane znajdują się w publicznym obiekcie blob, do którego można uzyskać dostęp przy użyciu adresu URL sygnatury dostępu współdzielonego, nie potrzebujesz dodatkowych poświadczeń, ponieważ ciąg adresu URL zawiera wszystkie informacje potrzebne do pobrania i uwierzytelnienia.
W polu URI wpisz lub wklej pełny adres URI, który definiuje konto i publiczny obiekt blob.
Uwaga
Na stronie dostępnej za pośrednictwem adresu URL sygnatury dostępu współdzielonego dane mogą być przechowywane tylko w tych formatach: CSV, TSV i ARFF.
Jeśli twoje dane są na koncie prywatnym , musisz podać poświadczenia, w tym nazwę konta i klucz.
W obszarze Nazwa konta wpisz lub wklej nazwę konta zawierającego obiekt blob, do którego chcesz uzyskać dostęp.
Jeśli na przykład pełny adres URL konta magazynu to
https://myshared.blob.core.windows.net
, należy wpisać .myshared
W obszarze Klucz konta wklej klucz dostępu do magazynu skojarzony z kontem.
Jeśli nie znasz klucza dostępu, zobacz sekcję "Zarządzanie kontami usługi Azure Storage" w tym artykule: About Azure Storage Accounts (Informacje o kontach usługi Azure Storage Storage).
W polach Ścieżka do kontenera, katalogu lub obiektu blob wpisz nazwę konkretnego obiektu blob, który chcesz pobrać.
Jeśli na przykład plik o nazwie data01.csv został przekazany do danych trainingdata kontenera na koncie o nazwie mymldata, pełny adres URL pliku będzie miał imieniu:
https://mymldata.blob.core.windows.net/trainingdata/data01.txt
.W związku z tym w polu Ścieżka do kontenera, katalogu lub obiektu blob należy wpisać:
trainingdata/data01.csv
Aby zaimportować wiele plików, można użyć symboli wieloznacznych
*
(gwiazdka) lub?
(znak zapytania).Na przykład przy założeniu,
trainingdata
że kontener zawiera wiele plików w zgodnym formacie, można użyć następującej specyfikacji,data
aby odczytać wszystkie pliki rozpoczynające się od , a następnie do dodawania ich do jednego zestawu danych:trainingdata/data*.csv
W nazwach kontenerów nie można używać symboli wieloznacznych. Jeśli chcesz zaimportować pliki z wielu kontenerów, użyj oddzielnego wystąpienia modułu Import danych dla każdego kontenera, a następnie scal zestawy danych przy użyciu modułu Dodaj wiersze .
Uwaga
Jeśli wybrano opcję Użyj buforowanych wyników, wszelkie zmiany wprowadzone w plikach w kontenerze nie wyzwalają odświeżania danych w eksperymencie.
W przypadku formatu pliku obiektu blob wybierz opcję, która wskazuje format danych przechowywanych w obiekcie blob, aby Machine Learning odpowiednio przetworzyć dane. Obsługiwane są następujące formaty:
CSV: Wartości rozdzielane przecinkami (CSV) to domyślny format magazynu do eksportowania i importowania plików w Machine Learning. Jeśli dane zawierają już wiersz nagłówka, pamiętaj, aby wybrać opcję Plik ma wiersz nagłówka lub nagłówek będzie traktowany jako wiersz danych.
Aby uzyskać więcej informacji na temat formatu CSV używanego w programie Machine Learning, zobacz [Convert to CSV](convert-to-csv.md
TSV: wartości rozdzielane tabulatorami (TSV) to format używany przez wiele narzędzi uczenia maszynowego. Jeśli dane zawierają już wiersz nagłówka, pamiętaj, aby wybrać opcję Plik ma wiersz nagłówka lub nagłówek będzie traktowany jako wiersz danych.
Aby uzyskać więcej informacji na temat formatu TSV używanego w programie Machine Learning, zobacz Konwertowanie na TSV.
ARFF: ten format obsługuje importowanie plików w formacie używanym przez zestaw narzędzi weka. Aby uzyskać więcej informacji, zobacz Convert to ARFF (Konwertowanie na ARFF).
CSV z określonym kodowaniem: użyj tej opcji dla plików CSV, które mogły zostać przygotowane przy użyciu innego separatora pola lub jeśli źródło mogło użyć innego kodowania znaków niż UTF-8. Ten format nie jest obsługiwany w przypadku plików przechowywanych w adresie URL sygnatury dostępu współdzielonego.
Excel: użyj tej opcji, aby odczytywać dane Excel skoroszytów przechowywanych w Azure Blob Storage. Format Excel nie jest obsługiwany w przypadku plików przechowywanych w adresie URL sygnatury dostępu współdzielonego.
W przypadku plików CSV ze specjalnymi kodowaniem ustaw następujące dodatkowe opcje, aby kontrolować prawidłowy import znaków:
Format ogranicznika przecinków: wybierz z listy wspólnych znaków używanych jako separatory pól,
,
w tym znak tabuły przecinka i średnik;
.Format kodowania: wybierz kodowanie znaków używane przez plik, który chcesz odczytać. Listę obsługiwanych kodowań można znaleźć w sekcji Uwagi techniczne.
Plik ma wiersz nagłówka: wybierz tę opcję, jeśli dane zawierają już wiersz nagłówka. W przeciwnym razie nagłówek zostanie zaimportowany jako wiersz danych.
W Excel plików po określeniu konta i kontenera, w którym jest przechowywany plik Excel, należy wskazać format Excel zakres lub nazwę tabeli przy użyciu tych opcji:
Excel format danych: wskazuje, czy dane Excel w zakresie arkusza, czy w Excel tabeli.
Excel arkusza lub osadzonej tabeli: jeśli wybierzesz opcję Excel arkusza, określ nazwę arkusza (nazwę karty) lub tabelę osadzoną w skoroszycie. Wszystkie dane z arkusza są odczytywane; Nie można określić zakresu komórek. Jeśli wybierzesz Excel tabeli, musisz uzyskać nazwę tabeli, a nie nazwę arkusza, nawet jeśli w arkuszu znajduje się tylko jedna tabela. Aby wyświetlić nazwę tabeli, kliknij wewnątrz tabeli, a następnie wyświetl właściwość Nazwa tabeli na karcie Narzędzia tabel.
Uruchom eksperyment.
Przykłady
Aby dowiedzieć się, jak używać danych z Azure Blob Storage w eksperymentach uczenia maszynowego, zobacz Galerię platformy Azure:
Przykład kategoryzacji wiadomości: ładuje, a następnie łączy wiele zestawów danych z Azure Blob Storage.
Przykład Student Performance: odczytuje dane przechowywane w formacie TSV z Azure Blob Storage.
Uwagi techniczne
Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.
Często zadawane pytania
Czy istnieje sposób automatyzacji importowania danych?
Istnieją różne sposoby na uzyskiwanie nowych danych i używanie ich do regularnego aktualizowania eksperymentu. Wiele zależy od tego, skąd pochodzą dane źródłowe, i od narzędzi, które preferujesz do przemieszczenia danych. Zapoznaj się z tymi artykułami, aby uzyskać kilka pomysłów.
Ściągawka: zautomatyzowany potok danych dla Machine Learning
Przenoszenie danych do usługi Blob Storage przy użyciu usługi SSIS
Automatyzacja wykonywania eksperymentu zwykle wymaga utworzenia usługi internetowej, która może zostać wyzwolona przez harmonogram zadań, program PowerShell lub inny kod niestandardowy.
Dlaczego otrzymuję błąd podczas próby odczytu danych wejściowych z istniejącego obiektu blob?
Istnieje kilka możliwych problemów:
- Obiekt blob używa nieobsługiwanego formatu
- Samo konto zostało utworzone przy użyciu opcji, która nie jest jeszcze obsługiwana przez Machine Learning.
Nieobsługiwany format: podczas odczytywania z Azure Blob Storage usługa Machine Learning wymaga, aby obiekt blob był w formacie blokowych obiektów blob, co umożliwia wydajne przekazywanie dużych obiektów blob. Jeśli na przykład przekażemy plik CSV do magazynu obiektów blob, plik będzie przechowywany jako blokowy obiekt blob. Jednak podczas programowego tworzenia pliku obiektu blob może zostać wygenerowany inny typ obiektu blob, taki jak AppendBlob, który nie jest obsługiwany.
Aby obejść ten problem, zalecamy użycie typu blokowego obiektu blob .
Ważne
Po utworzeniu obiektu blob nie można zmienić typu.
Aby uzyskać więcej informacji, zobacz Understanding Block Blobs, Append Blobs, and Page Blobs (Opis blokowych obiektów blob, uzupełnianych obiektów blob i stronicowych obiektów blob).
Nieobsługiwany typ konta: moduły importu i eksportu mogą odczytywać i zapisywać dane tylko z kont usługi Azure Storage, które zostały utworzone przy użyciu klasycznego modelu wdrażania. Innymi słowy, nowy typ Azure Blob Storage, który oferuje warstwy dostępu do magazynu gorącego i chłodnego, nie jest jeszcze obsługiwany. Ogólnie rzecz biorąc, nie powinno to mieć wpływu na wszystkie konta usługi Azure Storage, które mogły zostać utworzone przed rozpoczęciem pracy z tą opcją usługi.
Jeśli musisz utworzyć nowe konto do użycia z usługą Machine Learning, wybierz opcję Klasyczny dla modelu wdrażania lub użyj usługi Resource Manager, a w przypadku opcji Rodzaj konta wybierz opcję Ogólnego przeznaczenia, a nie Blob Storage.
Jak uniknąć niepotrzebnie ponownego ładowania tych samych danych?
Jeśli źródło danych zmieni się, możesz odświeżyć zestaw danych i dodać nowe dane, uruchamiając ponownie pozycję Importuj dane. Jeśli jednak nie chcesz ponownie odczytywać ze źródła przy każdym uruchomieniu eksperymentu, wybierz opcję Użyj buforowanych wyników na wartość TRUE. Gdy ta opcja jest ustawiona na wartość TRUE, moduł sprawdzi, czy eksperyment został wcześniej uruchomiony przy użyciu tego samego źródła i tych samych opcji danych wejściowych. Jeśli zostanie znaleziony poprzedni przebieg, dane w pamięci podręcznej są używane zamiast ponownego ładowania danych ze źródła.
Czy mogę filtrować dane, gdy są odczytywane ze źródła?
Moduł Import danych nie obsługuje filtrowania w przypadku odczytywania danych.
Po załadowaniu danych do programu Machine Learning Studio (wersja klasyczna) można je modyfikować za pomocą tych narzędzi:
Użyj niestandardowego skryptu R do filtrowania lub przekształcania danych.
Użyj modułu Split Data (Podział danych) z wyrażeniem względnym lub wyrażeniem regularnym, aby odizolować dane, a następnie zapisz je jako zestaw danych.
Jeśli okazuje się, że załadowano więcej danych, niż potrzebujesz, możesz zastąpić zestaw danych, odczytując nowy zestaw danych i określając, że ma on być zapisany z taką samą nazwą jak starsze, większe dane.
Dlaczego proces importowania dodaje dodatkowy wiersz na końcu mojego zestawu danych, gdy znajdzie nowy wiersz na końcu?
Jeśli moduł Import danych napotka wiersz danych, po którym następuje pusty wiersz lub końcowy znak nowego wiersza, na końcu tabeli zostanie dodany dodatkowy wiersz zawierający brakujące wartości.
Przyczyną interpretowania nowego wiersza na końcu jako nowego wiersza jest to, że import danych nie może określić różnicy między rzeczywistym pustym wierszem a pustym wierszem utworzonym przez użytkownika naciskającego klawisz ENTER na końcu pliku.
Ponieważ niektóre algorytmy uczenia maszynowego obsługują brakujące dane i w związku z tym traktują ten wiersz jako przypadek (co z kolei może mieć wpływ na wyniki), należy użyć polecenia Clean Missing Data (Czyszczenie brakujących danych) w celu sprawdzenia brakujących wartości i usunięcia ich w razie potrzeby.
Przed sprawdzeniem pustych wierszy warto również oddzielić ostatni pusty wiersz od innych wierszy z częściowymi brakującymi wartościami, które mogą reprezentować rzeczywiste brakujące wartości w danych źródłowych. W tym celu możesz podzielić zestaw danych przy użyciu funkcji Split Data (Podział danych). Wybierz opcję Wybierz N wierszy nagłówka , aby odczytać wszystkie wiersze, ale ostatni wiersz.
Co się stanie w przypadku importowania danych załadowanych z różnych regionów geograficznych?
Jeśli konto magazynu obiektów blob lub tabel znajduje się w innym regionie niż węzeł obliczeniowy używany do eksperymentu uczenia maszynowego, dostęp do danych może być wolniejszy. Ponadto są naliczane opłaty za ruch przychodzący i wychodzący danych w subskrypcji.
Dlaczego niektóre znaki w moim pliku źródłowym nie są prawidłowo wyświetlane w nagłówku?
Machine Learning zwykle obsługuje kodowanie UTF-8. Jeśli plik źródłowy używa innego typu kodowania, znaki mogą nie zostać zaimportowane poprawnie.
Jeśli masz problemy z prawidłowym ładowaniem danych, spróbuj użyć opcji CSV z kodowaniem i określ parametry ograniczników niestandardowych, strony kodowej itd.
Czy istnieją zabronione znaki lub znaki, które są zmieniane podczas importowania?
Jeśli dane atrybutów zawierają znaki cudzysłowu lub sekwencje znaków ucieczki, są obsługiwane przy użyciu reguł dla takich znaków w Microsoft Excel. Wszystkie inne znaki są obsługiwane przy użyciu następujących specyfikacji jako wytycznych: RFC 4180.
Chcę zaimportować bardzo duży plik. Jaka jest zalecana metoda?
Limit rozmiaru przekazywania lokalnych zestawów danych bezpośrednio do Machine Learning wynosi 1,98 GB. W przypadku bardzo dużych plików dodanie zestawu danych do konta eksperymentu może zająć dużo czasu.
- Szacowanie 10 minut lub więcej na GB danych.
- Aby zoptymalizować wydajność, użyj konta magazynu w tym samym regionie, z ML Azure.
Istnieje kilka metod przekazywania większych plików (do 10 GB):
Użyj pliku zip. Zestawy danych można przekazać do programu Azure ML Studio (wersja klasyczna) w formacie mapowanych, a następnie użyć modułu Rozpakowywanie zmapowanych zestawów danych, aby rozpakować i zapisać zestaw danych. Zmapowane zestawy danych można również rozpakować przy użyciu modułu Execute R Script (Wykonywanie skryptu R), ale wydajność może być ograniczona.
Użyj szybkiego narzędzia platformy Azure, takiego jak AzCopy. Przekłoń dane do Microsoft Azure blob Storage za pomocą narzędzia takiego jak AzCopy. Następnie za pomocą modułu Import danych zaimportuj dane z magazynu obiektów blob do programu Studio (wersja klasyczna).
Na przykład poniższy kod przedstawia składnię programu AzCopy do zapisywania w magazynie obiektów blob.
cd "C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy" .\AzCopy.exe /Source:C:\LocalFolder /Dest:https://mystorage.blob.core.windows.net/mycontainer /DestKey:MyStorageAccountKey /Pattern:myfile.csv
Zaimportowano plik CSV przy użyciu określonego kodowania, ale tekst nie jest wyświetlany poprawnie, gdy używam opcji do wizualizacji. Dlaczego?
W przypadku przekazanych zestawów danych Machine Learning obsługuje tylko format UTF-8. Jednak moduł Import danych obsługuje dodatkowe formaty kodowania. W związku z tym po zaimportowaniu pliku przy użyciu jednego z tych formatów może się okazać, że znaki nie są wyświetlane poprawnie. Rozwiązaniem jest przekonwertowanie kodowania na UTF-8 przy użyciu jednej z tych metod:
Zapisz zaimportowane dane jako zestaw danych. (Użycie zapisanego zestawu danych zamiast danych CSV może również zwiększyć wydajność).
Jeśli używasz zestawu danych w module Execute R Script (Wykonywanie skryptu R ), możesz wymusić poprawne kodowanie za pomocą skryptu takiego jak ten:
dataset <- maml.mapInputPort(1) Encoding(dataset$city) <- "UTF-8" maml.mapOutputPort("dataset")
Następnie możesz użyć polecenia Visualize w danych wyjściowych modułu Execute R Script (Wykonanie skryptu R) i sprawdzić, czy znaki są wyświetlane poprawnie.
Jakie mam opcje importowania plików tekstowych? Plik CSV nie jest odpowiedni dla moich danych.
Przetwarzanie i czyszczenie tekstu bez struktury, aby dobrze dopasować go do kolumn, zawsze jest wyzwaniem. Jeśli jednak musisz zaimportować kolumny danych tekstowych, format TSV często stanowi mniejszą liczbę trudności, chociaż nadal musisz wcześniej sprawdzić, czy nie ma nadmiarowych znaków tabuł.
Zalecamy zapoznanie się z szablonem Klasyfikacja tekstu w Azure AI Gallery, aby zobaczyć przykład pozyskiwania i przetwarzania tekstu w programie Machine Learning Studio (wersja klasyczna).
Kodowanie niestandardowe dla plików CSV
Wczesne wersje modułu Import danych nie obsługiły niektórych rodzajów prawidłowych plików CSV. Na przykład dane wyeksportowane z Excel czasami zawierały znaki, które uniemożliwiały poprawne analizowanie pliku.
Aby obsługiwać szerszy zakres ograniczników i formatów znaków, importowanie danych obsługuje teraz wybieranie ogranicznika i formatu kodowania. Jeśli używasz pliku CSV z opcją kodowania , wynikiem jest bardziej niezawodna i wydajna analizowanie pliku CSV.
Można użyć następujących kodowań znaków:
Typ | Encoding |
---|---|
Unicode | Unicode (UTF-8) Unicode Unicode (UTF-32) Unicode (UTF-7) |
CJYK | Chiński tradycyjny (Big5) Chiński uproszczony (GB2312) Chiński uproszczony (Mac) Chiński uproszczony (GB2312-80) Chiński uproszczony (ISO-2022) Chiński uproszczony (GB18030) Japoński (JIS) Koreański (ISO) Koreański (Mac) |
Inne | Zachodnioeuropejski (Windows) Zachodnio-europejskiego (ISO) hebrajski (ISO-Visual) US ASCII |
Porada
Po zakończeniu importowania woluminów CSV zalecamy zapisanie zaimportowanych plików jako zestawu danych, aby upewnić się, że zaimportowane dane będą w eksperymencie używane z kodowaniem UTF-8.
Wnioskowanie typu danych w formatach CSV i TSV
Gdy moduł Import danych ładuje dane z pliku CSV lub TSV w programie Azure Blob Storage, zgadywacz typu szuka danych kategorii lub liczbowych w pliku źródłowym i reprezentuje odnaleziony typ metadanych dla nowego zestawu danych.
Można jednak przesłonić wyniki zgadywacza typu, edytując atrybuty kolumn w module Edytowanie metadanych po załadowaniu danych.
Parametry modułu
Opcje ogólne
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
Źródło danych | Lista | Źródło danych lub ujścia | Azure Blob Storage | Źródłem danych może być protokół HTTP, FTP, anonimowy protokół HTTPS lub FTPS, plik w usłudze Azure BLOB Storage, tabela platformy Azure, Azure SQL Database, lokalna baza danych SQL Server, tabela Programu Hive lub punkt końcowy OData. |
Typ uwierzytelniania | PublicOrSas/Account | Ciąg | Konto | Określ, czy dane są w publicznym kontenerze dostępnym za pośrednictwem adresu URL sygnatury dostępu współdzielonego, czy też na prywatnym koncie magazynu, które wymaga uwierzytelnienia w celu uzyskania dostępu. |
Używanie buforowanych wyników | PRAWDA/FAŁSZ | Wartość logiczna | FALSE | Wybierz tę opcję, aby uniknąć ładowania danych między przebiegami |
Publiczna lub SAS — opcje magazynu publicznego
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
URI | dowolny | Ciąg | brak | Punkt końcowy rest systemu plików HDFS |
Format pliku | ARFF, CSV lub TSV | Ciąg | CSV | Wybierz jeden z obsługiwanych formatów |
URI ma wiersz nagłówka | Wartość logiczna | PRAWDA/FAŁSZ | TRUE | Wartość true, jeśli plik zawiera wiersz nagłówka; w przypadku wartości False pierwszy wiersz danych jest używany jako nagłówki kolumn |
Konto — opcje magazynu prywatnego
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
Nazwa konta | dowolny | Ciąg | brak | Wpisz nazwę konta magazynu |
Klucz konta | dowolny | Securestring | brak | Wklej klucz konta |
Ścieżka do kontenera, katalogu lub obiektu blob | dowolny | Ciąg | Nie dotyczy | Wpisz nazwę kontenera lub katalogu |
Format pliku obiektu blob | ARFF, CSV lub TSV | Ciąg | CSV | Wybierz jeden z obsługiwanych formatów |
Plik ma wiersz nagłówka | dowolny | String | Prawda | Nazwa konta usługi Azure Storage |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych wyników | Tabela danych | Zestaw danych z zaimportowanych danych |
Wyjątki
Wyjątek | Opis |
---|---|
Błąd 0027 | Wyjątek występuje, gdy dwa obiekty muszą mieć ten sam rozmiar, ale nie. |
Błąd 0003 | Wyjątek występuje, jeśli co najmniej jeden element wejściowy ma wartość null lub jest pusty. |
Błąd 0029 | Wyjątek występuje, gdy zostanie przekazany nieprawidłowy identyfikator URI. |
Błąd 0030 | występuje wyjątek w programie , gdy nie jest możliwe pobranie pliku. |
Błąd 0002 | Wyjątek występuje, jeśli co najmniej jeden parametr nie może zostać analizowany lub przekonwertowany z określonego typu na typ wymagany przez metodę docelową. |
Błąd 0009 | Wyjątek występuje, jeśli nazwa konta usługi Azure Storage lub nazwa kontenera jest niepoprawnie określona. |
Błąd 0048 | Wyjątek występuje, gdy nie jest możliwe otwarcie pliku. |
Błąd 0046 | Wyjątek występuje, gdy nie jest możliwe utworzenie katalogu w określonej ścieżce. |
Błąd 0049 | Wyjątek występuje, gdy nie jest możliwe analizowanie pliku. |
Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.
Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).
Zobacz też
Importowanie danych
Eksportowanie danych
Importowanie z internetowego adresu URL za pośrednictwem protokołu HTTP
Importowanie z zapytania Hive
Importowanie z usługi Azure SQL Database
Importowanie z tabeli platformy Azure
Importowanie od dostawców źródła danych
Importowanie z lokalnej bazy SQL Server Database