Importowanie od dostawców źródła danych

Artykuł
05/06/2019

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
Dowiedz się więcej o Azure Machine Learning.

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

W tym artykule opisano sposób używania modułu Import danych w programie Machine Learning Studio (wersja klasyczna) do importowania danych dostarczanych w formacie OData do eksperymentu uczenia maszynowego.

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Tworzenie punktu końcowego OData dla zestawu danych jest jednym ze sposobów na udostępnić model danych do użycia za pośrednictwem adresu URL. Możesz również określić operacje OData, które będą obsługiwać punkt końcowy. Aby uzyskać więcej informacji na temat tworzenia Odata punktów końcowych, zobacz OData v4 (ASP.NET).

Jak zaimportować dane ze źródła danych

Zdecydowanie zalecamy profilowanie danych przed zaimportowaniem, aby upewnić się, że schemat jest zgodnie z oczekiwaniami. Proces importowania skanuje kilka wierszy głowy w celu określenia schematu, ale późniejsze wiersze mogą zawierać dodatkowe kolumny lub dane, które powodują błędy.

Korzystanie z Kreatora importu danych

Moduł zawiera nowy kreator ułatwiający wybranie opcji magazynu. Kreator umożliwia wybranie spośród istniejących subskrypcji i kont oraz szybkie skonfigurowanie wszystkich opcji.

Dodaj moduł Import data (Importuj dane) do eksperymentu. Moduł można znaleźć w programie Studio (wersja klasyczna) w kategorii Dane wejściowe i Wyjściowe .
Kliknij pozycję Uruchom Kreatora importu danych i postępuj zgodnie z monitami.
Po zakończeniu konfiguracji, aby rzeczywiście skopiować dane do eksperymentu, kliknij prawym przyciskiem myszy moduł i wybierz pozycję Uruchom wybrane.

Jeśli musisz edytować istniejące połączenie danych, kreator ładuje wszystkie poprzednie szczegóły konfiguracji, aby nie trzeba było uruchamiać ponownie od podstaw.

Ręczne ustawianie właściwości w module Importowanie danych

Można również ręcznie skonfigurować źródło importu.

Dodaj moduł Import data (Importuj dane) do eksperymentu. Ten moduł można znaleźć w programie Studio (wersja klasyczna) w kategorii Dane wejściowe i Wyjściowe .
W przypadku źródła danych wybierz pozycję Dostawca źródła danych.
W przypadku opcji Typ zawartości danych wybierz typ kanału informacyjnego. Obecnie obsługiwane są tylko punkty końcowe OData.
W polu Źródłowy adres URL wklej adres URL witryny, która dostarcza dane w wymaganym formacie.

Na przykład następująca instrukcja pobiera listę produktów z przykładowej bazy danych Northwind:

https://services.odata.org/northwind/northwind.svc/Products

Aby uzyskać więcej informacji, zobacz OData syntax (Składnia OData).
Wybierz opcję Użyj buforowanych wyników , jeśli nie musisz ponownie ładować danych po raz pierwszy. Jest to dobra opcja, jeśli dane nie powinny się zmieniać między przebiegami eksperymentu.

Jeśli nie ma żadnych innych zmian parametrów modułu, eksperyment ładuje dane przy pierwszym uruchomieniu modułu, a następnie używa buforowanej wersji zestawu danych.

Jeśli musisz regularnie odświeżać dane, usuń zaznaczenie tej opcji.
Uruchom eksperyment.

Wyniki

Po zakończeniu kliknij wyjściowy zestaw danych i wybierz pozycję Visualize (Wizualizacja ), aby sprawdzić, czy dane zostały zaimportowane pomyślnie.

Gdy importowane dane są ładowane do programu Studio (wersja klasyczna), typ danych każdej kolumny jest wywłaszczany na podstawie wartości liczbowych lub kategorii.

Jeśli nagłówek jest obecny, nagłówek jest używany do nazywania kolumn wyjściowego zestawu danych.
Jeśli w danych nie ma żadnych nagłówków kolumn, nowe nazwy kolumn są generowane przy użyciu formatu col1, col2,… ,coln.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Składnia OData

Zapytanie musi zwrócić płaską tabelę. Spłaszczanie zagnieżdżonych rekordów OData nie jest obsługiwane.

Niektóre kolumny zawarte w źródłach danych OData mogą mieć typy danych, które nie są obsługiwane w programie Studio (wersja klasyczna), takie jak liczby dziesiętne. Dane można pozysować jako ciągi i konwertować je później przy użyciu modułów Execute R Script lub Metadata Editor .

Aby uzyskać więcej informacji na temat składni i adresów URL OData, zobacz Odata.org — konwencje URI

Często zadawane pytania

Czy mogę filtrować dane, gdy są odczytywane ze źródła?

Moduł Import danych zazwyczaj nie obsługuje filtrowania w przypadku odczytywania danych. Można jednak określić warunek filtru jako część adresu URL zasobu kanału informacyjnego.

Aby filtrować dane ze źródła danych, użyj instrukcji obsługiwanych przez protokół OData. Na przykład ten adres URL używa wyrażenia $filter , aby uzyskać tylko zamówienia powiązane z pracownikiem o identyfikatorze równym 1.

https://services.odata.org/Northwind/Northwind.svc/Orders?$filter=Employee/EmployeeID eq 1

Aby uzyskać więcej przykładów składni filtru, zobacz Using Filter Expressions in OData URIs (Używanie wyrażeń filtru w interfejsach URIS OData).

Możesz też pobrać wszystkie dane i przefiltrować je po załadowaniu ich do programu Machine Learning Studio (wersja klasyczna):

Użyj niestandardowego skryptu R, aby uzyskać tylko te dane, których potrzebujesz.
Użyj modułu Split Data (Podział danych) z wyrażeniem względnym lub wyrażeniem regularnym, aby odizolować dane, a następnie zapisz je jako zestaw danych.

Uwaga

Jeśli okazuje się, że załadowano więcej danych, niż potrzebujesz, możesz zastąpić buforowany zestaw danych, odczytując nowy zestaw danych i zapisując go o takiej samej nazwie jak starsze, większe dane.

Otrzymuję błąd. Poświadczenia są wymagane do nawiązania połączenia ze źródłem OData. Odśwież i podaj poświadczenia, aby kontynuować. Jak mogę podać poświadczenia?**

Moduł Import danych obsługuje tylko punkty końcowe OData z dostępem anonimowym. Jeśli usługa OData wymaga poświadczeń, nie można pobrać danych za pomocą opcji OData.

Jeśli jednak usługa znajduje się w tej samej domenie, uwierzytelnianie może być czasami odbywać się automatycznie bez żadnych danych wejściowych użytkownika.

Aby obejść ten problem, możesz użyć zapytania PowerQuery lub PowerPivot, aby odczytać dane kanału informacyjnego, a następnie pobrać dane z Excel.

Jak uniknąć ponownego ładowania tych samych danych niepotrzebnie?

Jeśli źródło danych zmieni się, możesz odświeżyć zestaw danych i dodać nowe dane, uruchamiając ponownie pozycję Importuj dane. Jeśli jednak nie chcesz ponownie odczytywać ze źródła przy każdym uruchomieniu eksperymentu, wybierz opcję Użyj buforowanych wyników na wartość TRUE. Gdy ta opcja jest ustawiona na wartość TRUE, moduł sprawdzi, czy eksperyment został wcześniej uruchomiony przy użyciu tego samego źródła i tych samych opcji danych wejściowych. Jeśli zostanie znaleziony poprzedni przebieg, dane w pamięci podręcznej będą używane zamiast ponownego ładowania danych ze źródła.

Dlaczego otrzymuję komunikat o błędzie "Typ dziesiętny nie jest obsługiwany"?

Typ decimal danych nie jest obsługiwany w Machine Learning. Przyczyną jest to, że importowane dane nie mogą automatycznie wykonywać żadnych konwersji, które spowodowałyby utratę dokładności.

Aby uzyskać więcej informacji na temat obsługiwanych typów danych, zobacz Module Data Types (Typy danych modułów).

Aby obejść ten problem, można odczytać dane jako typ danych w postaci ciągu, a następnie użyć funkcji Edytuj metadane, aby przekonwertować liczby dziesiętne na obsługiwane dane przed ich odczytaniem.

Dlaczego niektóre znaki w kanale informacyjnym nie są wyświetlane poprawnie?

Machine Learning obsługuje kodowanie UTF-8. Jeśli źródło używa innego typu kodowania, znaki mogą nie zostać zaimportowane poprawnie.

Aby obejść ten problem, możesz zapisać dane w pliku CSV w usłudze Azure Table Storage lub Azure Blob Storage. Następnie użyj opcji CSV z kodowaniem , aby określić parametry ograniczników niestandardowych, strony kodowej itd.

Parametry modułu

Nazwa	Zakres	Typ	Domyślny	Opis
Źródło danych	Lista	Źródło danych lub ujścia	Azure Blob Storage	Źródłem danych może być protokół HTTP, FTP, anonimowy protokół HTTPS lub FTPS, plik w usłudze Azure BLOB Storage, tabela platformy Azure, Azure SQL Database, lokalna baza danych SQL Server, tabela Programu Hive lub punkt końcowy OData.
Typ zawartości danych	Lista (podzbiór)	Zawartość adresu URL	OData	Typ formatu danych
Źródłowy adres URL	dowolny	Ciąg		Adres URL Power Query źródła danych
Używanie buforowanych wyników	PRAWDA/FAŁSZ	Wartość logiczna	FALSE	description (opis)

Dane wyjściowe

Nazwa	Typ	Opis
Zestaw danych wyników	Tabela danych	Zestaw danych z pobranymi danymi

Wyjątki

Wyjątek	Opis
Błąd 0003	Wyjątek występuje, jeśli co najmniej jeden element wejściowy ma wartość null lub jest pusty.
Błąd 0029	Wyjątek występuje, gdy zostanie przekazany nieprawidłowy identyfikator URI.
Błąd 0030	występuje wyjątek w programie , gdy nie jest możliwe pobranie pliku.
Błąd 0002	Wyjątek występuje, jeśli co najmniej jeden parametr nie może być analizowany lub konwertowany z określonego typu na typ wymagany przez metodę docelową.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Importowanie danych
Eksportowanie danych
Importowanie z internetowego adresu URL za pośrednictwem protokołu HTTP
Importowanie z zapytania Hive
Importowanie z usługi Azure SQL Database
Importowanie z usługi Azure Table
Importowanie z Azure Blob Storage
Importowanie z lokalnej bazy SQL Server Database

Udostępnij za pośrednictwem