Współdziałanie i użyteczność usługi Data Lakehouse
W tym artykule opisano zasady architektoniczne filaru dotyczącego interoperacyjności i użyteczności, odnoszące się do interakcji lakehouse z użytkownikami i innymi systemami. Jedną z podstawowych koncepcji lakehouse jest zapewnienie doskonałego środowiska użytkownika dla wszystkich osób, które z nią współpracują, i możliwość interakcji z szerokim ekosystemem systemów zewnętrznych.
- Interoperacyjność to zdolność systemu do współpracy i integracji z innymi systemami. Oznacza to interakcję między różnymi składnikami i produktami, prawdopodobnie od wielu dostawców, między wcześniejszymi i przyszłymi wersjami tego samego produktu.
- użyteczność to miara tego, jak dobrze system umożliwia użytkownikom bezpieczne, efektywne i wydajne wykonywanie zadań.
Przestrzeganie zasad tego filaru pomaga:
- Osiągnij spójne i wspólne środowisko użytkownika.
- Wykorzystanie synergii w chmurach.
- Uproszczenie integracji z i do jeziora.
- Zmniejsz koszty trenowania i włączania.
Ostatecznie prowadzą do skrócenia czasu potrzebnego na uzyskanie wartości.
Zasady współdziałania i użyteczności
Definiowanie standardów integracji
Integracja ma różne aspekty i można to zrobić na wiele różnych sposobów. Aby uniknąć proliferacji narzędzi i podejść, należy zdefiniować najlepsze rozwiązania i udostępnić listę dobrze obsługiwanych i preferowanych narzędzi i łączników.
Jedną z kluczowych zasad architektury jest modułowość i luźne sprzężenie, a nie ścisła integracja. Zmniejsza to zależności między składnikami i obciążeniami, pomaga wyeliminować skutki uboczne i umożliwia niezależne programowanie w różnych skalach czasu. Użyj zestawów danych i ich schematu jako kontraktu. Oddziel obciążenia robocze, takie jak zadania opracowywania danych (takie jak ładowanie i przekształcanie danych do data lake) od zadań przynoszących wartość (na przykład raportowania, dashboardów i inżynierii cech w nauce o danych). Zdefiniuj centralny wykaz danych z wytycznymi dotyczącymi formatów danych, jakości danych i cyklu życia danych.
Użyj otwartych interfejsów i otwórz formaty danych
Często opracowywane są rozwiązania, w których dostęp do danych można uzyskiwać tylko za pośrednictwem określonego systemu. Może to prowadzić do blokady dostawcy, ale może również stać się ogromnym czynnikiem kosztowym, jeśli dostęp do danych za pośrednictwem tego systemu podlega opłatom licencyjnym. Korzystanie z otwartych formatów danych i interfejsów pomaga uniknąć tego. Upraszczają również integrację z istniejącymi systemami i otwierają ekosystem partnerów, którzy już zintegrowali swoje narzędzia z usługą Lakehouse.
Jeśli używasz ekosystemów typu open source, takich jak Python lub R na potrzeby nauki o danych, spark lub ANSI SQL na potrzeby dostępu do danych i kontroli praw dostępu, będziesz mieć łatwiejszy czas na znalezienie personelu dla projektów. Uprości również potencjalne migracje do i z platformy.
uproszczenie implementacji nowego przypadku użycia
Aby jak najlepiej wykorzystać dane w usłudze Data Lake, użytkownicy muszą mieć możliwość łatwego wdrażania przypadków użycia na platformie. Zaczyna się to od odchudzonych procesów związanych z dostępem do platformy i zarządzaniem danymi. Na przykład samoobsługowy dostęp do platformy pomaga uniknąć sytuacji, w której centralny zespół staje się wąskim gardłem. Środowiska udostępnione i wstępnie zdefiniowane strategie wdrażania nowych środowisk zapewniają, że platforma jest szybko dostępna dla każdego użytkownika biznesowego.
zapewnianie spójności danych i użyteczności
Dwie ważne działania na platformie danych to publikowanie danych i zużycie danych. Z perspektywy publikowania dane powinny być oferowane jako produkt. Wydawcy muszą postępować zgodnie ze zdefiniowanym cyklem życia, mając na uwadze użytkowników, a dane muszą być jasno zdefiniowane za pomocą zarządzanych schematów, opisów i tak dalej.
Ważne jest również zapewnienie semantycznie spójnych danych, dzięki czemu konsumenci mogą łatwo zrozumieć i poprawnie połączyć różne zestawy danych. Ponadto wszystkie dane muszą być łatwo wykrywalne i dostępne dla użytkowników za pośrednictwem wykazu centralnego z prawidłowo wyselekcjonowanych metadanych i pochodzenia danych.
Dalej: Najlepsze rozwiązania dotyczące współdziałania i użyteczności
Zobacz Najlepsze rozwiązania dotyczące współdziałania i użyteczności.