Analiza i analiza biznesowa (BI) na danych usługi Azure Cosmos DB
Usługa Azure Cosmos DB oferuje różne opcje umożliwiające analizę na dużą skalę i raportowanie analizy biznesowej na danych operacyjnych.
Aby uzyskać znaczące szczegółowe informacje na temat danych usługi Azure Cosmos DB, może być konieczne wykonywanie zapytań dotyczących wielu partycji, kolekcji lub baz danych. W niektórych przypadkach możesz połączyć te dane z innymi źródłami danych w organizacji, takimi jak Azure SQL Database, Azure Data Lake Storage Gen2 itp. Możesz również wykonywać zapytania za pomocą funkcji agregujących, takich jak suma, liczba itp. Takie zapytania wymagają dużej mocy obliczeniowej, która prawdopodobnie zużywa więcej jednostek żądań (RU), a w rezultacie te zapytania mogą potencjalnie wpłynąć na wydajność obciążenia o krytycznym znaczeniu.
Aby odizolować obciążenia transakcyjne od wpływu złożonych zapytań analitycznych na wydajność, dane bazy danych są pozyskiwane w nocy do centralnej lokalizacji przy użyciu złożonych potoków wyodrębniania transformacji (ETL). Takie analizy oparte na protokole ETL są złożone, kosztowne z opóźnionym wglądem w dane biznesowe.
Usługa Azure Cosmos DB rozwiązuje te wyzwania, zapewniając zerowe oferty ETL, ekonomiczne analizy.
Zero ETL, niemal w czasie rzeczywistym analizy w usłudze Azure Cosmos DB
Usługa Azure Cosmos DB oferuje zerową analizę ETL, niemal w czasie rzeczywistym na danych bez wpływu na wydajność obciążeń transakcyjnych lub jednostek żądań (RU). Te oferty usuwają potrzebę złożonych potoków ETL, dzięki czemu dane usługi Azure Cosmos DB są bezproblemowo dostępne dla aparatów analitycznych. Dzięki ograniczonemu opóźnieniu do szczegółowych informacji możesz zapewnić ulepszone środowisko klienta i szybciej reagować na zmiany warunków rynkowych lub środowiska biznesowego. Poniżej przedstawiono kilka przykładowych scenariuszy , które można osiągnąć dzięki szybkiemu wglądowi w dane.
Możesz włączyć analizę zero-ETL i raportowanie analizy biznesowej w usłudze Azure Cosmos DB, korzystając z następujących opcji:
- Dublowanie danych w usłudze Microsoft Fabric
- Włączanie usługi Azure Synapse Link w celu uzyskiwania dostępu do danych z usługi Azure Synapse Analytics
Opcja 1. Dublowanie danych usługi Azure Cosmos DB w usłudze Microsoft Fabric
Dublowanie umożliwia bezproblemowe przenoszenie danych bazy danych usługi Azure Cosmos DB do usługi Microsoft Fabric. Dzięki zerowej funkcji ETL możesz uzyskać szybki, rozbudowany wgląd w dane biznesowe na danych usługi Azure Cosmos DB przy użyciu wbudowanych funkcji analitycznych, analizy biznesowej i sztucznej inteligencji w usłudze Fabric.
Dane operacyjne usługi Cosmos DB są przyrostowo replikowane do usługi Fabric OneLake niemal w czasie rzeczywistym. Dane w usłudze OneLake są przechowywane w formacie Delta Parquet typu open source i udostępniane wszystkim aparatom analitycznym w usłudze Fabric. Za pomocą otwartego dostępu można jej używać z różnymi usługami platformy Azure, takimi jak Azure Databricks, Azure HDInsight i inne. Usługa OneLake ułatwia również ujednolicenie twoich twoich potrzeb analitycznych. Dane dublowane można łączyć z dowolnymi innymi danymi w usłudze OneLake, takimi jak Lakehouses, Warehouses lub skróty. Możesz również dołączyć dane usługi Azure Cosmos DB do innych dublowanych źródeł baz danych, takich jak Usługa Azure SQL Database, Snowflake. Zapytania można wykonywać w kolekcjach lub bazach danych usługi Azure Cosmos DB dublowanych w usłudze OneLake.
W przypadku dublowania w sieci szkieletowej nie trzeba łączyć różnych usług od wielu dostawców. Zamiast tego możesz korzystać z wysoce zintegrowanego, kompleksowego i łatwego w użyciu produktu, który został zaprojektowany w celu uproszczenia potrzeb analitycznych. Język T-SQL umożliwia uruchamianie złożonych zapytań agregacji i platformy Spark na potrzeby eksploracji danych. Możesz bezproblemowo uzyskiwać dostęp do danych w notesach, używać nauki o danych do tworzenia modeli uczenia maszynowego i tworzyć raporty usługi Power BI przy użyciu usługi Direct Lake obsługiwanej przez zaawansowaną integrację z platformą Copilot.
Jeśli szukasz analizy danych operacyjnych w usłudze Azure Cosmos DB, dublowanie zapewnia:
- Zero ETL, ekonomiczne niemal w czasie rzeczywistym analizy danych usługi Azure Cosmos DB bez wpływu na użycie jednostek żądania
- Łatwość uwzględnienia danych w różnych źródłach w usłudze Fabric OneLake.
- Ulepszona wydajność zapytań aparatów SQL obsługujących tabele różnicowe dzięki optymalizacjom zamówień wirtualnych
- Ulepszony zimny czas uruchamiania aparatu Spark z głęboką integracją z uczeniem maszynowym/notesami
- Integracja jednym kliknięciem z usługą Power BI z usługą Direct Lake i Copilot
- Bogatsza integracja aplikacji w celu uzyskiwania dostępu do zapytań i widoków za pomocą języka GraphQL
- Otwieranie dostępu do i z innych usług, takich jak Azure Databricks
Aby rozpocząć dublowanie, odwiedź stronę "Wprowadzenie do samouczka dublowania".
Opcja 2. Usługa Azure Synapse Link w celu uzyskania dostępu do danych z usługi Azure Synapse Analytics
Usługa Azure Synapse Link dla usługi Azure Cosmos DB tworzy ścisłą bezproblemową integrację między usługą Azure Cosmos DB i usługą Azure Synapse Analytics, umożliwiając zerową analizę ETL niemal w czasie rzeczywistym na danych operacyjnych. Dane transakcyjne są bezproblemowo synchronizowane z magazynem analitycznym, który przechowuje dane w formacie kolumnowym zoptymalizowanym pod kątem analizy.
Usługa Azure Synapse Analytics może uzyskiwać dostęp do tych danych w magazynie analitycznym bez dalszego przenoszenia przy użyciu usługi Azure Synapse Link. Analitycy biznesowi, inżynierowie danych i analitycy danych mogą teraz używać usługi Synapse Spark lub Synapse SQL zamiennie do uruchamiania potoków analizy biznesowej, analizy i uczenia maszynowego niemal w czasie rzeczywistym.
Na poniższej ilustracji przedstawiono integrację usługi Azure Synapse Link z usługami Azure Cosmos DB i Azure Synapse Analytics:
Ważne
Dublowanie w usłudze Microsoft Fabric jest teraz dostępne w wersji zapoznawczej dla interfejsu API NoSql. Ta funkcja zapewnia wszystkie możliwości usługi Azure Synapse Link z lepszą wydajnością analityczną, możliwość ujednolicenia majątku danych za pomocą usługi Fabric OneLake i otwierania dostępu do danych w usłudze OneLake w formacie Delta Parquet. Jeśli rozważasz usługę Azure Synapse Link, zalecamy wypróbowanie dublowania w celu oceny ogólnego dopasowania organizacji. Aby rozpocząć dublowanie, kliknij tutaj.
Aby rozpocząć pracę z usługą Azure Synapse Link, odwiedź stronę "Wprowadzenie do usługi Azure Synapse Link".
Analiza w czasie rzeczywistym i analiza bi w usłudze Azure Cosmos DB: inne opcje
Istnieje kilka innych opcji umożliwiających analizę w czasie rzeczywistym na danych usługi Azure Cosmos DB:
- Używanie zestawienia zmian
- Używanie łącznika Spark bezpośrednio w usłudze Azure Cosmos DB
- Używanie łącznika usługi Power BI bezpośrednio w usłudze Azure Cosmos DB
Chociaż te opcje są uwzględniane pod kątem kompletności i dobrze współpracują z zapytaniami z pojedynczą partycją w czasie rzeczywistym, te metody mają następujące wyzwania dla zapytań analitycznych:
Wpływ na wydajność obciążenia:
Zapytania analityczne zwykle są złożone i zużywają znaczną pojemność obliczeniową. Gdy te zapytania są uruchamiane bezpośrednio względem danych usługi Azure Cosmos DB, może wystąpić spadek wydajności zapytań transakcyjnych.
Wpływ na koszty:
Gdy zapytania analityczne są uruchamiane bezpośrednio względem bazy danych lub kolekcji, zwiększają zapotrzebowanie na przydzielone jednostki żądań, ponieważ zapytania analityczne wydają się być złożone i wymagają większej mocy obliczeniowej. Zwiększone użycie jednostek RU prawdopodobnie doprowadzi do znacznego wpływu na koszty w czasie, jeśli uruchamiasz zagregowane zapytania.
Zamiast tych opcji zalecamy użycie funkcji dublowania w usłudze Microsoft Fabric lub Azure Synapse Link, które zapewniają zerową analizę ETL bez wpływu na wydajność obciążenia transakcyjnego lub jednostki żądań.