Microsoft主要數據管理 (MDM) 的 Purview 和 CluedIn 整合
此 InsightdIn 架構為企業提供所擷取數據品質的計量,以智慧方式偵測中途數據,並準備供數據工程師和數據管理者清除。 專屬模糊邏輯機器學習演算法可協助商務使用者和編者標記數據,並教導系統識別、更正及防止一段時間的數據質量問題。
架構
數據流
在 AKS) 中,在 Kubernetes 叢集中執行的各種功能層 Azure Kubernetes Service (為一種功能層。 .NET Core 微服務應用程式的組合會處理不同的函式,例如數據擷取、串流數據處理、佇列和使用者介面。
線索引標籤層會透過 Azure Data Factory 連接器,從客戶雲端來源擷取數據,例如 Azure SQL DB、Azure Cosmos DB、PostgreSQL 和 Salesforce 資料庫。
在線索引鍵中,也會從 SAP、Oracle、IBM 和 Hadoop 等內部部署可存取系統取得輸入,或使用內部部署代理程式來編目非公用數據。
企業服務總線會透過埠 5672 和 15672 連線到系統管理員端點。 編目程式會透過埠 5672 將數據傳送至總線,而處理層會從總線取用數據。
事務歷史記錄層會從處理層取得結果。
在持續性層中,資料庫會取用事務歷史記錄中的數據並加以保存,以提供跨不同數據存放區的最終一致性。 所有存放區都是以高可用性 (HA) 模式執行。
與數據虛擬化不同的是,在數據虛擬化時,在持續性層會擷取源數據的部分,並保留數據及其結構的最高逼真度版本。 這種高逼真度表示,在 Data Fabric 中,線索引標籤可以提供任何格式或模型的數據商務要求。
數據抽象層會透過每個存放區的埠連線到不同的數據存放區。
數據存取是透過埠 443 透過 GraphQL、REST 和 WebSocket 呼叫來存取。 GraphQL 和 REST 會使用提取模型,而 WebSocket 則使用推送模型。
在 CSRF) 防護 (透過節流和跨網站要求偽造來保護數據存取。
ASP.NET Core Web 應用程式會透過埠 443 的 REST 和 GraphQL 呼叫組合進行通訊。
從瀏覽器到應用程式的所有通訊都會使用一組輸入定義,只需要單一公用IP位址。 在生產環境中,所有通訊都會透過安全套接字層 (SSL) 。
InsightdIn 應用程式會將經過清理、處理的數據提供給 Power BI 和 Azure Synapse Analytics 等分析服務,以產生深入解析。 系統會備份並儲存 SQL 或 Redis 資料庫中的所有數據。
元件
在 Azure Kubernetes Service (AKS) 上執行,這是一個高可用性、安全且完全受控的 Kubernetes 服務,可用來部署和管理容器化應用程式。 AKS 提供無伺服器 Kubernetes、整合式 CI/CD,以及企業級的安全性和治理。
CluedIn 使用並支援許多資料庫來源和服務,包括:
- Azure SQL 資料庫,這是受控關係型雲端資料庫服務,一律為最新狀態,可視需要自動調整資源。
- Azure SQL 受控執行個體,以廣泛 SQL Server 引擎與現有 SQL Server 應用程式的相容性。 SQL 受管理執行個體 提供內部部署資料庫基礎結構與 Azure 雲端優點,例如彈性調整、統一管理和雲端計費模型。
- Azure Cosmos DB 是完全受控的非關係型 NoSQL 無伺服器資料庫,用於新式應用程式開發。
- Azure Data Lake,可調整的數據記憶體和分析服務。
- Azure Data Factory,這是完全受控的無伺服器數據整合解決方案,可大規模擷取、準備和轉換數據。 線索引In 使用超過 90 個內建 Data Factory 連接器,從 Amazon Redshift、Google BigQuery、HDFS、Oracle Exadata、Teradata、Salesforce、Marketo、ServiceNow 和所有 Azure 數據服務等來源取得數據。
CluedIn 為許多分析應用程式和服務提供已處理、受控的數據,包括:
- Azure Databricks,這是快速、簡單且共同作業的 Apache Spark 型分析服務。
- Azure Synapse 分析,這是一項無限制的分析服務,可將企業數據倉儲和巨量數據分析結合在一起。
- Log Analytics 是一種 Azure 入口網站 工具,可編輯、執行及分析來自 Azure 監視器記錄數據的查詢。
- Azure 認知服務是一系列完整的 AI 服務和認知 API,可用來建置智慧型手機應用程式。
- Power BI 是Microsoft商務分析服務,結合互動式視覺效果和商業智慧與易於使用的報表建立介面。
案例詳細數據
新式企業公司會根據數據建立許多程式和項目的基礎,但原始數據必須準備好供取用。 從進階分析到機器學習的數據使用案例都需要類似的數據準備程式和注意事項。
- 數據專案會從數據 探索開始,以判斷數據的所在位置及其使用的系統。
- 然後,數據 整合 會將多個數據源整合到統一或連接的數據集。
- 下一個步驟是 正規化、標準化、統一 和 清除 數據,讓機器能夠以統一、一致且高精確度的方式處理數據。
- 最後,數據必須輕鬆且容易地供商務需求使用。
在這些程式中, 治理 必須確保數據控制和隱私權保護具有清楚的擁有權、完整追蹤性,以及數據源、處理和使用的稽核線索。
當 MDM) 解決方案 (,因此,CluedIn 平臺會將這些數據管理程式和要件封裝成一致、一致的端對端主要 資料管理。 因為在 ETL) 或擷取、載入、轉換 (ELT ) 模型,則使用稱為「最終連線」的數據整合技術可產生比傳統擷取、轉換、載入 (ETL ) 更好的結果。 最終聯機會使用 GraphQL 查詢,順暢地從多個尋址數據源混合數據。
使用最終連線時,數據不會在進入或載入至其他系統時聯結或混合。 而是會以原狀載入數據,並使用元數據標記記錄。 最後,具有相同標籤的記錄會合併或建置圖表中的關聯性。
這個複雜的數據合併技術為數據驅動解決方案提供了基礎。 在 Data Fabric 中,線索引標籤會將數據整合到可清理、準備、模型、控管、擴充、重複數據刪除和目錄數據的管線中,讓其可輕鬆地供商務用途使用。
InsightdIn 為企業提供所擷取數據品質的計量、智慧地偵測中途數據,並準備由數據工程師和數據管理者進行清理。 專屬模糊邏輯機器學習演算法可協助商務使用者和編者標記數據,並教導系統識別、更正及防止一段時間的數據質量問題。
CluedIn 包含企業級治理,以確保您可以安全且安心地使用數據。 線索引In 可以將已清理、控管的數據直接串流至分析系統,例如 Power BI、Azure Databricks、Azure Synapse Analytics 或 Azure 認知服務,讓其他企業輕鬆使用。 自動調整的原生支援會使用 Azure 的功能,為最大的數據工作負載提供可調整的環境。
潛在使用案例
建置單一數據檢視
- 由於一般語意模型化,因此相較於傳統方法,建置主數據的單一檢視更容易達成。 線索引In的客戶會使用線索引In來建置其最重要商務數據的連線、歷程記錄和高質量檢視。 CluedIn 不只支援 人員、公司、廠商和產品等傳統 Master 網域的主控 -它支援和無限數量的不同網域,以及非結構化網域,例如檔案、郵件、事件等等。 如果您需要全新、擴充、控管、品質控制和已編錄的主要數據集中存放庫,則在使用案例中,則對您的使用案例而言,一個十分適合的線索引標籤。
數據網狀架構
- 在 2020 年,因為其能夠將來自不同和複雜數據源的 10、100 和 1000 個數據源的數據協調到整合的數據中樞,所以在 2020 年是 Gartner Cool Vendor。 如果您需要輕鬆地整頓來自許多不同數據源的數據,則可以使用 CluedIn 做為數據網狀架構來達成此目的。 這可以為您的數據提供串流基礎結構,也可以在數據流向下游取用者時主動清理和掌握數據。
複雜的主要數據合併和連結
- CluedIn 的獨特數據模型化方法會利用圖形資料庫,以簡化的方式合併和鏈接複雜的數據。 與傳統方法不同的是,為了解決此挑戰,在高精確度下新增更多機器學習和圖形分析來合併、比對和鏈接記錄。
考量
這些考慮會實作 Azure Well-Architected 架構的要素,這是一組可用來改善工作負載質量的指導原則。 如需詳細資訊, 請參閱 Microsoft Azure Well-Architected Framework。
可靠性
可靠性可確保您的應用程式能夠符合您對客戶所做的承諾。 如需詳細資訊,請 參閱可靠性要素概觀。
根據預設,CluedIn 會採用每日自動資料庫備份,並將它們保留在長期記憶體中 30 天。 整個平臺建置在備援、容錯堆疊上,這些堆疊會維護所有子系統的備份。 全天候監視系統可確保服務盡可能不受保護。 因為在基礎結構備援上遵循業界標準做法。
CluedIn 只會呈現並儲存數據的表示法,而非原始版本。 如果 CluedIn 偵測到破壞性數據入侵,則可以暫時抹除伺服器中的線索引In 數據。 一旦入侵導致入侵,則在將數據重新匯總以回到其原始狀態時,將數據重新匯總。
所有資料存放區都會以高可用性模式執行。
延展性
InsightdIn 會在 Docker 容器中執行 ,並使用 Kubernetes 來裝載及協調應用程式的不同部分。 此架構意謂著在彈性環境中運作良好,而且可以自動調整為所需的大小和基礎結構。
自動調整的原生支援會套用 Azure 的功能,為最大的數據工作負載提供可調整的環境。
無架構圖形模型化會自動從源數據推斷數據模型。 新的數據源會自動連線到所有其他數據源,而不需要明確整合。 數據源數目可以無限地調整,而不會增加整合複雜度。
安全性
安全性可確保防範刻意攻擊,以及濫用您寶貴的數據和系統。 如需詳細資訊,請參閱 安全性要素概觀。
在安全性上,使用 Azure 金鑰保存庫 安全性密鑰控制和 Azure監視器存取追蹤和記錄,透過 Azure RBAC 授與不同服務的許可權和控制存取權。
除了已驗證的用戶帳戶之外,在 SSO) 和身分識別架構 (,僅支援單一登錄。 對 CluedIn 應用程式的要求會使用與使用者身分識別沒有關聯的加密存取令牌。
CluedIn 會管理多個防火牆和 Proxy 層後方的預存數據表示法,並使用一組唯一索引鍵進行驗證。
CluedIn 會使用 256 位 AES 加密來儲存所有源數據,其強於或等於支援數據源的加密層級。
節流和 CSRF 防護會保護數據存取。
DevOps
InsightdIn 會使用 Azure Pipelines 持續整合和持續傳遞 (CI/CD) 管線來處理 AKS 環境的部署和輪流更新。
CluedIn 支援單元、整合和功能測試,以確保數據會如預期般轉換。 虛擬化處理管線可以在記憶體中執行,以進行沙箱測試。 生產等級判斷提示可協助偵錯和追蹤數據問題。
針對測試和生產環境,線索引In提供 Helm 套件管理員 圖表,可在 Kubernetes 叢集中快速安裝線索引In。 完整編寫文本的數據部署程式支援安裝、測試和推出。
成本優化
成本優化是關於尋找減少不必要的費用並改善營運效率的方法。 如需詳細資訊,請參閱 成本優化要素概觀。
嚮導入的定價是開放且透明的。 您可以在他們的 網站上看到定價。
Azure 重設大小並開始試用
您可以在其 網站上開始對 CluedIn 進行 7 天的試用,這也可協助您使用針對不同大小環境預先建置的 Azure 估計值來設定 Azure 裝載成本的範圍。
部署此案例
若要使用 Docker 部署要用於開發和評估用途的 CluedIn,請參閱 使用 Docker 的線索引標籤。
若要在 Kubernetes 叢集中快速安裝 CluedIn,請參閱 使用 Kubernetes 的線索引標籤。 Helm 圖表會安裝線索引標籤伺服器、網站和其他必要服務,例如記憶體和佇列。