如何使用 Microsoft Fabric 筆記本
Microsoft Fabric 筆記本是開發 Apache Spark 作業和機器學習實驗的主要程式碼項目。 這是資料科學家和資料工程師用來撰寫受益於豐富視覺效果和 Markdown 文字的程式碼的網頁式互動式介面。 資料工程師撰寫程式碼來擷取資料、資料準備和資料轉換。 資料科學家也會使用筆記本來建置機器學習解決方案,包括建立實驗和模型、模型追蹤和部署。
使用 Fabric 筆記本,您可以:
- 無須設定即可開始使用。
- 使用直覺式低程式碼體驗輕鬆探索和處理資料。
- 使用內建的企業安全性功能保護資料的安全。
- 使用強大的 Spark 功能,分析原始格式(例如 CSV、txt、JSON 等)和處理過的檔案格式(例如 parquet、Delta Lake 等)。
- 透過增強的撰寫功能和內建的資料視覺效果,提高生產力。
本文說明如何在資料科學和資料工程體驗中使用筆記本。
執行筆記本的安全性環境
筆記本的執行可以在 Fabric 中以三種不同的方式觸發,並具有完全彈性以符合不同案例:
- 互動式執行:使用者透過不同的UX項目或呼叫REST API手動觸發執行。 執行會在目前使用者的安全性內容下進行。
- 以管線活動執行:從 Fabric Data Factory 管線觸發執行。 您可以在 Notebook 活動中找到詳細步驟。 執行將在管線擁有者的安全背景下運行。
- 排程器:從排程器計劃觸發執行。 執行會在設定或更新排程計劃的使用者的安全性上下文中進行。
這些執行選項具有不同安全性內容的彈性可讓您符合不同的案例和需求,但也要求您在設計和開發筆記本時注意安全性內容,否則可能會導致非預期的行為,甚至發生某些安全性問題。
第一次建立筆記本時,會顯示提醒訊息,以警告您在未檢閱程式碼的情況下執行它的風險。
以下是一些可協助您避免安全性問題的最佳做法:
- 手動執行筆記本之前,請開啟筆記本 設定,並檢查關於 面板底下的詳細資料 區段以進行修改更新,請確定您符合最新的變更。
- 將筆記本活動新增至管線之前,請開啟筆記本設定,並檢查「關於」面板底下的「詳細資料」區段以了解修改更新,確保您同意最新的變更。 如果您不確定最新的變更,最好先開啟 Notebook 來檢閱變更,再將它新增至管線。
- 在更新排程計劃之前,請先打開筆記本的設定,並檢查“關於”面板下的“詳細資料”區段,以 確保您了解最新的變更並接受這些更改。 如果您不確定最新的變更,最好先開啟 Notebook 以檢閱變更,再更新排程器方案。
- 將工作區分成不同的階段(開發、測試、生產),並控制不同階段的存取,以避免安全性問題。 只將您信任的使用者新增至 Prod 階段。
建立筆記本
您可以建立新的筆記本或匯入現有筆記本。
建立新的筆記本
與其他標準 Fabric 項目建立程序一樣,您可以從 Fabric 資料工程首頁、工作區的新增選項或建立中樞輕鬆建立新的筆記本。
匯入現有筆記本
您可以使用工作區工具列中的選項,將一或多個現有的筆記本從本機電腦匯入。 布式筆記本可辨識標準 Jupyter Notebook .ipynb 檔案,以及來源檔案,例如 .py、.scala和 .sql,並據以建立新的筆記本項目。
匯出筆記本
您可以將筆記本匯出為其他標準格式。 Synapse 筆記本可以匯出為:
- 用於 Jupyter Notebook 的標準筆記本檔案 (.ipynb)。
- 可從瀏覽器直接開啟的 HTML 檔案 (.html)。
- Python 檔案 (.py)。
- LaTeX 檔案 (.tex)。
儲存筆記本
在 Fabric 中,筆記本預設會在開啟並編輯後自動儲存;您不需要擔心遺失程式碼變更。 您也可以使用儲存複本來在目前的工作區製作另一個複本,或在其他工作區製作複本。
如果您想手動儲存筆記本,您可以切換到手動儲存選項,以建立筆記本項目的本機分支,然後使用儲存或CTRL+s來儲存您的變更。
您也可以選取編輯 -> 儲存選項 -> 手動 來切換至手動儲存模式。 若要開啟筆記本的本機分支,然後手動儲存,請選取儲存或使用 Ctrl+s 鍵盤捷徑。
連接 Lakehouses 和筆記本
Fabric 筆記本現在支援與 Lakehouses 的密切互動;您可以輕鬆地從 Lakehouse Explorer 中新增新的或現有的 Lakehouse。
您可以在 Lakehouse Explorer 中巡覽至不同的 lakehouse,並將一個 lakehouse 釘選為預設。 接著,您的預設值會掛載到執行階段的工作目錄,並且您可以利用本機路徑讀取或寫入預設的 Lakehouse。
注意
您必須在釘選新的 Lakehouse 或重新命名預設 Lakehouse 之後重新啟動工作階段。
新增或移除 Lakehouse
選取湖泊倉庫名稱旁邊的X圖示,會將它從筆記本索引標籤中移除,但湖泊倉庫項目仍然存在於工作區中。
選取新增 Lakehouse 以將更多 Lakehouse 新增至筆記本,方法是新增現有的 lakehouse 或建立新的 Lakehouse。
探索 Lakehouse 文件
Lake 視圖的Tables和Files區段下的子資料夾和檔案會出現在Lakehouse列表與筆記本內容之間的內容區域中。 在 資料表 和 檔案區段中選取不同的資料夾,以重新整理內容區域。
資料夾和檔案操作
如果您以滑鼠右鍵選取檔案(.csv、.parquet、.txt、.jpg、.png等),您可以使用 Spark 或 Pandas API 來載入資料。 新的程式碼儲存格會產生並插入焦點儲存格下方。
您可以從選取的檔案或資料夾,輕鬆地複製具有不同格式的路徑,並在程式碼中使用對應的路徑。
筆記本資源
Notebook 資源總管提供類似 Unix 的文件系統,可協助您管理資料夾和檔案。 它提供可寫入的檔案系統空間,您可以在其中儲存小型檔案,例如程式碼模組、語意模型和影像。 您可以使用筆記本中的程式碼輕鬆地存取它們,就像您使用本機文件系統一樣。
注意
- 內建資料夾和環境資料夾的資源儲存體上限為 500 MB,單一檔案大小上限為 100 MB。 它們總共允許最多 100 個檔案/資料夾實例。
- 使用
notebookutils.notebook.run()
時,請使用notebookutils.nbResPath
命令來存取目標筆記本資源。 相對路徑 builtin/ 將始終指向根筆記本的內建資料夾。
內建資源資料夾
內建 resources 資料夾是每個筆記本唯一的系統定義資料夾。 建議使用內建資源資料夾來儲存目前筆記本中使用的任何數據。 以下是筆記本資源的重要功能。
- 您可以使用一般作業,例如建立/刪除、上傳/下載、拖放、重新命名、重複,以及透過UI搜尋。
- 您可以使用相對路徑,例如
builtin/YourData.txt
快速探索。 方法notebookutils.nbResPath
可協助您撰寫完整路徑。 - 您可以透過「寫入至 Lakehouse」選項,輕鬆地將已驗證的資料移至 Lakehouse。 網狀架構內嵌適用於常見檔類型的豐富代碼段,以協助您快速開始使用。
- 這些資源也可在參考筆記本執行
案例中使用 。
環境資源資料夾
環境資源資料夾是一個共用存放庫,其設計目的是簡化跨多個筆記本的共同作業。
您可以在環境中找到 [ 資源 ] 索引標籤,並擁有完整的作業來管理這裡的資源檔。 一旦筆記本連結至目前環境,這些檔案就可以跨多個筆記本共用。
在 [Notebook] 頁面中,您可以輕鬆地在 [從附加環境繼承的資源] 下找到第二個根資料夾。
您也可以在與內建資源資料夾相同的檔案/資料夾上操作。
環境資源路徑會自動掛接至筆記本叢集。 您可以使用 /env 相對路徑 來存取環境資源。
注意
具有相對路徑的讀取/寫入無法在 高並行會話中運作。
檔案編輯器
檔案編輯器可讓您直接在筆記本的資源資料夾和環境資源資料夾中檢視和編輯檔案。 支援的檔類型包括 CSV、TXT、HTML、YML、PY、SQL 等。 透過檔案編輯器,您可以輕鬆地存取和修改筆記本內的檔案,它支援關鍵詞醒目提示,並在開啟和編輯程式碼檔案時提供必要的語言服務,例如 .py 和 .sql。
您可以透過 [檔案] 選單中的 [檢視和編輯] 來存取此功能。 按兩下檔案是較快的方式。
若要手動儲存檔案編輯器中的內容變更,請按一下儲存 按鈕或使用鍵盤快捷方式 Ctrl+S,檔案編輯器不支援自動儲存。
筆記本模式 也會影響檔案編輯器。 如果您處於筆記本模式,而不需要編輯許可權,您只能檢視檔案,但無法編輯這些檔案。
注意
以下是檔案編輯器的一些限制。
- 檔案大小限制為 1 MB。
- 檢視和編輯不支援這些文件類型: .xlsx 和 .parquet。
在筆記本中共同作業
Fabric 筆記本是共同作業項目,可支援多個使用者編輯相同的筆記本。
當您開啟筆記本時,預設會進入共同編輯模式,而且會自動儲存每個筆記本編輯。 如果您的同事同時開啟相同的筆記本,您會看到其個人資料、程式執行結果、游標指標、選取指標,以及編輯追蹤。 藉由使用共同作業功能,您可以輕鬆地完成配對程式設計、遠端偵錯和輔導案例。
共用筆記本
共用筆記本是與小組成員共同作業的便利方式。 根據預設,授權的工作區角色可以檢視或編輯/執行筆記本。 您可以使用已授與的指定許可權來共享筆記本。
在筆記本工具列上選擇共用。
選取可檢視此筆記本的人員對應的類別。 您可以選擇 收件者的共享、編輯 或執行許可權。
選取 套用 之後,您可以直接傳送筆記本,或將連結複製到其他人。 收件者接著可以使用其許可權等級授與的對應檢視來開啟筆記本。
若要進一步管理筆記本許可權,請選取工作區項目清單>更多選項,然後選取管理許可權。 您可以從該畫面更新現有的筆記本存取權和許可權。
為程式碼儲存格加上批注
批注是共同作業案例的另一個實用功能。 目前,Fabric 支援新增儲存格層級註解。
選擇筆記本工具列上的註解按鈕或儲存格註解指示器,以開啟註解窗格。
在程式碼儲存格中選取程式碼,按一下註解 窗格中的新增,然後按一下張貼註解 按鈕來儲存。
如有需要,請選取批注旁的更多 選項,尋找編輯批注、解決線程 和刪除線程選項。
在註解中標記其他人
「標記」是指在註解線程中提及並通知使用者,以有效率地加強特定項目的共同作業。
選取儲存格中的程式碼區段,並新增批注線程。
如果您想要提及某人以討論特定區段,請輸入使用者名稱,並從建議清單中選擇正確的使用者名稱。
分享您的見解並張貼。
當觸發電子郵件通知時,用戶點擊 [開啟批注] 連結,以快速找到此儲存格。
此外,在標記沒有存取權的人員時,授權並設定使用者的許可權,以確保您的程式碼資產受到妥善管理。
注意
針對批註項目,如果在一小時內更新批註,標記的使用者將不會收到電子郵件通知。 但它會將電子郵件通知傳送給新的已標記使用者。
版本歷程記錄
注意
此功能目前為預覽狀態。
版本歷程記錄可讓您輕鬆地設定即時筆記本變更的版本。 它支援具有強固內建版本控制功能的歷程記錄追蹤和筆記本管理,這特別有助於在相同筆記本上與多個參與者共同作業。
在筆記本全域工具列中存取版本 的歷程記錄。
Notebook 支援兩種方式來建立檢查點。
您可以按下檢查點來開啟 差異檢視,它會醒目提示選取的檢查點與目前即時版本之間的內容差異,包括數據格內容、單元格輸出和元數據的差異。 您可以在 [更多選項] 功能表中個別管理此檢查點的版本。
如果您想要保留不穩定的版本,您可以從檢查點下拉功能表管理版本,按兩下 [從檢查點還原 並覆寫目前的筆記本,或使用 [另存盤 將它複製到新的筆記本。
注意
- 已知限制:按兩下 [還原] 按鈕並巡覽 返回筆記本之後,將不會立即從檢查點復原筆記本。 消息列會提示您檢視變更。 您必須按兩下 [檢視 變更] 按鈕,然後選取 [保留 儲存的版本 以完成還原。
- 系統檢查點會在 1 年後到期。
筆記本模式切換器
網狀架構筆記本支援您可以輕鬆地切換的四種模式:開發 模式、只執行 模式、編輯 模式,以及 檢視 模式。 每個模式都會對應至特定的許可權組合。 將筆記本共用給其他小組成員時,您可以將適當的許可權授與收件者。 他們可以根據其許可權查看最佳的可用筆記本模式,而且能夠在他們擁有許可權的模式之間切換。
- 開發模式:需要讀取、執行、寫入許可權。
- 僅執行模式:需要讀取、執行權限。
- 編輯模式:需要讀取、寫入許可權。
- 檢視模式:需要讀取許可權。