Únor 2019
Tyto funkce a vylepšení platformy Azure Databricks byly vydány v únoru 2019.
Poznámka:
Verze jsou připraveny. Váš účet Azure Databricks se nemusí aktualizovat až do týdne po počátečním datu vydání.
Obecná dostupnost Databricks Light
26. února – 5. března 2019: Verze 2.92
Databricks Light (označovaný také jako Datoví technici ing Light) je nyní k dispozici. Databricks Light je balíček Databricks opensourcového modulu runtime Apache Spark. Poskytuje možnost modulu runtime pro úlohy, které nepotřebují pokročilé výhody výkonu, spolehlivosti nebo automatického škálování poskytované modulem Databricks Runtime. Databricks Light můžete vybrat jenom v případě, že vytvoříte cluster pro spuštění úlohy JAR, Pythonu nebo spark-submit . Tento modul runtime nemůžete vybrat pro clustery, na kterých spouštíte interaktivní úlohy nebo úlohy úloh poznámkového bloku. Viz Databricks Light.
Spravované MLflow v Azure Databricks Public Preview
26. února – 5. března 2019: Verze 2.92
MLflow je open source platforma pro správu kompletního životního cyklu strojového učení. Řeší tři primární funkce:
- Sledování experimentů za účelem zaznamenání a porovnání parametrů a výsledků
- Správa a nasazování modelů z různých knihoven ML do různých platforem pro obsluhu a odvozování modelů
- Balení kódu ML v opakovaně použitelné, reprodukovatelné podobě pro sdílení s dalšími datovými vědci nebo přenos do produkčního prostředí.
Azure Databricks teď poskytuje plně spravovanou a hostované verzi MLflow integrované s podnikovými funkcemi zabezpečení, vysokou dostupností a dalšími funkcemi pracovního prostoru Azure Databricks, jako je správa experimentů, správa spuštění a zachycení revizí poznámkových bloků. MLflow na platformě Azure Databricks nabízí integrované prostředí pro sledování a zabezpečení spuštění modelů trénování strojového učení a spouštění projektů strojového učení. Pomocí spravovaného MLflow v Azure Databricks získáte výhody obou platforem, mezi které patří:
- Pracovní prostory: Společně sledujte a uspořádejte experimenty a výsledky v rámci pracovních prostorů Azure Databricks s hostovaným sledovacím serverem MLflow a integrovaným uživatelským rozhraním experimentu. Když v poznámkových blocích používáte MLflow, Azure Databricks automaticky zaznamená revize poznámkového bloku, abyste mohli stejný kód reprodukovat a spustit později.
- Zabezpečení: Využijte jeden společný model zabezpečení pro celý životní cyklus ML prostřednictvím seznamů ACL.
- Úlohy: Spouštějte projekty MLflow jako úlohy Azure Databricks vzdáleně a přímo z poznámkových bloků Azure Databricks.
Tady je ukázka pracovního postupu sledování v pracovním prostoru Azure Databricks:
Podrobnosti najdete v tématu Sledování trénování ML a hlubokého učení a spouštění projektů MLflow v Azure Databricks.
Konektor Azure Data Lake Storage Gen2 je obecně dostupný
15. února 2019
Azure Data Lake Storage Gen2 (ADLS Gen2), řešení Data Lake nové generace pro analýzu velkých objemů dat, je teď obecně dostupné, stejně jako konektor ADLS Gen2 pro Azure Databricks. S radostí také oznamujeme, že ADLS Gen2 podporuje Databricks Delta při spouštění clusterů v Databricks Runtime 5.2 a novějších.
Python 3 je teď výchozí volba při vytváření clusterů
12. února 2019: Verze 2.91
Výchozí verze Pythonu pro clustery vytvořené pomocí uživatelského rozhraní se přepnula z Pythonu 2 na Python 3. Výchozí hodnota pro clustery vytvořené pomocí rozhraní REST API je stále Python 2.
Existující clustery nezmění jejich verze Pythonu. Pokud jste ale ve zvyku při vytváření nových clusterů používat výchozí nastavení Pythonu 2, budete muset začít věnovat pozornost výběru verze Pythonu.
Obecná dostupnost Delta Lake
1. února 2019
Všichni teď můžou získat výhody výkonné transakční vrstvy úložiště Databricks Delta a superrychlé čtení: od 1. února je Delta Lake ga a je k dispozici ve všech podporovaných verzích Databricks Runtime. Informace o delta najdete v tématu Co je Delta Lake?.