Červenec 2019
Tyto funkce a vylepšení platformy Azure Databricks byly vydány v červenci 2019.
Poznámka:
Verze jsou připraveny. Váš účet Azure Databricks se nemusí aktualizovat až do týdne po počátečním datu vydání.
Připravujeme: Databricks 6.0 nebude podporovat Python 2
Předvídání nadcházejícího konce životnosti Pythonu 2, které bylo oznámeno pro 2020, nebude Python 2 podporován v Databricks Runtime 6.0. Starší verze Databricks Runtime budou dál podporovat Python 2. Očekáváme vydání Databricks Runtime 6.0 později v roce 2019.
Předběžné načtení verze Databricks Runtime u nečinných instancí fondu
30. července – 6. června 2019: Verze 2.103
Spuštění clusteru s podporou fondu teď můžete urychlit tak, že vyberete verzi Databricks Runtime, která se načte v nečinných instancích ve fondu. Pole v uživatelském rozhraní fondu se nazývá Předinstalovaná verze Sparku.
Lepší souhra vlastních značek clusteru a značek fondů
30. července – 6. června 2019: Verze 2.103
Před tímto měsícem služba Azure Databricks zavedla fondy, což je sada nečinných instancí, které vám pomůžou rychle aktivovat clustery. V původní verzi zdědily clustery s podporou fondu výchozí a vlastní značky z konfigurace fondu a tyto značky na úrovni clusteru nešlo upravit. Teď můžete nakonfigurovat vlastní značky specifické pro cluster s podporou fondu a tento cluster použije všechny vlastní značky, ať už zděděné z fondu, nebo přiřazené konkrétně k ho clusteru. Vlastní značku specifickou pro cluster nelze přidat se stejným názvem klíče jako vlastní značka zděděná z fondu (to znamená, že nemůžete přepsat vlastní značku zděděnou z fondu). Podrobnosti najdete v tématu Značky fondu.
MLflow 1.1 přináší několik vylepšení uživatelského rozhraní a rozhraní API
30. července – 6. června 2019: Verze 2.103
MLflow 1.1 zavádí několik nových funkcí pro zlepšení použitelnosti uživatelského rozhraní a rozhraní API:
Uživatelské rozhraní přehledu spuštění teď umožňuje procházet více stránek spuštění, pokud počet spuštění překročí 100. Po 100. spuštění klikněte na tlačítko Načíst další a načtěte dalších 100 spuštění.
Porovnání spouští uživatelské rozhraní nyní poskytuje paralelní souřadnice grafu. Graf umožňuje sledovat vztahy mezi ndimenzionální sadou parametrů a metrik. Vizualizuje všechna spuštění jako čáry, které jsou barevně zakódované na základě hodnoty metriky (například přesnosti) a zobrazuje hodnoty parametrů, které jednotlivé spuštění převzaly.
Teď můžete přidávat a upravovat značky z uživatelského rozhraní přehledu spuštění a zobrazovat značky v zobrazení hledání experimentu.
Nové rozhraní API MLflowContext umožňuje vytvářet a protokolovat spouštění způsobem, který se podobá rozhraní Python API. Toto rozhraní API kontrastuje se stávajícím rozhraním API nízké úrovně
MlflowClient
, které jednoduše zabalí rozhraní REST API.Značky z MLflow teď můžete odstranit pomocí rozhraní API DeleteTag.
Podrobnosti najdete v blogovém příspěvku MLflow 1.1. Úplný seznam funkcí a oprav najdete v protokolu změn MLflow.
Datový rámec pandas se vykresluje jako v Jupyteru
30. července – 6. června 2019: Verze 2.103
Když teď zavoláte datový rámec pandas, vykreslí se stejným způsobem jako v Jupyteru.
Nové oblasti
30. července 2019
Azure Databricks je teď k dispozici v následujících dalších oblastech:
- Jižní Korea – střed
- Jižní Afrika – sever
Aktualizován limit pro připojení metastoru
16. července – 23. července 2019: Verze 2.102
Nové pracovní prostory Azure Databricks v oblasti eastus, eastus2, centralus, westus2, westus2, westeurope, northeurope budou mít vyšší limit připojení metastoru 250. Stávající pracovní prostory budou nadále používat aktuální metastore bez přerušení a budou mít nadále limit připojení 100.
Nastavení oprávnění ve fondech (Public Preview)
16. července – 23. července 2019: Verze 2.102
Uživatelské rozhraní fondu teď podporuje nastavení oprávnění pro toho, kdo může spravovat fondy a kdo může připojit clustery k fondům.
Podrobnosti najdete v tématu Oprávnění fondu.
Databricks Runtime 5.5 pro strojové učení
15. července 2019
Databricks Runtime 5.5 ML je postaven na Databricks Runtime 5.5 LTS (EoS). Obsahuje mnoho oblíbených knihoven strojového učení, včetně TensorFlow, PyTorch, Keras a XGBoost a poskytuje distribuované trénování TensorFlow pomocí Horovodu.
Tato verze obsahuje následující nové funkce a vylepšení:
- Přidání balíčku Pythonu MLflow 1.0
- Upgradované knihovny strojového učení
- TensorFlow upgradoval z verze 1.12.0 na verzi 1.13.1
- PyTorch upgradoval z verze 0.4.1 na verzi 1.1.0
- scikit-learn upgradován z verze 0.19.1 na 0.20.3
- Operace s jedním uzlem pro HorovodRunner
Podrobnosti najdete v tématu Databricks Runtime 5.5 LTS pro ML (EoS).
Databricks Runtime 5.5
15. července 2019
Databricks Runtime 5.5 je teď k dispozici. Databricks Runtime 5.5 zahrnuje Apache Spark 2.4.3, upgradované knihovny Pythonu, R, Javy a Scala a následující nové funkce:
- Obecná dostupnost Delta Lake v Azure Databricks Auto Optimize
- Delta Lake v Azure Databricks vylepšil minimální, maximální a počet agregačních dotazů
- Rychlejší kanály odvozování modelů s vylepšeným zdrojem dat binárního souboru a skalárním iterátorem pandas UDF (Public Preview)
- Rozhraní API pro tajné kódy v poznámkových blocích R
Podrobnosti najdete v tématu Databricks Runtime 5.5 LTS (EoS).
Udržování fondu instancí v pohotovostním režimu pro rychlé spuštění clusteru (Public Preview)
9. července – 11. července 2019: Verze 2.101
Kvůli zkrácení doby spuštění clusteru teď Azure Databricks podporuje připojení clusteru k předem definovanému fondu nečinných instancí. Když je cluster připojený k fondu, přidělí jeho ovladač a pracovní uzly z fondu. Pokud fond nemá dostatek nečinných prostředků pro přizpůsobení požadavku clusteru, fond se rozšíří přidělením nových instancí od poskytovatele cloudu. Po ukončení připojeného clusteru se instance, které používá, vrátí do fondu a dají se znovu použít jiným clusterem.
Když jsou instance ve fondu nečinné, Azure Databricks neúčtuje jednotky DBU. Platí fakturace poskytovatele instancí. Podívejte se na ceny.
Podrobnosti najdete v referenčních informacích ke konfiguraci fondu.
Metriky Ganglia
9. července – 11. července 2019: Verze 2.101
Ganglia je škálovatelný distribuovaný monitorovací systém, který je teď dostupný v clusterech Azure Databricks. Metriky Ganglia pomáhají monitorovat výkon a stav clusteru. K metrikám Ganglia se dostanete ze stránky podrobností clusteru:
Podrobnosti o používání a konfiguraci metrik najdete v tématu Metriky Ganglia.
Globální barva podle řady
9. července – 11. července 2019: Verze 2.101
Teď můžete určit, že barvy řady by měly být konzistentní ve všech grafech v poznámkovém bloku. Viz konzistence barev napříč grafy.