Květen 2020
Tyto funkce a vylepšení platformy Azure Databricks byly vydány v květnu 2020.
Poznámka:
Verze jsou připraveny. Váš účet Azure Databricks se nemusí aktualizovat až do týdne po počátečním datu vydání.
Virtuální počítače řady Easv4 (Beta)
29. května 2020
Azure Databricks teď poskytuje podporu beta verzí pro virtuální počítače řady Easv4, které používají ssd úrovně Premium a můžou dosáhnout vyšší maximální frekvence 3,35 GHz. Tyto typy instancí mohou optimize výkon úloh pro podnikové aplikace náročné na paměť.
Obecná dostupnost Databricks Runtime 6.6 pro Genomics
26. května 2020
Databricks Runtime 6.6 pro Genomics je postaven na Databricks Runtime 6.6 a obsahuje následující nové funkce:
- Čtenář GFF3
- Podpora vlastních referenčních genomů
- Časové limity kanálu pro jednotlivé ukázky
- Možnost exportu BAM
- Objekty blob manifestu
Obecná dostupnost Databricks Runtime 6.6 ML
26. května 2020
Databricks Runtime 6.6 ML je postaven na Databricks Runtime 6.6 a obsahuje následující nové funkce:
- Upgrade mlflow: 1.7.0 na 1.8.0
Další informace najdete v kompletní zprávě k vydání verze Databricks Runtime 6.6 ML (EoS ).
Obecná dostupnost Databricks Runtime 6.6
26. května 2020
Databricks Runtime 6.6 přináší mnoho upgradů knihoven a nových funkcí, včetně následujících funkcí Delta Lake:
- Nyní můžete automaticky vyvíjet schema z table pomocí operace
merge
. To je užitečné ve scénářích, where chcete aktualizovat nebo vložit změnová data do table a schema data se během času mění. Místo detekce a použití změn schema před přenesením můžemerge
současně vyvíjet schema a přenést změny. Viz automatický vývoj schema proDelta Lake merge . - Výkon operací sloučení, které mají pouze odpovídající klauzule, to znamená, že mají pouze
update
akce adelete
žádnéinsert
akce, byly vylepšeny. - Parquet tables, na které odkazuje metastore Hive, lze nyní převést na Delta Lake pomocí jejich identifikátorů table s využitím
CONVERT TO DELTA
.
Další informace najdete v kompletní zprávě k vydání verze Databricks Runtime 6.6 (EoS ).
DbFS REST API – odstranění velikosti koncového bodu limit
21. května 2020: Verze 3.20
Při rekurzivním odstranění velkého počtu souborů pomocí rozhraní DBFS API se operace odstranění provede v přírůstcích. Volání vrátí odpověď po přibližně 45s s chybovou zprávou s výzvou k opětovnému vyvolání operace odstranění, dokud se struktura adresáře plně neodstraní. Příklad:
{
"error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}
Snadné zobrazení velkého počtu registrovaných modelů MLflow
21. května 2020: Verze 3.20
Registr modelů MLflow teď podporuje vyhledávání na straně serveru a stránkování registrovaných modelů, což organizacím s velkým počtem modelů umožňuje efektivně provádět výpis a vyhledávání. Stejně jako předtím můžete hledat modely podle názvu a get výsledky seřazené podle názvu nebo času poslední aktualizace. Pokud ale máte velký počet modelů, stránky se načtou mnohem rychleji a hledání načte nejaktuálnější zobrazení modelů.
Knihovny nakonfigurované pro instalaci na všechny clustery se neinstalují v clusterech s Databricks Runtime 7.0 a vyššími verzemi
21. května 2020: Verze 3.20
V Databricks Runtime 7.0 a novějších používá základní verze Apache Sparku Scala 2.12. Vzhledem k tomu, že knihovny kompilované v jazyce Scala 2.11 můžou clustery Databricks Runtime 7.0 zakázat neočekávaným způsobem, clustery se spuštěným modulem Databricks Runtime 7.0 a novějším neinstalují knihovny nakonfigurované tak, aby se nainstalovaly na všechny clustery. Na kartě Knihovny clusteru se zobrazuje stav Skipped
a zpráva o vyřazení související se změnami zpracování knihovny.
Pokud máte cluster vytvořený ve starší verzi Databricks Runtime před vydáním verze 3.20 do vašeho pracovního prostoru a teď tento cluster upravíte tak, aby používal Databricks Runtime 7.0, všechny knihovny, které byly nakonfigurované tak, aby se nainstalovaly na všechny clustery, se nainstalují do tohoto clusteru. V takovém případě můžou všechny nekompatibilní žádosti o přijetí změn v nainstalovaných knihovnách způsobit zakázání clusteru. Alternativním řešením je klonování clusteru nebo vytvoření nového clusteru.
Databricks Runtime 7.0 pro Genomics (Beta)
21. května 2020
Databricks Runtime 7.0 pro Genomics je postaven na Databricks Runtime 7.0 a obsahuje následující změny knihovny:
- Knihovna ADAM byla aktualizována z verze 0.30.0 na 0.32.0.
- Knihovna Hail není součástí modulu Databricks Runtime 7.0 pro Genomics, protože neexistuje žádná verze založená na Apache Sparku 3.0.
Databricks Runtime 7.0 ML (Beta)
21. května 2020
Databricks Runtime 7.0 ML je postaven na Databricks Runtime 7.0 a obsahuje následující nové funkce:
- Knihovny Pythonu s oborem poznámkového bloku a vlastní prostředí spravované příkazy conda a pip
- Aktualizace hlavních balíčků Pythonu, mezi které patří tensorflow, tensorboard, pytorch, xgboost, sparkdl a hyperopt.
- Nově přidané balíčky Pythonu lightgbm, nltk, petastorm a plotly.
- RStudio Server Open Source verze 1.2.
Další informace najdete v kompletní zprávě k vydání verze Databricks Runtime 7.0 ML (EoS ).
Databricks Runtime 6.6 pro Genomics (Beta)
7. května 2020
Databricks Runtime 6.6 pro Genomics je postaven na Databricks Runtime 6.6 a obsahuje následující nové funkce:
- Čtenář GFF3
- Podpora vlastních referenčních genomů
- Časové limity kanálu pro jednotlivé ukázky
- Možnost exportu BAM
- Objekty blob manifestu
Databricks Runtime 6.6 ML (Beta)
7. května 2020
Databricks Runtime 6.6 ML je postaven na Databricks Runtime 6.6 a obsahuje následující nové funkce:
- Upgrade mlflow: 1.7.0 na 1.8.0
Další informace najdete v kompletní zprávě k vydání verze Databricks Runtime 6.6 ML (EoS ).
Databricks Runtime 6.6 (Beta)
7. května 2020
Databricks Runtime 6.6 (Beta) přináší mnoho upgradů knihoven a nových funkcí, včetně následujících funkcí Delta Lake:
- Nyní můžete automaticky vyvinout schema z table pomocí operace
merge
. To je užitečné ve scénářích, where chcete přenést data do table a schema změn dat v průběhu času. Místo detekce a použití změn schema před přenesením můžemerge
současně vyvíjet schema a přenést změny. Viz automatický vývoj schema pro sloučení Delta Lake. - Výkon operací sloučení, které mají pouze odpovídající klauzule, to znamená, že mají pouze
update
akce adelete
žádnéinsert
akce, byly vylepšeny. - Parquet tables, na které odkazuje metastore Hive, jsou nyní převoditelné na Delta Lake pomocí svých identifikátorů table a s použitím
CONVERT TO DELTA
.
Další informace najdete v kompletní zprávě k vydání verze Databricks Runtime 6.6 (EoS ).
Clustery úlohy jsou teď označené názvem a ID úlohy
5. května 2020: Verze 3.19
Clustery úloh se automaticky označí názvem a ID úlohy. Značky se zobrazí v fakturovatelných sestavách využití, abyste mohli snadno přiřazovat využití DBU podle úlohy a identifikovat anomálie. Značky jsou sanitizované na specifikace značek clusteru, jako jsou povolené znaky, maximální velikost a maximální počet značek. Název úlohy je obsažen ve RunName
značce a ID úlohy je obsaženo ve značce JobId
.
Restore odstraněné buňky poznámkového bloku
5. května 2020: Verze 3.19
Můžete nyní restore odstraněné buňky buď pomocí klávesové zkratky (Z
), nebo výběrem možnosti Upravit > Zpět Odstranit buňky.
Fronta čekajících úloh limit
5. května 2020: Verze 3.19
Pracovní prostor je teď omezený na 1 000 aktivních (spuštěných a čekajících) spuštění úloh. Vzhledem k tomu, že pracovní prostor je omezený na 150 souběžných (spuštěných) spuštění, může mít pracovní prostor v čekající frontě až 850 spuštění.