Maj 2020
Te funkcje i ulepszenia platformy Azure Databricks zostały wydane w maju 2020 r.
Uwaga
Wydania są etapowe. Twoje konto usługi Azure Databricks może nie zostać zaktualizowane do tygodnia po początkowej dacie wydania.
Maszyny wirtualne z serii Easv4 (wersja beta)
29 maja 2020 r.
Usługa Azure Databricks zapewnia teraz obsługę wersji beta dla maszyn wirtualnych serii Easv4, które korzystają z dysków SSD w warstwie Premium i mogą osiągnąć maksymalną częstotliwość 3,35 GHz. Te typy wystąpień mogą zoptymalizować wydajność obciążenia dla aplikacji korporacyjnych intensywnie korzystających z pamięci.
Databricks Runtime 6.6 dla usługi Genomics (ogólna dostępność)
26 maja 2020 r.
Środowisko Databricks Runtime 6.6 dla usługi Genomics jest oparte na środowisku Databricks Runtime 6.6 i obejmuje następujące nowe funkcje:
- Czytnik GFF3
- Obsługa niestandardowego genomu referencyjnego
- Limity czasu potoku dla próbki
- Opcja eksportu BAM
- Obiekty blob manifestu
Databricks Runtime 6.6 ML (ogólna dostępność)
26 maja 2020 r.
Środowisko Databricks Runtime 6.6 ML jest oparte na środowisku Databricks Runtime 6.6 i obejmuje następujące nowe funkcje:
- Uaktualniony przepływ mlflow: od 1.7.0 do 1.8.0
Aby uzyskać więcej informacji, zobacz pełne informacje o wersji środowiska Databricks Runtime 6.6 ML (EoS).
Databricks Runtime 6.6 (ogólna dostępność)
26 maja 2020 r.
Środowisko Databricks Runtime 6.6 oferuje wiele uaktualnień bibliotek i nowych funkcji, w tym następujące funkcje usługi Delta Lake:
- Teraz możesz automatycznie rozwijać schemat tabeli przy użyciu operacji
merge
. Jest to przydatne w scenariuszach, w których chcesz wstawiać lub aktualizować zmienione dane w tabeli, a schemat danych zmienia się z czasem. Zamiast wykrywać i stosować zmiany schematu przed dodaniem lub aktualizacją,merge
może jednocześnie dostosowywać schemat i wprowadzać zmiany. Zobacz Automatyczna ewolucja schematu dla scalania w Delta Lake. - Wydajność operacji scalania, które mają tylko dopasowane klauzule, czyli tylko te, które mają tylko
update
akcje idelete
żadneinsert
akcje, została ulepszona. - Tabele Parquet, do których odnosi się metastore Hive, można teraz konwertować na Delta Lake za pomocą ich identyfikatorów tabel przy użyciu
CONVERT TO DELTA
.
Aby uzyskać więcej informacji, zobacz pełne informacje o wersji środowiska Databricks Runtime 6.6 (EoS).
Limit rozmiaru punktu końcowego usuwania API REST DBFS
21–28 maja 2020 r.: Wersja 3.20
Po ponownym usunięciu dużej liczby plików przy użyciu interfejsu API systemu plików DBFS operacja usuwania jest wykonywana w przyrostach. Wywołanie zwraca odpowiedź po około 45s z komunikatem o błędzie z prośbą o ponowne wywołanie operacji usuwania, dopóki struktura katalogu nie zostanie w pełni usunięta. Na przykład:
{
"error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}
Łatwe wyświetlanie dużej liczby zarejestrowanych modeli MLflow
21–28 maja 2020 r.: Wersja 3.20
Rejestr modeli MLflow obsługuje teraz wyszukiwanie po stronie serwera i stronicowanie zarejestrowanych modeli, co umożliwia organizacjom z dużą liczbą modeli wydajne wykonywanie list i wyszukiwania. Tak jak poprzednio, można wyszukiwać modele według nazwy i pobierać wyniki uporządkowane według nazwy lub czasu ostatniej aktualizacji. Jeśli jednak masz dużą liczbę modeli, strony będą ładowane znacznie szybciej, a wyszukiwanie pobierze najbardziej aktualny widok modeli.
Biblioteki skonfigurowane do zainstalowania we wszystkich klastrach nie są instalowane w klastrach ze środowiskami Databricks Runtime 7.0 i nowszymi
21–28 maja 2020 r.: Wersja 3.20
W środowisku Databricks Runtime 7.0 lub nowszym podstawowa wersja platformy Apache Spark używa języka Scala 2.12. Ponieważ biblioteki skompilowane w środowisku Scala 2.11 mogą wyłączyć klastry Środowiska Databricks Runtime 7.0 w nieoczekiwany sposób, klastry z uruchomionym środowiskiem Databricks Runtime 7.0 lub nowszym nie instalują bibliotek skonfigurowanych do zainstalowania we wszystkich klastrach. Karta Biblioteki klastra
Jeśli masz klaster, który został utworzony we wcześniejszej wersji środowiska Databricks Runtime przed wydaniem wersji 3.20 do obszaru roboczego, a teraz edytujesz ten klaster w celu używania środowiska Databricks Runtime 7.0, wszystkie biblioteki skonfigurowane do zainstalowania we wszystkich klastrach zostaną zainstalowane w tym klastrze. W takim przypadku wszystkie niezgodne elementy JAR w zainstalowanych bibliotekach mogą spowodować wyłączenie klastra. Obejściem jest sklonowanie klastra lub utworzenie nowego klastra.
Databricks Runtime 7.0 dla usługi Genomics (wersja beta)
21 maja 2020 r.
Środowisko Databricks Runtime 7.0 dla usługi Genomics jest oparte na środowisku Databricks Runtime 7.0 i zawiera następujące zmiany biblioteki:
- Biblioteka ADAM została zaktualizowana z wersji 0.30.0 do 0.32.0.
- Biblioteka Hail nie jest uwzględniona w środowisku Databricks Runtime 7.0 dla usługi Genomics, ponieważ nie ma wersji opartej na platformie Apache Spark 3.0.
Databricks Runtime 7.0 ML (wersja beta)
21 maja 2020 r.
Środowisko Databricks Runtime 7.0 ML jest oparte na środowisku Databricks Runtime 7.0 i obejmuje następujące nowe funkcje:
- Biblioteki języka Python w zakresie notesu i środowiska niestandardowe zarządzane przez polecenia conda i.
- Aktualizacje głównych pakietów języka Python, w tym tensorflow, tensorboard, pytorch, xgboost, sparkdl i hyperopt.
- Nowo dodane pakiety języka Python lightgbm, nltk, petastorm i plotly.
- RStudio Server Open Source v1.2.
Aby uzyskać więcej informacji, zobacz pełne informacje o wersji środowiska Databricks Runtime 7.0 ML (EoS).
Databricks Runtime 6.6 dla usługi Genomics (wersja beta)
7 maja 2020 r.
Środowisko Databricks Runtime 6.6 dla usługi Genomics jest oparte na środowisku Databricks Runtime 6.6 i obejmuje następujące nowe funkcje:
- Czytnik GFF3
- Obsługa niestandardowego genomu referencyjnego
- Limity czasu potoku dla próbki
- Opcja eksportu BAM
- Obiekty blob manifestu
Databricks Runtime 6.6 ML (wersja beta)
7 maja 2020 r.
Środowisko Databricks Runtime 6.6 ML jest oparte na środowisku Databricks Runtime 6.6 i obejmuje następujące nowe funkcje:
- Uaktualniony przepływ mlflow: od 1.7.0 do 1.8.0
Aby uzyskać więcej informacji, zobacz pełne informacje o wersji środowiska Databricks Runtime 6.6 ML (EoS).
Databricks Runtime 6.6 (wersja beta)
7 maja 2020 r.
Środowisko Databricks Runtime 6.6 (beta) oferuje wiele uaktualnień bibliotek i nowych funkcji, w tym następujące funkcje usługi Delta Lake:
- Teraz możesz automatycznie rozwijać schemat tabeli przy użyciu operacji
merge
. Jest to przydatne w scenariuszach, w których chcesz wstawiać lub aktualizować zmienione dane w tabeli, a schemat danych zmienia się z czasem. Zamiast wykrywać i stosować zmiany schematu przed dodaniem lub aktualizacją,merge
może jednocześnie dostosowywać schemat i wprowadzać zmiany. Zobacz Automatyczna ewolucja schematu dla scalania w Delta Lake. - Wydajność operacji scalania, które mają tylko dopasowane klauzule, czyli tylko te, które mają tylko
update
akcje idelete
żadneinsert
akcje, została ulepszona. - Tabele Parquet, do których odnosi się metastore Hive, można teraz konwertować na Delta Lake za pomocą ich identyfikatorów tabel przy użyciu
CONVERT TO DELTA
.
Aby uzyskać więcej informacji, zobacz pełne informacje o wersji środowiska Databricks Runtime 6.6 (EoS).
Klastry zadań są teraz oznaczane identyfikatorem i nazwą zadania
5-12 maja 2020 r.: Wersja 3.19
Klastry zadań są automatycznie oznaczane nazwą i identyfikatorem zadania. Tagi są wyświetlane w raportach dotyczących rozliczanego użycia, dzięki czemu można łatwo przypisywać użycie jednostek DBU według zadania i identyfikować anomalie. Tagi są oczyszczone ze specyfikacji tagów klastra, takie jak dozwolone znaki, maksymalny rozmiar i maksymalna liczba tagów. Nazwa zadania jest zawarta w tagu RunName
, a identyfikator zadania jest zawarty w tagu JobId
.
Przywracanie usuniętych komórek notesu
5-12 maja 2020 r.: Wersja 3.19
Teraz można przywrócić usunięte komórki przy użyciu skrótu klawiaturowego (Z
) lub wybierając pozycję Edytuj > Cofnij usuń komórki.
Limit kolejki oczekujących zadań
5-12 maja 2020 r.: Wersja 3.19
Obszar roboczy jest teraz ograniczony do 1000 aktywnych (uruchomionych i oczekujących) uruchomień zadań. Ponieważ obszar roboczy jest ograniczony do 150 współbieżnych (uruchomionych) uruchomień, obszar roboczy może mieć maksymalnie 850 uruchomień w oczekującej kolejce.