Databricks Runtime 7.0 (EoS)
Uwaga
Obsługa tej wersji środowiska Databricks Runtime została zakończona. Aby uzyskać datę zakończenia pomocy technicznej, zobacz Historia zakończenia pomocy technicznej. Wszystkie obsługiwane wersje środowiska Databricks Runtime można znaleźć w temacie Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime).
Usługa Databricks wydała tę wersję w czerwcu 2020 r.
Poniższe informacje o wersji zawierają informacje o środowisku Databricks Runtime 7.0 obsługiwanym przez platformę Apache Spark 3.0.
Nowe funkcje
Środowisko Databricks Runtime 7.0 zawiera następujące nowe funkcje:
Scala 2.12
Środowisko Databricks Runtime 7.0 uaktualnia język Scala z wersji 2.11.12 do 2.12.10. Lista zmian między wersją Scala 2.12 i 2.11 znajduje się w informacjach o wersji Scala 2.12.0.
Automatyczne ładowanie (publiczna wersja zapoznawcza) wydane w środowisku Databricks Runtime 6.4 zostało ulepszone w środowisku Databricks Runtime 7.0
Automatyczne ładowanie zapewnia wydajniejszy sposób przetwarzania nowych plików danych przyrostowo podczas procesu ETL w magazynie obiektów blob w chmurze. Jest to poprawa przesyłania strumieniowego ze strukturą opartą na plikach, która identyfikuje nowe pliki, wielokrotnie wyświetlając katalog w chmurze i śledząc pliki, które zostały zaobserwowane, i może być bardzo nieefektywna w miarę wzrostu katalogu. Automatyczne ładowanie jest również wygodniejsze i skuteczne niż przesyłanie strumieniowe ze strukturą opartą na powiadomieniach plików, co wymaga ręcznego skonfigurowania usług powiadomień o plikach w chmurze i nie pozwala na wypełnianie istniejących plików. Aby uzyskać szczegółowe informacje, zobacz Co to jest automatyczne ładowanie?.
W środowisku Databricks Runtime 7.0 nie trzeba już żądać niestandardowego obrazu środowiska Databricks Runtime w celu korzystania z modułu automatycznego ładującego.
COPY INTO
(Publiczna wersja zapoznawcza), która umożliwia ładowanie danych do usługi Delta Lake przy użyciu ponownych prób idempotentnych, została ulepszona w środowisku Databricks Runtime 7.0Wydane jako publiczna wersja zapoznawcza w środowisku Databricks Runtime 6.4 polecenie
COPY INTO
SQL umożliwia ładowanie danych do usługi Delta Lake przy użyciu ponownych prób idempotentnych. Aby załadować dane do usługi Delta Lake dzisiaj, musisz użyć interfejsów API ramki danych platformy Apache Spark. Jeśli podczas ładowania występują błędy, należy je skutecznie obsługiwać. NoweCOPY INTO
polecenie udostępnia znany interfejs deklaratywny do ładowania danych w języku SQL. Polecenie śledzi wcześniej załadowane pliki i bezpiecznie uruchamia je ponownie w przypadku awarii. Aby uzyskać szczegółowe informacje, zobacz KOPIOWANIE DO.
Ulepszenia
Łącznik usługi Azure Synapse (dawniej SQL Data Warehouse) obsługuje instrukcję
COPY
.Główną zaletą
COPY
jest to, że użytkownicy z niższymi uprawnieniami mogą zapisywać dane w usłudze Azure Synapse bez konieczności posiadania rygorystycznychCONTROL
uprawnień w usłudze Azure Synapse.Polecenie
%matplotlib inline
magic nie jest już wymagane do wyświetlania obiektów Matplolib wbudowanych w komórkach notesu. Są one zawsze wyświetlane w tekście domyślnie.Liczby biblioteki Matplolib są teraz renderowane za pomocą
transparent=False
elementu , dzięki czemu tła określone przez użytkownika nie zostaną utracone. To zachowanie można zastąpić, ustawiając konfiguracjęspark.databricks.workspace.matplotlib.transparent true
platformy Spark.W przypadku uruchamiania zadań produkcyjnych przesyłania strumieniowego ze strukturą w klastrach trybu współbieżności ponowne uruchomienie zadania czasami kończy się niepowodzeniem, ponieważ wcześniej uruchomione zadanie nie zostało prawidłowo zakończone. Środowisko Databricks Runtime 6.3 wprowadziło możliwość ustawienia konfiguracji
spark.sql.streaming.stopActiveRunOnRestart true
SQL w klastrze, aby upewnić się, że poprzedni przebieg zostanie zatrzymany. Ta konfiguracja jest domyślnie ustawiana w środowisku Databricks Runtime 7.0.
Główne zmiany w bibliotece
Pakiety języka Python
Uaktualniono główne pakiety języka Python:
- boto3 1.9.162 -> 1.12.0
- matplotlib 3.0.3 —> 3.1.3
- numpy 1.16.2 —> 1.18.1
- pandas 0.24.2 —> 1.0.1
- 19.0.3 -> 20.0.2
- pyarrow 0.13.0 -> 0.15.1
- psycopg2 2.7.6 -> 2.8.4
- scikit-learn 0.20.3 —> 0.22.1
- scipy 1.2.1 -> 1.4.1
- seaborn 0.9.0 -> 0.10.0
Usunięte pakiety języka Python:
- boto (użyj boto3)
- pycurl
Uwaga
Środowisko języka Python w środowisku Databricks Runtime 7.0 korzysta z języka Python 3.7, który różni się od zainstalowanego systemu Ubuntu Python: /usr/bin/python
i /usr/bin/python2
jest połączony z językiem Python 2.7 i /usr/bin/python3
jest połączony z językiem Python 3.6.
Pakiety języka R
Dodano pakiety języka R:
- miotła
- wysoki
- isoband
- knitr
- Markdown
- modeler
- reprex
- rmarkdown
- rvest
- selektor
- tidyverse
- tinytex
- xfun
Usunięte pakiety języka R:
- abind
- bitops
- samochód
- carData
- DoMC
- Gbm
- h2o
- littler
- lme4
- mapproj
- Mapy
- maptools
- MatrixModels
- minqa
- mvtnorm
- nloptr
- openxlsxx
- pbkrtest
- pkgKitten
- quantreg
- R.methodsS3
- R.oo
- R.utils
- RcppEigen
- RCurl
- Rio
- Sp
- Rozrzednia
- statmod
- zamek
Biblioteki Java i Scala
- Wersja programu Apache Hive używana do obsługi funkcji zdefiniowanych przez użytkownika programu Hive i uaktualnianych do wersji 2.3 programu Hive SerDes.
- Wcześniej pliki jar usługi Azure Storage i Key Vault zostały spakowane w ramach środowiska Databricks Runtime, co uniemożliwia korzystanie z różnych wersji tych bibliotek dołączonych do klastrów. Klasy w obszarze
com.microsoft.azure.storage
icom.microsoft.azure.keyvault
nie znajdują się już na ścieżce klasy w środowisku Databricks Runtime. Jeśli zależysz od jednej z tych ścieżek klas, musisz teraz dołączyć zestaw SDK usługi Azure Storage lub zestaw SDK usługi Azure Key Vault do klastrów.
Zmiany zachowania
W tej sekcji wymieniono zmiany zachowania środowiska Databricks Runtime 6.6 do środowiska Databricks Runtime 7.0. Należy pamiętać o tych obciążeniach podczas migrowania obciążeń z niższych wersji środowiska Databricks Runtime do środowiska Databricks Runtime 7.0 lub nowszego.
Zmiany zachowania platformy Spark
Ponieważ środowisko Databricks Runtime 7.0 jest pierwszym środowiskiem Databricks Runtime opartym na platformie Spark 3.0, istnieje wiele zmian, o których należy pamiętać podczas migrowania obciążeń z środowiska Databricks Runtime 5.5 LTS lub 6.x, które są tworzone na platformie Spark 2.4. Te zmiany są wymienione w sekcji "Zmiany zachowania" każdego obszaru funkcjonalnego w sekcji Apache Spark tego artykułu z informacjami o wersji:
- Zmiany zachowania w przypadku platformy Spark Core, Spark SQL i przesyłania strumieniowego ze strukturą
- Zmiany zachowania dla biblioteki MLlib
- Zmiany zachowania w usłudze SparkR
Inne zmiany zachowania
Uaktualnienie do wersji Scala 2.12 obejmuje następujące zmiany:
Serializacja komórek pakietu jest obsługiwana inaczej. Poniższy przykład ilustruje zmianę zachowania i sposób jego obsługi.
Uruchomienie zgodnie
foo.bar.MyObjectInPackageCell.run()
z definicją w poniższej komórce pakietu spowoduje wyzwolenie błędujava.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }
Aby obejść ten błąd, można opakowować
MyObjectInPackageCell
wewnątrz klasy możliwej do serializacji.Niektóre przypadki użycia
DataStreamWriter.foreachBatch
będą wymagać aktualizacji kodu źródłowego. Ta zmiana wynika z faktu, że język Scala 2.12 ma automatyczną konwersję z wyrażeń lambda na typy SAM i może powodować niejednoznaczność.Na przykład następujący kod Scala nie może skompilować:
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }
Aby naprawić błąd kompilacji, przejdź
foreachBatch { (df, id) => myFunc(df, id) }
doforeachBatch(myFunc _)
interfejsu API Języka Java lub użyj go jawnie:foreachBatch(new VoidFunction2 ...)
.
Ponieważ wersja apache Hive używana do obsługi funkcji zdefiniowanych przez użytkownika programu Hive i SerDes hive została uaktualniona do wersji 2.3, wymagane są dwie zmiany:
- Interfejs programu Hive
SerDe
jest zastępowany przez klasęAbstractSerDe
abstrakcyjną . W przypadku dowolnej niestandardowej implementacji programu HiveSerDe
migracja doAbstractSerDe
programu jest wymagana. - Ustawienie
spark.sql.hive.metastore.jars
oznaczabuiltin
, że klient magazynu metadanych Hive 2.3 będzie używany do uzyskiwania dostępu do magazynów metadanych dla środowiska Databricks Runtime 7.0. Jeśli chcesz uzyskać dostęp do zewnętrznych magazynów metadanych opartych na technologii Hive 1.2, ustaw naspark.sql.hive.metastore.jars
folder zawierający pliki jar programu Hive 1.2.
- Interfejs programu Hive
Wycofywanie i usuwanie
- Indeks pomijania danych został przestarzały w środowisku Databricks Runtime 4.3 i został usunięty w środowisku Databricks Runtime 7.0. Zalecamy zamiast tego używanie tabel delty, które oferują ulepszone możliwości pomijania danych.
- W środowisku Databricks Runtime 7.0 podstawowa wersja platformy Apache Spark używa języka Scala 2.12. Ponieważ biblioteki skompilowane w środowisku Scala 2.11 mogą wyłączyć klastry Środowiska Databricks Runtime 7.0 w nieoczekiwany sposób, klastry z uruchomionym środowiskiem Databricks Runtime 7.0 lub nowszym nie instalują bibliotek skonfigurowanych do zainstalowania we wszystkich klastrach. Karta Biblioteki klastra zawiera stan
Skipped
i komunikat o wycofaniu, który wyjaśnia zmiany w obsłudze bibliotek. Jeśli jednak masz klaster, który został utworzony we wcześniejszej wersji środowiska Databricks Runtime przed wydaniem platformy usługi Azure Databricks w wersji 3.20 do obszaru roboczego, a teraz edytujesz ten klaster, aby używać środowiska Databricks Runtime 7.0, wszystkie biblioteki skonfigurowane do zainstalowania we wszystkich klastrach zostaną zainstalowane w tym klastrze. W takim przypadku wszystkie niezgodne elementy JAR w zainstalowanych bibliotekach mogą spowodować wyłączenie klastra. Obejściem jest sklonowanie klastra lub utworzenie nowego klastra.
Apache Spark
Środowisko Databricks Runtime 7.0 obejmuje platformę Apache Spark 3.0.
W tej sekcji:
Core, Spark SQL, Przesyłanie strumieniowe ze strukturą
Najważniejsze informacje
- (Projekt wodoru) Harmonogram obsługujący akcelerator (SPARK-24615)
- Wykonywanie zapytań adaptacyjnych (SPARK-31412)
- Oczyszczanie partycji dynamicznej (SPARK-11150)
- Przeprojektowany interfejs API UDF biblioteki pandas z wskazówkami typu (SPARK-28264)
- Interfejs użytkownika przesyłania strumieniowego ze strukturą (SPARK-29543)
- Interfejs API wtyczki wykazu (SPARK-31121)
- Lepsza zgodność ze standardem ANSI SQL
Ulepszenia wydajności
- Wykonywanie zapytań adaptacyjnych (SPARK-31412)
- Podstawowa struktura (SPARK-23128)
- Korekta liczby partycji po mieszania (SPARK-28177)
- Dynamiczne ponowne użycie podzapytania (SPARK-28753)
- Czytnik mieszania lokalnego (SPARK-28560)
- Optymalizacja sprzężenia niesymetrycznego (SPARK-29544)
- Optymalizowanie ciągłych bloków mieszania (SPARK-9853)
- Oczyszczanie partycji dynamicznej (SPARK-11150)
- Inne reguły optymalizatora
- Ponowne użycie regułyPodsubquery (SPARK-27279)
- Rule PushDownLeftSemiAntiJoin (SPARK-19712)
- Reguła PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Rule ReplaceNullWithFalse (SPARK-25860)
- Reguła eliminuje sortowanie bez limitu w podzapytaniu sprzężenia/agregacji (SPARK-29343)
- Rule PruneHiveTablePartitions (SPARK-15616)
- Oczyszczanie niepotrzebnych zagnieżdżonych pól z generowania (SPARK-27707)
- RewriteNonCorrelatedExists (SPARK-29800)
- Minimalizowanie kosztów synchronizacji pamięci podręcznej tabel (SPARK-26917), (SPARK-26617), (SPARK-26548)
- Podziel kod agregacji na małe funkcje (SPARK-21870)
- Dodawanie dzielenia na partie w poleceniach INSERT i ALTER TABLE ADD PARTITION (SPARK-29938)
Ulepszenia rozszerzalności
- Interfejs API wtyczki wykazu (SPARK-31121)
- Refaktoryzacja interfejsu API źródła danych w wersji 2 (SPARK-25390)
- Obsługa magazynu metadanych Hive 3.0 i 3.1 (SPARK-27970),(SPARK-24360)
- Rozszerzanie interfejsu wtyczki Spark na sterownik (SPARK-29396)
- Rozszerzanie systemu metryk platformy Spark przy użyciu metryk zdefiniowanych przez użytkownika przy użyciu wtyczek funkcji wykonawczej (SPARK-28091)
- Interfejsy API dla deweloperów na potrzeby rozszerzonej obsługi przetwarzania kolumnowego (SPARK-27396)
- Wbudowana migracja źródła przy użyciu wersji DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
- Allow FunctionInjection in SparkExtensions (SPARK-25560)
- Umożliwia zarejestrowanie agregatora jako UDAF (SPARK-27296)
Ulepszenia łącznika
- Oczyszczanie kolumn za pomocą wyrażeń nieokreślonych (SPARK-29768)
- Obsługa
spark.sql.statistics.fallBackToHdfs
tabel źródeł danych (SPARK-25474) - Zezwalaj na oczyszczanie partycji za pomocą filtrów podzapytania w źródle plików (SPARK-26893)
- Unikaj wypychania podzapytań w filtrach źródła danych (SPARK-25482)
- Cykliczne ładowanie danych ze źródeł plików (SPARK-27990)
- Parquet/ORC
- Wypychanie predykatów rozłącznych (SPARK-27699)
- Uogólnij zagnieżdżone oczyszczanie kolumn (SPARK-25603) i domyślnie włączone (SPARK-29805)
- Tylko Parquet
- Wypychanie predykatu Parquet dla zagnieżdżonych pól (SPARK-17636)
- Tylko ORC
- Obsługa schematu scalania dla ORC (SPARK-11412)
- Zagnieżdżone oczyszczanie schematu dla ORC (SPARK-27034)
- Zmniejszenie złożoności konwersji predykatu dla ORC (SPARK-27105, SPARK-28108)
- Uaktualnianie usługi Apache ORC do wersji 1.5.9 (SPARK-30695)
- CSV
- Obsługa wypychania filtrów w źródle danych CSV (SPARK-30323)
- Hive SerDe
- Brak wnioskowania schematu podczas odczytywania tabeli serde programu Hive z natywnym źródłem danych (SPARK-27119)
- Polecenia CTAS programu Hive powinny używać źródła danych, jeśli jest konwertowany (SPARK-25271)
- Użyj natywnego źródła danych, aby zoptymalizować wstawianie partycjonowanej tabeli Programu Hive (SPARK-28573)
- Apache Kafka
- Dodano obsługę nagłówków platformy Kafka (SPARK-23539)
- Dodawanie obsługi tokenu delegowania platformy Kafka (SPARK-25501)
- Wprowadzenie nowej opcji do źródła platformy Kafka: przesunięcie według znacznika czasu (rozpoczęcie/zakończenie) (SPARK-26848)
- Obsługa
minPartitions
opcji źródła wsadowego platformy Kafka i źródła przesyłania strumieniowego w wersji 1 (SPARK-30656) - Uaktualnianie platformy Kafka do wersji 2.4.1 (SPARK-31126)
- Nowe wbudowane źródła danych
- Nowe wbudowane źródła danych plików binarnych (SPARK-25348)
- Nowe źródła danych bez operacji wsadowych (SPARK-26550) i ujście przesyłania strumieniowego bez operacji (SPARK-26649)
Ulepszenia funkcji
- [Wodór] Harmonogram obsługujący akcelerator (SPARK-24615)
- Wprowadzenie pełnego zestawu wskazówek sprzężenia (SPARK-27225)
- Dodawanie
PARTITION BY
wskazówki dotyczącej zapytań SQL (SPARK-28746) - Obsługa metadanych na serwerze Thrift (SPARK-28426)
- Dodawanie funkcji wyższego zamówienia do interfejsu API scala (SPARK-27297)
- Obsługa prostego zbierania wszystkich w kontekście zadania bariery (SPARK-30667)
- Funkcje zdefiniowane przez użytkownika programu Hive obsługują typ UDT (SPARK-28158)
- Obsługa operatorów DELETE/UPDATE/MERGE w Katalizatorze (SPARK-28351, SPARK-28892, SPARK-28893)
- Implementowanie elementu DataFrame.tail (SPARK-30185)
- Nowe wbudowane funkcje
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- any, every, some (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- wersja (SPARK-29554)
- xxhash64 (SPARK-27099)
- Ulepszenia istniejących wbudowanych funkcji
- Wbudowane funkcje/ulepszenia operacji daty/godziny (SPARK-31415)
- Tryb obsługi
FAILFAST
dlafrom_json
(SPARK-25243) array_sort
dodaje nowy parametr komparatora (SPARK-29020)- Filtr może teraz przyjmować indeks jako dane wejściowe, a także element (SPARK-28962)
Ulepszenia zgodności sql
- Przełącz się do kalendarza proleptycznego gregoriańskiego (SPARK-26651)
- Tworzenie własnej definicji wzorca daty/godziny platformy Spark (SPARK-31408)
- Wprowadzenie zasad przypisania magazynu ANSI dla wstawiania tabeli (SPARK-28495)
- Domyślnie postępuj zgodnie z regułą przypisania magazynu ANSI w wstawianiu tabeli (SPARK-28885)
- Dodawanie kodu SQLConf
spark.sql.ansi.enabled
(SPARK-28989) - Obsługa klauzuli filtru ANSI SQL dla wyrażenia agregowanego (SPARK-27986)
- Obsługa funkcji ANSI SQL
OVERLAY
(SPARK-28077) - Obsługa zagnieżdżonych komentarzy w nawiasach ANSI (SPARK-28880)
- Zgłaszanie wyjątku w przepełnieniu dla liczb całkowitych (SPARK-26218)
- Sprawdzanie przepełnienia pod kątem operacji arytmetycznych interwału (SPARK-30341)
- Zgłaszanie wyjątku w przypadku rzutowania nieprawidłowego ciągu na typ liczbowy (SPARK-30292)
- Pomnożyj interwał i podziel zachowanie przepełnienia zgodnie z innymi operacjami (SPARK-30919)
- Dodawanie aliasów typu ANSI dla znaków i dziesiętnych (SPARK-29941)
- Analizator SQL definiuje zastrzeżone słowa kluczowe zgodne ze standardem ANSI (SPARK-26215)
- Zabraniaj zastrzeżonych słów kluczowych jako identyfikatorów, gdy tryb ANSI jest włączony (SPARK-26976)
- Obsługa składni ANSI SQL
LIKE ... ESCAPE
(SPARK-28083) - Obsługa składni ansi SQL Boolean-Predykate (SPARK-27924)
- Lepsza obsługa skorelowanego przetwarzania podzapytania (SPARK-18455)
Ulepszenia monitorowania i debugowania
- Nowy interfejs użytkownika przesyłania strumieniowego ze strukturą (SPARK-29543)
- SHS: zezwalaj na przerzucanie dzienników zdarzeń na potrzeby uruchamiania aplikacji przesyłania strumieniowego (SPARK-28594)
- Dodawanie interfejsu API, który umożliwia użytkownikowi definiowanie i obserwowanie dowolnych metryk w zapytaniach wsadowych i przesyłanych strumieniowo (SPARK-29345)
- Instrumentacja do śledzenia czasu planowania poszczególnych zapytań (SPARK-26129)
- Umieść podstawowe metryki mieszania w operatorze programu SQL Exchange (SPARK-26139)
- Instrukcja SQL jest wyświetlana na karcie SQL zamiast wywołania (SPARK-27045)
- Dodawanie etykietki narzędzia do interfejsu SparkUI (SPARK-29449)
- Zwiększanie współbieżnej wydajności serwera historii (SPARK-29043)
EXPLAIN FORMATTED
polecenie (SPARK-27395)- Obsługa dumpingu planów obcięte i wygenerowanego kodu do pliku (SPARK-26023)
- Ulepszanie struktury opisywania w celu opisania danych wyjściowych zapytania (SPARK-26982)
- Dodaj
SHOW VIEWS
polecenie (SPARK-31113) - Ulepszanie komunikatów o błędach analizatora SQL (SPARK-27901)
- Natywna obsługa monitorowania rozwiązania Prometheus (SPARK-29429)
Ulepszenia programu PySpark
- Przeprojektowano funkcje zdefiniowane przez użytkownika biblioteki pandas z wskazówkami typu (SPARK-28264)
- Potok UDF biblioteki Pandas (SPARK-26412)
- Obsługa klasy StructType jako argumentów i zwracanych typów dla funkcji UDF biblioteki Scalar Pandas (SPARK-27240 )
- Obsługa współgrupy ramek danych za pośrednictwem zdefiniowanych przez użytkownika biblioteki Pandas (SPARK-27463)
- Dodaj
mapInPandas
, aby zezwolić na iterator ramek danych (SPARK-28198) - Niektóre funkcje SQL powinny również przyjmować nazwy kolumn (SPARK-26979)
- Zwiększenie liczby wyjątków SQL PySpark (SPARK-31849)
Ulepszenia dokumentacji i pokrycia testów
- Tworzenie odwołania SQL (SPARK-28588)
- Tworzenie podręcznika użytkownika dla interfejsu WebUI (SPARK-28372)
- Tworzenie strony dokumentacji konfiguracji SQL (SPARK-30510)
- Dodawanie informacji o wersji dla konfiguracji platformy Spark (SPARK-30839)
- Testy regresji portów z bazy danych PostgreSQL (SPARK-27763)
- Pokrycie testowe thrift-server (SPARK-28608)
- Testowanie pokrycia zdefiniowanych przez użytkownika (UDF języka Python, funkcji UDF biblioteki pandas, scala UDF) (SPARK-27921)
Inne istotne zmiany
- Wbudowane uaktualnienie wykonywania programu Hive z wersji 1.2.1 do 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
- Domyślnie używaj zależności apache Hive 2.3 (SPARK-30034)
- GA Scala 2.12 i usuń 2.11 (SPARK-26132)
- Ulepszanie logiki dla funkcji wykonawczych limitu czasu w alokacji dynamicznej (SPARK-20286)
- Utrwalone na dysku bloki RDD obsługiwane przez usługę mieszania i ignorowane dla alokacji dynamicznej (SPARK-27677)
- Uzyskiwanie nowych funkcji wykonawczych w celu uniknięcia zawieszenia z powodu blokowania listy (SPARK-22148)
- Zezwalaj na udostępnianie alokatorów puli pamięci Netty (SPARK-24920)
- Naprawa zakleszczenia między elementami
TaskMemoryManager
iUnsafeExternalSorter$SpillableIterator
(SPARK-27338) - Wprowadzenie
AdmissionControl
do interfejsów API dla funkcji StructuredStreaming (SPARK-30669) - Zwiększenie wydajności strony głównej historii platformy Spark (SPARK-25973)
- Przyspieszanie i obniżanie agregacji metryk w odbiorniku SQL (SPARK-29562)
- Unikaj sieci, gdy bloki mieszania są pobierane z tego samego hosta (SPARK-27651)
- Ulepszanie listy plików (
DistributedFileSystem
SPARK-27801)
Zmiany zachowania w przypadku platformy Spark Core, Spark SQL i przesyłania strumieniowego ze strukturą
Poniższe przewodniki migracji zawierają listę zmian zachowania między platformą Apache Spark 2.4 i 3.0. Te zmiany mogą wymagać aktualizacji zadań, które były uruchomione w niższych wersjach środowiska Databricks Runtime:
- Przewodnik migracji: Spark Core
- Przewodnik migracji: SQL, zestawy danych i ramka danych
- Przewodnik migracji: przesyłanie strumieniowe ze strukturą
- Przewodnik migracji: PySpark (Python na platformie Spark)
Następujące zmiany zachowania nie zostały omówione w tych przewodnikach migracji:
- W usłudze Spark 3.0 przestarzała klasa
org.apache.spark.sql.streaming.ProcessingTime
została usunięta. Użycie w zamian parametruorg.apache.spark.sql.streaming.Trigger.ProcessingTime
. Podobnie,org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger
został usunięty na rzeczTrigger.Continuous
, iorg.apache.spark.sql.execution.streaming.OneTimeTrigger
został ukryty na rzeczTrigger.Once
. (SPARK-28199) - W środowisku Databricks Runtime 7.0 podczas odczytywania tabeli Hive SerDe domyślnie platforma Spark nie zezwala na odczytywanie plików w podkatalogu, który nie jest partycją tabeli. Aby ją włączyć, ustaw konfigurację
spark.databricks.io.hive.scanNonpartitionedDirectory.enabled
jakotrue
. Nie ma to wpływu na natywne czytniki tabel i czytniki plików platformy Spark.
MLlib
Najważniejsze informacje
- Dodano obsługę wielu kolumn do narzędzia Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) i PySpark QuantileDiscretizer (SPARK-22796)
- Obsługa transformacji funkcji opartej na drzewie (SPARK-13677)
- Dodano dwóch nowych ewaluatorów MultilabelClassificationEvaluator (SPARK-16692) i RankingEvaluator (SPARK-28045)
- Dodano obsługę wag próbek w module DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-9612) 24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) i GaussianMixture (SPARK-30102)
- Dodano interfejs API języka R dla klasy PowerIterationClustering (SPARK-19827)
- Dodano odbiornik Spark ML do śledzenia stanu potoku uczenia maszynowego (SPARK-23674)
- Dopasuj zestaw weryfikacji został dodany do gradientu Wzmocnione drzewa w języku Python (SPARK-24333)
- Dodano transformator RobustScaler (SPARK-28399)
- Dodano klasyfikator i regresję maszyn factorization (SPARK-29224)
- Gaussian Naive Bayes (SPARK-16872) i Add Naive Bayes (SPARK-29942) zostały dodane
- Parzystość funkcji uczenia maszynowego między językami Scala i Python (SPARK-28958)
- predictRaw jest upubliczniony we wszystkich modelach klasyfikacji. funkcja predictProbability jest publicznie udostępniana we wszystkich modelach klasyfikacji z wyjątkiem LinearSVCModel (SPARK-30358)
Zmiany zachowania dla biblioteki MLlib
W poniższym przewodniku migracji wymieniono zmiany zachowania między platformą Apache Spark 2.4 i 3.0. Te zmiany mogą wymagać aktualizacji zadań, które były uruchomione w niższych wersjach środowiska Databricks Runtime:
Następujące zmiany zachowania nie zostały omówione w przewodniku migracji:
- Na platformie Spark 3.0 regresja logistyczna w Pyspark zwróci teraz (poprawnie) wartość
LogisticRegressionSummary
, a nie podklasęBinaryLogisticRegressionSummary
. Dodatkowe metody uwidocznione przezBinaryLogisticRegressionSummary
program nie będą działać w tym przypadku. (SPARK-31681) - W przypadku platformy Spark 3.0
pyspark.ml.param.shared.Has*
kombinacje nie zapewniają już żadnychset*(self, value)
metod ustawiania, należy użyć odpowiednichself.set(self.*, value)
metod. Aby uzyskać szczegółowe informacje, zobacz SPARK-29093. (SPARK-29093)
SparkR
- Optymalizacja strzałek w współdziałaniu platformy SparkR (SPARK-26759)
- Ulepszenia wydajności za pomocą wektoryzowanego języka R gapply(), dapply(), createDataFrame, collect()
- "Chętne wykonywanie" dla powłoki języka R, IDE (SPARK-24572)
- R API for Power Iteration Clustering (SPARK-19827)
Zmiany zachowania w usłudze SparkR
W poniższym przewodniku migracji wymieniono zmiany zachowania między platformą Apache Spark 2.4 i 3.0. Te zmiany mogą wymagać aktualizacji zadań, które były uruchomione w niższych wersjach środowiska Databricks Runtime:
Przestarzałe elementy
- Przestarzała obsługa języka Python 2 (SPARK-27884)
- Wycofaj obsługę języka R < 3.4 (SPARK-26014)
Znane problemy
- Analizowanie dnia roku przy użyciu litery wzorca "D" zwraca nieprawidłowy wynik, jeśli brakuje pola roku. Może się to zdarzyć w funkcjach SQL, takich jak
to_timestamp
analizowanie ciągu daty/godziny na wartości daty/godziny przy użyciu ciągu wzorca. (SPARK-31939) - Sprzężenie/okno/agregacja wewnątrz podzapytania może prowadzić do nieprawidłowych wyników, jeśli klucze mają wartości -0.0 i 0.0. (SPARK-31958)
- Zapytanie okna może zakończyć się niepowodzeniem z niejednoznacznym błędem samosprzężenia nieoczekiwanie. (SPARK-31956)
- Zapytania przesyłane strumieniowo za pomocą
dropDuplicates
operatora mogą nie być możliwe do ponownego uruchomienia przy użyciu punktu kontrolnego napisanego przez platformę Spark 2.x. (SPARK-31990)
Aktualizacje konserwacyjne
Zobacz Aktualizacje konserwacji środowiska Databricks Runtime 7.0.
Środowisko systemu
- System operacyjny: Ubuntu 18.04.4 LTS
- Java: 1.8.0_252
- Scala: 2.12.10
- Python: 3.7.5
- R: R w wersji 3.6.3 (2020-02-29)
- Delta Lake 0.7.0
Zainstalowane biblioteki języka Python
Biblioteka | Wersja | Biblioteka | Wersja | Biblioteka | Wersja |
---|---|---|---|---|---|
asn1crypto | 1.3.0 | backcall | 0.1.0 | boto3 | 1.12.0 |
botocore | 1.15.0 | certifi | 2020.4.5 | cffi | 1.14.0 |
chardet | 3.0.4 | kryptografia | 2.8 | rowerzysta | 0.10.0 |
Cython | 0.29.15 | dekorator | 4.4.1 | docutils | 0.15.2 |
punkty wejścia | 0.3 | idna | 2.8 | ipykernel | 5.1.4 |
ipython | 7.12.0 | ipython-genutils | 0.2.0 | jedi | 0.14.1 |
jmespath | 0.9.4 | joblib | 0.14.1 | jupyter-client | 5.3.4 |
jupyter-core | 4.6.1 | kiwisolver | 1.1.0 | matplotlib | 3.1.3 |
numpy | 1.18.1 | Pandas | 1.0.1 | parso | 0.5.2 |
Patsy | 0.5.1 | pexpect | 4.8.0 | pickleshare | 0.7.5 |
20.0.2 | prompt-toolkit | 3.0.3 | psycopg2 | 2.8.4 | |
ptyprocess | 0.6.0 | pyarrow | 0.15.1 | pycparser | 2.19 |
Pygments | 2.5.2 | PyGObject | 3.26.1 | pyOpenSSL | 19.1.0 |
pyparsing | 2.4.6 | PySocks | 1.7.1 | python-apt | 1.6.5+ubuntu0.3 |
python-dateutil | 2.8.1 | pytz | 2019.3 | pyzmq | 18.1.1 |
żądania | 2.22.0 | s3transfer | 0.3.3 | scikit-learn | 0.22.1 |
scipy | 1.4.1 | seaborn | 0.10.0 | setuptools | 45.2.0 |
Sześć | 1.14.0 | ssh-import-id | 5.7 | statsmodels | 0.11.0 |
tornado | 6.0.3 | traitlety | 4.3.3 | nienadzorowane uaktualnienia | 0.1 |
urllib3 | 1.25.8 | virtualenv | 16.7.10 | wcwidth | 0.1.8 |
koło | 0.34.2 |
Zainstalowane biblioteki języka R
Biblioteki języka R są instalowane z migawki usługi Microsoft CRAN w wersji 2020-04-22.
Biblioteka | Wersja | Biblioteka | Wersja | Biblioteka | Wersja |
---|---|---|---|---|---|
askpass | 1.1 | assertthat | 0.2.1 | backports (backports) | 1.1.6 |
base | 3.6.3 | base64enc | 0.1-3 | BH | 1.72.0-3 |
bitowe | 1.1-15.2 | bit64 | 0.9-7 | blob | 1.2.1 |
rozruch | 1.3-25 | warzyć | 1.0-6 | miotła | 0.5.6 |
obiekt wywołujący | 3.4.3 | caret | 6.0-86 | cellranger | 1.1.0 |
chron | 2.3-55 | class | 7.3-17 | cli | 2.0.2 |
clipr | 0.7.0 | cluster | 2.1.0 | codetools | 0.2-16 |
przestrzeń kolorów | 1.4-1 | commonmark | 1,7 | — kompilator | 3.6.3 |
config | 0.3 | covr | 3.5.0 | kredka | 1.3.4 |
Crosstalk | 1.1.0.1 | lok | 4.3 | data.table | 1.12.8 |
usługi Power BI | 3.6.3 | DBI | 1.1.0 | dbplyr | 1.4.3 |
Desc | 1.2.0 | devtools | 2.3.0 | trawić | 0.6.25 |
dplyr | 0.8.5 | DT | 0,13 | wielokropek | 0.3.0 |
evaluate | 0,14 | fani | 0.4.1 | farver | 2.0.3 |
szybka mapa | 1.0.1 | forcats | 0.5.0 | foreach | 1.5.0 |
zagraniczny | 0.8-76 | kuźnia | 0.2.0 | Fs | 1.4.1 |
Generyczne | 0.0.2 | ggplot2 | 3.3.0 | Gh | 1.1.0 |
git2r | 0.26.1 | glmnet | 3.0-2 | globalna | 0.12.5 |
klej | 1.4.0 | Gower | 0.2.1 | grafika | 3.6.3 |
grDevices | 3.6.3 | siatka | 3.6.3 | gridExtra | 2.3 |
gsubfn | 0,7 | gtable | 0.3.0 | przystań | 2.2.0 |
wysoki | 0,8 | Hms | 0.5.3 | htmltools | 0.4.0 |
htmlwidgets | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
hwriter | 1.3.2 | hwriterPlus | 1.0-3 | ini | 0.3.1 |
ipred | 0.9-9 | isoband | 0.2.1 | Iteratory | 1.0.12 |
jsonlite | 1.6.1 | KernSmooth | 2.23-17 | knitr | 1.28 |
Etykietowania | 0.3 | później | 1.0.0 | krata | 0.20-41 |
lawa | 1.6.7 | opóźnienie | 0.2.2 | cykl życia | 0.2.0 |
lubridate | 1.7.8 | magrittr | 1.5 | Markdown | 1.1 |
MASA | 7.3-51.6 | Macierz | 1.2-18 | zapamiętywanie | 1.1.0 |
metody | 3.6.3 | mgcv | 1.8-31 | mim | 0,9 |
Metryki modelu | 1.2.2.2 | modeler | 0.1.6 | munsell | 0.5.0 |
nlme | 3.1-147 | nnet | 7.3-14 | numDeriv | 2016.8-1.1 |
openssl | 1.4.1 | parallel | 3.6.3 | filar | 1.4.3 |
pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
plogr | 0.2.0 | plyr | 1.8.6 | pochwała | 1.0.0 |
prettyunits | 1.1.1 | Proc | 1.16.2 | processx | 3.4.2 |
prodlim | 2019.11.13 | Postęp | 1.2.2 | Obietnice | 1.1.0 |
Proto | 1.0.0 | PS | 1.3.2 | purrr | 0.3.4 |
r2d3 | 0.2.3 | R6 | 2.4.1 | randomForest | 4.6-14 |
rappdirs | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrewer | 1.1-2 |
Rcpp | 1.0.4.6 | readr | 1.3.1 | readxl | 1.3.1 |
przepisy | 0.1.10 | rewanż | 1.0.1 | rewanż2 | 2.1.1 |
Piloty | 2.1.1 | reprex | 0.3.0 | zmień kształt2 | 1.4.4 |
rex | 1.2.0 | rjson | 0.2.20 | rlang | 0.4.5 |
rmarkdown | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
rpart | 4.1-15 | rprojroot | 1.3-2 | Rserve | 1.8-6 |
RSQLite | 2.2.0 | rstudioapi | 0,11 | rversions (rversions) | 2.0.1 |
rvest | 0.3.5 | waga | 1.1.0 | selektor | 0.4-2 |
sessioninfo | 1.1.1 | kształt | 1.4.4 | błyszczący | 1.4.0.2 |
sourcetools | 0.1.7 | sparklyr | 1.2.0 | SparkR | 3.0.0 |
przestrzenny | 7.3-11 | Splajnów | 3.6.3 | sqldf | 0.4-11 |
KWADRAT | 2020.2 | Statystyki | 3.6.3 | stats4 | 3.6.3 |
stringi | 1.4.6 | stringr | 1.4.0 | przetrwanie | 3.1-12 |
sys | 3.3 | tcltk | 3.6.3 | NauczanieDemos | 2.10 |
testthat | 2.3.2 | tibble | 3.0.1 | tidyr | 1.0.2 |
tidyselect | 1.0.0 | tidyverse | 1.3.0 | timeDate | 3043.102 |
tinytex | 0,22 | tools | 3.6.3 | usethis | 1.6.0 |
utf8 | 1.1.4 | narzędzia | 3.6.3 | vctrs | 0.2.4 |
viridisLite | 0.3.0 | wąs | 0,4 | withr | 2.2.0 |
xfun | 0,13 | xml2 | 1.3.1 | xopen | 1.0.0 |
xtable | 1.8-4 | yaml | 2.2.1 |
Zainstalowane biblioteki Java i Scala (wersja klastra Scala 2.12)
Identyfikator grupy | Identyfikator artefaktu | Wersja |
---|---|---|
antlr | antlr | 2.7.7 |
com.amazonaws | amazon-kinesis-client | 1.12.0 |
com.amazonaws | aws-java-sdk-autoscaling | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudfront | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudhsm | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudsearch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
com.amazonaws | aws-java-sdk-codedeploy | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitoidentity | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
com.amazonaws | aws-java-sdk-config | 1.11.655 |
com.amazonaws | aws-java-sdk-core | 1.11.655 |
com.amazonaws | aws-java-sdk-datapipeline | 1.11.655 |
com.amazonaws | aws-java-sdk-directconnect | 1.11.655 |
com.amazonaws | aws-java-sdk-directory | 1.11.655 |
com.amazonaws | aws-java-sdk-dynamodb | 1.11.655 |
com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
com.amazonaws | aws-java-sdk-ecs | 1.11.655 |
com.amazonaws | aws-java-sdk-efs | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticache | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticbeanstalk | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticloadbalancing | 1.11.655 |
com.amazonaws | aws-java-sdk-elastictranscoder | 1.11.655 |
com.amazonaws | aws-java-sdk-emr | 1.11.655 |
com.amazonaws | aws-java-sdk-glacier | 1.11.655 |
com.amazonaws | aws-java-sdk-iam | 1.11.655 |
com.amazonaws | aws-java-sdk-importexport | 1.11.655 |
com.amazonaws | aws-java-sdk-kinesis | 1.11.655 |
com.amazonaws | aws-java-sdk-kms | 1.11.655 |
com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
com.amazonaws | aws-java-sdk-logs | 1.11.655 |
com.amazonaws | aws-java-sdk-machinelearning | 1.11.655 |
com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
com.amazonaws | aws-java-sdk-rds | 1.11.655 |
com.amazonaws | aws-java-sdk-redshift | 1.11.655 |
com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
com.amazonaws | aws-java-sdk-ses | 1.11.655 |
com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
com.amazonaws | aws-java-sdk-sns | 1.11.655 |
com.amazonaws | aws-java-sdk-sqs | 1.11.655 |
com.amazonaws | aws-java-sdk-ssm | 1.11.655 |
com.amazonaws | aws-java-sdk-storagegateway | 1.11.655 |
com.amazonaws | aws-java-sdk-sts | 1.11.655 |
com.amazonaws | aws-java-sdk-support | 1.11.655 |
com.amazonaws | aws-java-sdk-biblioteka-biblioteka | 1.11.22 |
com.amazonaws | aws-java-sdk-workspaces | 1.11.655 |
com.amazonaws | jmespath-java | 1.11.655 |
com.chuusai | shapeless_2.12 | 2.3.3 |
com.clearspring.analytics | strumień | 2.9.6 |
com.databricks | Rserve | 1.8-3 |
com.databricks | jets3t | 0.7.1-0 |
com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
com.databricks.scalapb | scalapb-runtime_2.12 | 0.4.15-10 |
com.esotericsoftware | kryo-cieniowane | 4.0.2 |
com.esotericsoftware | minlog | 1.3.0 |
com.fasterxml | kolega z klasy | 1.3.4 |
com.fasterxml.jackson.core | adnotacje jackson | 2.10.0 |
com.fasterxml.jackson.core | jackson-core | 2.10.0 |
com.fasterxml.jackson.core | jackson-databind | 2.10.0 |
com.fasterxml.jackson.dataformat | jackson-dataformat-cbor | 2.10.0 |
com.fasterxml.jackson.datatype | jackson-datatype-joda | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-paranamer | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-scala_2.12 | 2.10.0 |
com.github.ben-manes.kofeina | kofeina | 2.3.4 |
com.github.fommil | jniloader | 1.1 |
com.github.fommil.netlib | core | 1.1.2 |
com.github.fommil.netlib | native_ref-java | 1.1 |
com.github.fommil.netlib | native_ref-java-natives | 1.1 |
com.github.fommil.netlib | native_system java | 1.1 |
com.github.fommil.netlib | native_system-java-natives | 1.1 |
com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1.1 |
com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1.1 |
com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
com.github.luben | zstd-jni | 1.4.4-3 |
com.github.wendykierp | JTransforms | 3.1 |
com.google.code.findbugs | jsr305 | 3.0.0 |
com.google.code.gson | gson | 2.2.4 |
com.google.flatbuffers | flatbuffers-java | 1.9.0 |
com.google.guava | guawa | 15.0 |
com.google.protobuf | protobuf-java | 2.6.1 |
com.h2database | h2 | 1.4.195 |
com.helger | Profiler | 1.1.1 |
com.jcraft | jsch | 0.1.50 |
com.jolbox | bonecp | 0.8.0.RELEASE |
com.microsoft.azure | azure-data-lake-store-sdk | 2.2.8 |
com.microsoft.sqlserver | mssql-jdbc | 8.2.1.jre8 |
com.ning | compress-lzf | 1.0.3 |
com.sun.mail | javax.mail | 1.5.2 |
com.tdunning | json | 1.8 |
com.thoughtworks.paranamer | paranamer | 2.8 |
com.trueaccord.lenses | lenses_2.12 | 0.4.12 |
com.twitter | chill-java | 0.9.5 |
com.twitter | chill_2.12 | 0.9.5 |
com.twitter | util-app_2.12 | 7.1.0 |
com.twitter | util-core_2.12 | 7.1.0 |
com.twitter | util-function_2.12 | 7.1.0 |
com.twitter | util-jvm_2.12 | 7.1.0 |
com.twitter | util-lint_2.12 | 7.1.0 |
com.twitter | util-registry_2.12 | 7.1.0 |
com.twitter | util-stats_2.12 | 7.1.0 |
com.typesafe | config | 1.2.1 |
com.typesafe.scala-logging | scala-logging_2.12 | 3.7.2 |
com.univocity | parsery jednowołciowości | 2.8.3 |
com.zaxxer | HikariCP | 3.1.0 |
commons-beanutils | commons-beanutils | 1.9.4 |
commons-cli | commons-cli | 1.2 |
commons-codec | commons-codec | 1.10 |
commons-collections | commons-collections | 3.2.2 |
commons-configuration | commons-configuration | 1.6 |
commons-dbcp | commons-dbcp | 1.4 |
commons-digester | commons-digester | 1.8 |
commons-fileupload | commons-fileupload | 1.3.3 |
commons-httpclient | commons-httpclient | 3.1 |
commons-io | commons-io | 2,4 |
commons-lang | commons-lang | 2.6 |
commons-logging | commons-logging | 1.1.3 |
commons-net | commons-net | 3.1 |
commons-pool | commons-pool | 1.5.4 |
info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
io.airlift | aircompressor | 0.10 |
io.dropwizard.metrics | metryki —rdzeń | 4.1.1 |
io.dropwizard.metrics | metrics-graphite | 4.1.1 |
io.dropwizard.metrics | metrics-healthchecks | 4.1.1 |
io.dropwizard.metrics | metrics-jetty9 | 4.1.1 |
io.dropwizard.metrics | metrics-jmx | 4.1.1 |
io.dropwizard.metrics | metrics-json | 4.1.1 |
io.dropwizard.metrics | metrics-jvm | 4.1.1 |
io.dropwizard.metrics | serwlety metrics-servlets | 4.1.1 |
io.netty | netty-all | 4.1.47.Final |
jakarta.adnotacja | jakarta.annotation-api | 1.3.5 |
jakarta.validation | jakarta.validation-api | 2.0.2 |
jakarta.ws.rs | jakarta.ws.rs-api | 2.1.6 |
javax.activation | aktywacja | 1.1.1 |
javax.el | javax.el-api | 2.2.4 |
javax.jdo | jdo-api | 3.0.1 |
javax.servlet | javax.servlet-api | 3.1.0 |
javax.servlet.jsp | jsp-api | 2.1 |
javax.transaction | jta | 1.1 |
javax.transaction | transaction-api | 1.1 |
javax.xml.bind | jaxb-api | 2.2.2 |
javax.xml.stream | stax-api | 1.0-2 |
javolution | javolution | 5.5.1 |
jline | jline | 2.14.6 |
joda-time | joda-time | 2.10.5 |
log4j | apache-log4j-extras | 1.2.17 |
log4j | log4j | 1.2.17 |
net.razorvine | pirolit | 4.30 |
net.sf.jpam | jpam | 1.1 |
net.sf.opencsv | opencsv | 2.3 |
net.sf.supercsv | super-csv | 2.2.0 |
net.snowflake | snowflake-ingest-sdk | 0.9.6 |
net.snowflake | snowflake-jdbc | 3.12.0 |
net.snowflake | spark-snowflake_2.12 | 2.5.9-spark_2.4 |
net.sourceforge.f2j | arpack_combined_all | 0.1 |
org.acplt.remotetea | remotetea-oncrpc | 1.1.2 |
org.antlr | ST4 | 4.0.4 |
org.antlr | antlr-runtime | 3.5.2 |
org.antlr | antlr4-runtime | 4.7.1 |
org.antlr | stringtemplate | 3.2.1 |
org.apache.ant | tat | 1.9.2 |
org.apache.ant | ant-jsch | 1.9.2 |
org.apache.ant | ant-launcher | 1.9.2 |
org.apache.arrow | format strzałki | 0.15.1 |
org.apache.arrow | strzałka w pamięci | 0.15.1 |
org.apache.arrow | wektor strzałki | 0.15.1 |
org.apache.avro | avro | 1.8.2 |
org.apache.avro | avro-ipc | 1.8.2 |
org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
org.apache.commons | commons-compress | 1.8.1 |
org.apache.commons | commons-crypto | 1.0.0 |
org.apache.commons | commons-lang3 | 3.9 |
org.apache.commons | commons-math3 | 3.4.1 |
org.apache.commons | commons-text | 1.6 |
org.apache.curator | kurator-klient | 2.7.1 |
org.apache.curator | struktura kuratora | 2.7.1 |
org.apache.curator | przepisy kuratora | 2.7.1 |
org.apache.derby | Derby | 10.12.1.1 |
org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
org.apache.directory.api | api-util | 1.0.0-M20 |
org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
org.apache.hadoop | adnotacje hadoop | 2.7.4 |
org.apache.hadoop | hadoop-auth | 2.7.4 |
org.apache.hadoop | hadoop-client | 2.7.4 |
org.apache.hadoop | hadoop-common | 2.7.4 |
org.apache.hadoop | hadoop-hdfs | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-app | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-common | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-core | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-jobclient | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
org.apache.hadoop | hadoop-yarn-client | 2.7.4 |
org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
org.apache.hadoop | hadoop-yarn-server-common | 2.7.4 |
org.apache.hive | hive-beeline | 2.3.7 |
org.apache.hive | hive-cli | 2.3.7 |
org.apache.hive | hive-common | 2.3.7 |
org.apache.hive | hive-exec-core | 2.3.7 |
org.apache.hive | hive-jdbc | 2.3.7 |
org.apache.hive | hive-llap-client | 2.3.7 |
org.apache.hive | hive-llap-common | 2.3.7 |
org.apache.hive | hive-metastore | 2.3.7 |
org.apache.hive | hive-serde | 2.3.7 |
org.apache.hive | podkładki hive | 2.3.7 |
org.apache.hive | hive-storage-api | 2.7.1 |
org.apache.hive | hive-vector-code-gen | 2.3.7 |
org.apache.hive.shims | hive-shims-0.23 | 2.3.7 |
org.apache.hive.shims | hive-shims-common | 2.3.7 |
org.apache.hive.shims | hive-shims-scheduler | 2.3.7 |
org.apache.htrace | htrace-core | 3.1.0 inkubacja |
org.apache.httpcomponents | httpclient | 4.5.6 |
org.apache.httpcomponents | httpcore | 4.4.12 |
org.apache.ivy | bluszcz | 2.4.0 |
org.apache.orc | orc-core | 1.5.10 |
org.apache.orc | orc-mapreduce | 1.5.10 |
org.apache.orc | podkładki orc-shim | 1.5.10 |
org.apache.parquet | parquet-column | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-common | 1.10.1.2-databricks4 |
org.apache.parquet | kodowanie parquet | 1.10.1.2-databricks4 |
org.apache.parquet | format parquet | 2.4.0 |
org.apache.parquet | parquet-hadoop | 1.10.1.2-databricks4 |
org.apache.parquet | parquet-jackson | 1.10.1.2-databricks4 |
org.apache.thrift | libfb303 | 0.9.3 |
org.apache.thrift | libthrift | 0.12.0 |
org.apache.velocity | prędkość | 1.5 |
org.apache.xbean | xbean-asm7-cieniowany | 4.15 |
org.apache.yetus | adnotacje odbiorców | 0.5.0 |
org.apache.zookeeper | zookeeper | 3.4.14 |
org.codehaus.jackson | jackson-core-asl | 1.9.13 |
org.codehaus.jackson | jackson-jaxrs | 1.9.13 |
org.codehaus.jackson | jackson-mapper-asl | 1.9.13 |
org.codehaus.jackson | jackson-xc | 1.9.13 |
org.codehaus.janino | commons-compiler | 3.0.16 |
org.codehaus.janino | janino | 3.0.16 |
org.datanucleus | datanucleus-api-jdo | 4.2.4 |
org.datanucleus | datanucleus-core | 4.1.17 |
org.datanucleus | datanucleus-rdbms | 4.1.19 |
org.datanucleus | javax.jdo | 3.2.0-m3 |
org.eclipse.jetty | jetty-client | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-kontynuacja | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-http | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-io | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-jndi | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-plus | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-proxy | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-security | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-server | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlet | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlets | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-util | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-webapp | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
org.glassfish.hk2 | hk2-api | 2.6.1 |
org.glassfish.hk2 | lokalizator hk2 | 2.6.1 |
org.glassfish.hk2 | hk2-utils | 2.6.1 |
org.glassfish.hk2 | osgi-resource-locator | 1.0.3 |
org.glassfish.hk2.external | aopalliance-repackaged | 2.6.1 |
org.glassfish.hk2.external | jakarta.inject | 2.6.1 |
org.glassfish.jersey.containers | jersey-container-servlet | 2.30 |
org.glassfish.jersey.containers | jersey-container-servlet-core | 2.30 |
org.glassfish.jersey.core | jersey-client | 2.30 |
org.glassfish.jersey.core | jersey-common | 2.30 |
org.glassfish.jersey.core | jersey-server | 2.30 |
org.glassfish.jersey.inject | jersey-hk2 | 2.30 |
org.glassfish.jersey.media | jersey-media-jaxb | 2.30 |
org.hibernate.validator | moduł sprawdzania poprawności hibernacji | 6.1.0.Final |
org.javassist | javassist | 3.25.0-GA |
org.jboss.logging | jboss-logging | 3.3.2.Final |
org.jdbi | jdbi | 2.63.1 |
org.joda | joda-convert | 1,7 |
org.jodd | jodd-core | 3.5.2 |
org.json4s | json4s-ast_2.12 | 3.6.6 |
org.json4s | json4s-core_2.12 | 3.6.6 |
org.json4s | json4s-jackson_2.12 | 3.6.6 |
org.json4s | json4s-scalap_2.12 | 3.6.6 |
org.lz4 | lz4-java | 1.7.1 |
org.mariadb.jdbc | mariadb-java-client | 2.1.2 |
org.objenesis | objenesis | 2.5.1 |
org.postgresql | postgresql | 42.1.4 |
org.roaringbitmap | RoaringBitmap | 0.7.45 |
org.roaringbitmap | Podkładki | 0.7.45 |
org.rocksdb | rocksdbjni | 6.2.2 |
org.rosuda.REngine | REngine | 2.1.0 |
org.scala-lang | scala-compiler_2.12 | 2.12.10 |
org.scala-lang | scala-library_2.12 | 2.12.10 |
org.scala-lang | scala-reflect_2.12 | 2.12.10 |
org.scala-lang.modules | scala-collection-compat_2.12 | 2.1.1 |
org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
org.scala-lang.modules | scala-xml_2.12 | 1.2.0 |
org.scala-sbt | interfejs testowy | 1.0 |
org.scalacheck | scalacheck_2.12 | 1.14.2 |
org.scalactic | scalactic_2.12 | 3.0.8 |
org.scalanlp | breeze-macros_2.12 | 1.0 |
org.scalanlp | breeze_2.12 | 1.0 |
org.scalatest | scalatest_2.12 | 3.0.8 |
org.slf4j | jcl-over-slf4j | 1.7.30 |
org.slf4j | jul-to-slf4j | 1.7.30 |
org.slf4j | slf4j-api | 1.7.30 |
org.slf4j | slf4j-log4j12 | 1.7.30 |
org.spark-project.spark.spark | Nieużywane | 1.0.0 |
org.springframework | spring-core | 4.1.4.RELEASE |
org.springframework | spring-test | 4.1.4.RELEASE |
org.threeten | trzydostępne dodatkowe | 1.5.0 |
org.tukaani | xz | 1.5 |
org.typelevel | algebra_2.12 | 2.0.0-M2 |
org.typelevel | cats-kernel_2.12 | 2.0.0-M4 |
org.typelevel | machinist_2.12 | 0.6.8 |
org.typelevel | macro-compat_2.12 | 1.1.1 |
org.typelevel | spire-macros_2.12 | 0.17.0-M1 |
org.typelevel | spire-platform_2.12 | 0.17.0-M1 |
org.typelevel | spire-util_2.12 | 0.17.0-M1 |
org.typelevel | spire_2.12 | 0.17.0-M1 |
org.xerial | sqlite-jdbc | 3.8.11.2 |
org.xerial.snappy | snappy-java | 1.1.7.5 |
org.yaml | snakeyaml | 1.24 |
oro | oro | 2.0.8 |
pl.edu.icm | JLargeArrays | 1.5 |
software.amazon.ion | ion-java | 1.0.2 |
stax | stax-api | 1.0.1 |
xmlenc | xmlenc | 0.52 |