Tempo de execução do Databricks 7.0 (EoS)
Nota
O suporte para esta versão do Databricks Runtime terminou. Para obter a data de fim do suporte, consulte Histórico de fim do suporte. Para todas as versões suportadas do Databricks Runtime, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.
A Databricks lançou esta versão em junho de 2020.
As notas de versão a seguir fornecem informações sobre o Databricks Runtime 7.0, desenvolvido pelo Apache Spark 3.0.
Novas funcionalidades
O Databricks Runtime 7.0 inclui os seguintes novos recursos:
Escalão 2,12
O Databricks Runtime 7.0 atualiza o Scala de 2.11.12 para 2.12.10. A lista de alterações entre o Scala 2.12 e o 2.11 está nas notas de versão do Scala 2.12.0.
O Auto Loader (Public Preview), lançado no Databricks Runtime 6.4, foi melhorado no Databricks Runtime 7.0
O Auto Loader oferece uma maneira mais eficiente de processar novos arquivos de dados incrementalmente à medida que eles chegam a uma loja de blob na nuvem durante o ETL. Esta é uma melhoria em relação ao streaming estruturado baseado em arquivos, que identifica novos arquivos listando repetidamente o diretório da nuvem e rastreando os arquivos que foram vistos, e pode ser muito ineficiente à medida que o diretório cresce. O Auto Loader também é mais conveniente e eficaz do que o streaming estruturado baseado em notificação de arquivos, que requer que você configure manualmente os serviços de notificação de arquivos na nuvem e não permite que você preencha os arquivos existentes. Para obter detalhes, consulte O que é o Auto Loader?.
No Databricks Runtime 7.0 você não precisa mais solicitar uma imagem personalizada do Databricks Runtime para usar o Auto Loader.
COPY INTO
(Public Preview), que permite carregar dados no Delta Lake com tentativas idempotentes, foi melhorado no Databricks Runtime 7.0Lançado como uma visualização pública no Databricks Runtime 6.4, o
COPY INTO
comando SQL permite carregar dados no Delta Lake com tentativas idempotentes. Para carregar dados no Delta Lake hoje você precisa usar APIs do Apache Spark DataFrame. Se houver falhas durante as cargas, você tem que lidar com elas de forma eficaz. O novoCOPY INTO
comando fornece uma interface declarativa familiar para carregar dados em SQL. O comando mantém o controle de arquivos carregados anteriormente e você o executa novamente com segurança em caso de falhas. Para obter detalhes, consulte COPY INTO.
Melhorias
O conector Azure Synapse (anteriormente SQL Data Warehouse) dá suporte à
COPY
instrução.O principal benefício é que os usuários com privilégios mais baixos podem gravar dados no Azure Synapse sem precisar de
COPY
permissões estritasCONTROL
no Azure Synapse.O
%matplotlib inline
comando magic não é mais necessário para exibir objetos Matplolib em linha nas células do notebook. Eles são sempre exibidos em linha por padrão.As figuras Matplolib agora são renderizadas com , para
transparent=False
que os planos de fundo especificados pelo usuário não sejam perdidos. Esse comportamento pode ser substituído definindo a configuraçãospark.databricks.workspace.matplotlib.transparent true
do Spark .Ao executar trabalhos de produção de Streaming Estruturado em clusters de modo de Alta Simultaneidade, as reinicializações de um trabalho ocasionalmente falhariam, porque o trabalho em execução anterior não foi encerrado corretamente. O Databricks Runtime 6.3 introduziu a capacidade de definir a configuração
spark.sql.streaming.stopActiveRunOnRestart true
SQL em seu cluster para garantir que a execução anterior pare. Essa configuração é definida por padrão no Databricks Runtime 7.0.
Principais alterações na biblioteca
Pacotes de Python
Principais pacotes Python atualizados:
- Boto3 1.9.162 -> 1.12.0
- Matplotlib 3.0.3 -> 3.1.3
- numpy 1.16.2 -> 1.18.1
- Pandas 0.24.2 -> 1.0.1
- PIP 19.0.3 -> 20.0.2
- Pyarrow 0.13.0 -> 0.15.1
- PSYCOPG2 2.7.6 -> 2.8.4
- scikit-aprender 0.20.3 -> 0.22.1
- SCIPY 1.2.1 -> 1.4.1
- Seaborn 0.9.0 -> 0.10.0
Pacotes Python removidos:
- boto (use boto3)
- Pycurl
Nota
O ambiente Python no Databricks Runtime 7.0 usa Python 3.7, que é diferente do sistema Ubuntu instalado Python: /usr/bin/python
e /usr/bin/python2
estão ligados ao Python 2.7 e /usr/bin/python3
está ligado ao Python 3.6.
Pacotes R
Pacotes R adicionados:
- vassoura
- mais alto
- Isoband
- Knitr
- Marcação
- Modelador
- Reprex
- rmarkdown
- Rvest
- seletor
- Tidyverse
- Tinytex
- xfun
Pacotes R removidos:
- abind
- bitops
- carro
- carData
- doMC
- gbm
- h2o
- littler
- lme4
- mapproj
- mapas
- Ferramentas de mapa
- MatrizModels
- minqa
- mvtnorm
- nloptr
- OpenXLSX
- pbkrtest
- pkgKitten
- quantreg
- R.methodsS3
- R.oo
- R.utils
- RcppEigen
- RCurl
- Rio
- sp
- Disperso
- estatmod
- zip
Bibliotecas Java e Scala
- Versão do Apache Hive usada para lidar com funções definidas pelo usuário do Hive e Hive SerDes atualizado para 2.3.
- Anteriormente, os jars do Armazenamento do Azure e do Cofre da Chave eram empacotados como parte do Databricks Runtime, o que impediria que você usasse versões diferentes dessas bibliotecas anexadas a clusters. As classes sob
com.microsoft.azure.storage
ecom.microsoft.azure.keyvault
não estão mais no caminho da classe no Databricks Runtime. Se depender de qualquer um desses caminhos de classe, agora você deve anexar o SDK de Armazenamento do Azure ou o SDK do Cofre de Chaves do Azure aos seus clusters.
Alterações de comportamento
Esta seção lista as alterações de comportamento do Databricks Runtime 6.6 para o Databricks Runtime 7.0. Você deve estar ciente disso ao migrar cargas de trabalho de versões inferiores do Databricks Runtime para o Databricks Runtime 7.0 e superior.
Mudanças de comportamento do Spark
Como o Databricks Runtime 7.0 é o primeiro Databricks Runtime criado no Spark 3.0, há muitas alterações que você deve estar ciente ao migrar cargas de trabalho do Databricks Runtime 5.5 LTS ou 6.x, que são criadas no Spark 2.4. Essas alterações estão listadas na seção "Alterações de comportamento" de cada área funcional na seção Apache Spark deste artigo de notas de versão:
- Alterações de comportamento para Spark core, Spark SQL e Structured Streaming
- Alterações de comportamento para MLlib
- Alterações de comportamento para o SparkR
Outras mudanças de comportamento
A atualização para o Scala 2.12 envolve as seguintes alterações:
A serialização da célula do pacote é tratada de forma diferente. O exemplo a seguir ilustra a mudança de comportamento e como lidar com ela.
A execução
foo.bar.MyObjectInPackageCell.run()
conforme definido na célula do pacote a seguir acionará o errojava.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
package foo.bar case class MyIntStruct(int: Int) import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column object MyObjectInPackageCell extends Serializable { // Because SparkSession cannot be created in Spark executors, // the following line triggers the error // Could not initialize class foo.bar.MyObjectInPackageCell$ val spark = SparkSession.builder.getOrCreate() def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100)) val theUDF = udf(foo) val df = { val myUDFInstance = theUDF(col("id")) spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance) } def run(): Unit = { df.collect().foreach(println) } }
Para contornar esse erro, você pode encapsular
MyObjectInPackageCell
dentro de uma classe serializável.Certos casos de uso
DataStreamWriter.foreachBatch
exigirão uma atualização do código-fonte. Essa alteração se deve ao fato de que o Scala 2.12 tem conversão automática de expressões lambda para tipos SAM e pode causar ambiguidade.Por exemplo, o seguinte código Scala não pode compilar:
streams .writeStream .foreachBatch { (df, id) => myFunc(df, id) }
Para corrigir o erro de compilação, altere
foreachBatch { (df, id) => myFunc(df, id) }
ouforeachBatch(myFunc _)
use a API Java explicitamente:foreachBatch(new VoidFunction2 ...)
.
Como a versão do Apache Hive usada para lidar com funções definidas pelo usuário do Hive e o Hive SerDes são atualizados para 2.3, duas alterações são necessárias:
- A interface do
SerDe
Hive é substituída por uma classeAbstractSerDe
abstrata. Para qualquer implementação personalizada do HiveSerDe
, a migração paraAbstractSerDe
é necessária. - A configuração
spark.sql.hive.metastore.jars
significabuiltin
que o cliente de metastore do Hive 2.3 será usado para acessar metastores para o Databricks Runtime 7.0. Se você precisar acessar metastores externos baseados no Hive 1.2, definaspark.sql.hive.metastore.jars
para a pasta que contém jars do Hive 1.2.
- A interface do
Descontinuações e remoções
- O índice de pulo de dados foi preterido no Databricks Runtime 4.3 e removido no Databricks Runtime 7.0. Em vez disso, recomendamos que você use tabelas Delta, que oferecem recursos aprimorados de pulo de dados.
- No Databricks Runtime 7.0, a versão subjacente do Apache Spark usa o Scala 2.12. Como as bibliotecas compiladas no Scala 2.11 podem desabilitar clusters do Databricks Runtime 7.0 de maneiras inesperadas, os clusters que executam o Databricks Runtime 7.0 e superior não instalam bibliotecas configuradas para serem instaladas em todos os clusters. A guia Bibliotecas de cluster mostra um status
Skipped
e uma mensagem de preterição que explica as alterações no tratamento da biblioteca. No entanto, se você tiver um cluster que foi criado em uma versão anterior do Databricks Runtime antes da plataforma Azure Databricks versão 3.20 ter sido lançada em seu espaço de trabalho e agora editar esse cluster para usar o Databricks Runtime 7.0, todas as bibliotecas que foram configuradas para serem instaladas em todos os clusters serão instaladas nesse cluster. Nesse caso, quaisquer JARs incompatíveis nas bibliotecas instaladas podem fazer com que o cluster seja desativado. A solução alternativa é clonar o cluster ou criar um novo cluster.
Faísca Apache
O Databricks Runtime 7.0 inclui o Apache Spark 3.0.
Nesta secção:
Core, Spark SQL, Streaming estruturado
Destaques
- (Projeto Hidrogénio) Agendador com reconhecimento de acelerador (SPARK-24615)
- Execução adaptável de consultas (SPARK-31412)
- Poda dinâmica de partições (SPARK-11150)
- API UDF de pandas redesenhada com dicas de tipo (SPARK-28264)
- Interface do usuário de streaming estruturada (SPARK-29543)
- API de plug-in de catálogo (SPARK-31121)
- Melhor compatibilidade com ANSI SQL
Melhorias de desempenho
- Execução adaptável de consultas (SPARK-31412)
- Quadro básico (SPARK-23128)
- Ajuste do número da partição pós-shuffle (SPARK-28177)
- Reutilização de subconsulta dinâmica (SPARK-28753)
- Leitor shuffle local (SPARK-28560)
- Otimização de junção de distorção (SPARK-29544)
- Otimizar a leitura de blocos aleatórios contíguos (SPARK-9853)
- Poda dinâmica de partições (SPARK-11150)
- Outras regras do otimizador
- Reutilização da regraSubquery (SPARK-27279)
- Regra PushDownLeftSemiAntiJoin (SPARK-19712)
- Regra PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Regra ReplaceNullWithFalse (SPARK-25860)
- Regra Eliminar classificações sem limite na subconsulta de Associação/Agregação (SPARK-29343)
- Regra PruneHiveTablePartitions (SPARK-15616)
- Poda de campos aninhados desnecessários de Gerar (SPARK-27707)
- Regra RewriteNonCorrelatedExists (SPARK-29800)
- Minimizar os custos de sincronização do cache de tabela (SPARK-26917), (SPARK-26617), (SPARK-26548)
- Dividir o código de agregação em pequenas funções (SPARK-21870)
- Adicionar lote no comando INSERT e ALTER TABLE ADD PARTITION (SPARK-29938)
Aprimoramentos de extensibilidade
- API de plug-in de catálogo (SPARK-31121)
- Refatoração da API V2 da fonte de dados (SPARK-25390)
- Suporte a metastore do Hive 3.0 e 3.1 (SPARK-27970),(SPARK-24360)
- Estenda a interface do plug-in Spark para o driver (SPARK-29396)
- Estenda o sistema de métricas Spark com métricas definidas pelo usuário usando plug-ins executores (SPARK-28091)
- APIs de desenvolvedor para suporte estendido ao processamento colunar (SPARK-27396)
- Migração de código-fonte integrada usando DSV2: parquet, ORC, CSV, JSON, Kafka, Text, Avro (SPARK-27589)
- Permitir FunctionInjection em SparkExtensions (SPARK-25560)
- Permite que o Agregador seja registrado como UDAF (SPARK-27296)
Aprimoramentos do conector
- Poda de coluna através de expressões não determinísticas (SPARK-29768)
- Suporte
spark.sql.statistics.fallBackToHdfs
em tabelas de fonte de dados (SPARK-25474) - Permitir remoção de partições com filtros de subconsulta na origem do arquivo (SPARK-26893)
- Evite pushdown de subconsultas em filtros de fonte de dados (SPARK-25482)
- Carregamento de dados recursivo de fontes de arquivo (SPARK-27990)
- Parquet/ORC
- Pushdown de predicados disjuntivos (SPARK-27699)
- Generalizar a poda de coluna aninhada (SPARK-25603) e ativada por padrão (SPARK-29805)
- Apenas parquet
- Pushdown de predicado de parquet para campos aninhados (SPARK-17636)
- Apenas ORC
- Esquema de mesclagem de suporte para ORC (SPARK-11412)
- Poda de esquema aninhado para ORC (SPARK-27034)
- Redução da complexidade da conversão de predicados para ORC (SPARK-27105, SPARK-28108)
- Atualize o Apache ORC para 1.5.9 (SPARK-30695)
- CSV
- Suporte a pushdown de filtros na fonte de dados CSV (SPARK-30323)
- Colmeia SerDe
- Nenhuma inferência de esquema ao ler a tabela serde do Hive com fonte de dados nativa (SPARK-27119)
- Os comandos CTAS do Hive devem usar a fonte de dados se ela for conversível (SPARK-25271)
- Use a fonte de dados nativa para otimizar a inserção da tabela Hive particionada (SPARK-28573)
- Apache Kafka
- Adicionar suporte para cabeçalhos Kafka (SPARK-23539)
- Adicionar suporte ao token de delegação Kafka (SPARK-25501)
- Introduza uma nova opção para a fonte Kafka: deslocamento por carimbo de data/hora (início/fim) (SPARK-26848)
- Suporte a
minPartitions
opção em Kafka batch source e streaming source v1 (SPARK-30656) - Atualize Kafka para 2.4.1 (SPARK-31126)
- Novas fontes de dados incorporadas
- Novas fontes de dados de arquivos binários integrados (SPARK-25348)
- Novas fontes de dados em lote no-op (SPARK-26550) e coletor de streaming no-op (SPARK-26649)
Aprimoramentos de recursos
- [Hidrogénio] Agendador com reconhecimento de acelerador (SPARK-24615)
- Introduza um conjunto completo de dicas de junção (SPARK-27225)
- Adicionar
PARTITION BY
dica para consultas SQL (SPARK-28746) - Tratamento de metadados no Thrift Server (SPARK-28426)
- Adicionar funções de ordem superior à API scala (SPARK-27297)
- Suporte simples, todos reunidos em contexto de tarefa de barreira (SPARK-30667)
- UDFs do Hive suporta o tipo UDT (SPARK-28158)
- Suporte a operadores DELETE/UPDATE/MERGE no Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
- Implementar DataFrame.tail (SPARK-30185)
- Novas funções incorporadas
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- qualquer, todos, alguns (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extrato (SPARK-23903)
- para todos (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- tipo de (SPARK-29961)
- versão (SPARK-29554)
- xxhash64 (Faísca-27099)
- Melhorias nas funções incorporadas existentes
- Melhoria integrada das funções de data/hora (SPARK-31415)
- Modo de suporte
FAILFAST
parafrom_json
(SPARK-25243) array_sort
adiciona um novo parâmetro comparador (SPARK-29020)- O filtro agora pode tomar o índice como entrada, bem como o elemento (SPARK-28962)
Aprimoramentos de compatibilidade com SQL
- Mudar para o calendário gregoriano proléptico (SPARK-26651)
- Criar a própria definição de padrão datetime do Spark (SPARK-31408)
- Introduzir a política de atribuição de armazenamento ANSI para inserção de tabela (SPARK-28495)
- Siga a regra de atribuição de armazenamento ANSI na inserção de tabela por padrão (SPARK-28885)
- Adicionar um SQLConf
spark.sql.ansi.enabled
(SPARK-28989) - Suporta cláusula de filtro ANSI SQL para expressão agregada (SPARK-27986)
- Suporte a função ANSI SQL
OVERLAY
(SPARK-28077) - Suporte ANSI aninhado comentários entre colchetes (SPARK-28880)
- Exceção de lançamento em estouro para inteiros (SPARK-26218)
- Verificação de estouro para operações aritméticas de intervalo (SPARK-30341)
- Exceção de lançamento quando a cadeia de caracteres inválida é convertida para o tipo numérico (SPARK-30292)
- Tornar o comportamento de estouro do intervalo multiplicado e dividido consistente com outras operações (SPARK-30919)
- Adicionar aliases de tipo ANSI para char e decimal (SPARK-29941)
- O SQL Parser define palavras-chave reservadas compatíveis com ANSI (SPARK-26215)
- Proibir palavras-chave reservadas como identificadores quando o modo ANSI estiver ativado (SPARK-26976)
- Suporte à sintaxe ANSI SQL
LIKE ... ESCAPE
(SPARK-28083) - Suporte a sintaxe ANSI SQL Boolean-Predicado (SPARK-27924)
- Melhor suporte para processamento de subconsultas correlacionadas (SPARK-18455)
Aprimoramentos de monitoramento e depurabilidade
- Nova interface do usuário de streaming estruturada (SPARK-29543)
- SHS: Permitir que os logs de eventos para executar aplicativos de streaming sejam substituídos (SPARK-28594)
- Adicionar uma API que permite que um usuário defina e observe métricas arbitrárias em consultas em lote e streaming (SPARK-29345)
- Instrumentação para controlar o tempo de planejamento por consulta (SPARK-26129)
- Coloque as métricas básicas de shuffle no operador de troca SQL (SPARK-26139)
- A instrução SQL é mostrada na guia SQL em vez de callsite (SPARK-27045)
- Adicionar dica de ferramenta ao SparkUI (SPARK-29449)
- Melhorar o desempenho simultâneo do History Server (SPARK-29043)
EXPLAIN FORMATTED
comando (SPARK-27395)- Suporte Despejando planos truncados e código gerado para um arquivo (SPARK-26023)
- Aprimorar a estrutura de descrição para descrever a saída de uma consulta (SPARK-26982)
- Adicionar
SHOW VIEWS
comando (SPARK-31113) - Melhorar as mensagens de erro do analisador SQL (SPARK-27901)
- Apoie o monitoramento do Prometheus nativamente (SPARK-29429)
Aprimoramentos do PySpark
- UDFs de pandas redesenhados com dicas de tipo (SPARK-28264)
- Gasoduto Pandas UDF (SPARK-26412)
- Suporte StructType como argumentos e tipos de retorno para Scalar Pandas UDF (SPARK-27240 )
- Suporte Dataframe Cogroup via Pandas UDFs (SPARK-27463)
- Adicionar
mapInPandas
para permitir um iterador de DataFrames (SPARK-28198) - Certas funções SQL também devem ter nomes de coluna (SPARK-26979)
- Tornar as exceções do PySpark SQL mais Pythonic (SPARK-31849)
Melhorias na documentação e na cobertura de testes
- Criar uma referência SQL (SPARK-28588)
- Criar um guia do usuário para WebUI (SPARK-28372)
- Criar uma página para documentação de configuração do SQL (SPARK-30510)
- Adicionar informações de versão para a configuração do Spark (SPARK-30839)
- Testes de regressão de porta do PostgreSQL (SPARK-27763)
- Cobertura de teste Thrift-server (SPARK-28608)
- Cobertura de teste de UDFs (python UDF, pandas UDF, scala UDF) (SPARK-27921)
Outras mudanças notáveis
- Atualização de execução integrada do Hive de 1.2.1 para 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
- Usar a dependência do Apache Hive 2.3 por padrão (SPARK-30034)
- GA Scala 2.12 e remover 2.11 (SPARK-26132)
- Melhorar a lógica para executar o tempo limite na alocação dinâmica (SPARK-20286)
- Blocos RDD persistentes em disco servidos pelo serviço shuffle e ignorados para alocação dinâmica (SPARK-27677)
- Adquira novos executores para evitar travamento por causa de blocklisting (SPARK-22148)
- Permitir o compartilhamento dos alocadores de pool de memória da Netty (SPARK-24920)
- Corrigir impasse entre
TaskMemoryManager
eUnsafeExternalSorter$SpillableIterator
(SPARK-27338) - Introduzir
AdmissionControl
APIs para StructuredStreaming (SPARK-30669) - Melhoria no desempenho da página principal do Spark History (SPARK-25973)
- Acelere e reduza a agregação métrica no ouvinte SQL (SPARK-29562)
- Evite a rede quando blocos aleatórios são buscados no mesmo host (SPARK-27651)
- Melhorar a listagem de arquivos para
DistributedFileSystem
(SPARK-27801)
Alterações de comportamento para Spark core, Spark SQL e Structured Streaming
Os guias de migração a seguir listam as alterações de comportamento entre o Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações para trabalhos que você tem executado em versões inferiores do Databricks Runtime:
- Guia de migração: Spark Core
- Guia de migração: SQL, Datasets e DataFrame
- Guia de migração: streaming estruturado
- Guia de migração: PySpark (Python no Spark)
As seguintes alterações de comportamento não são abordadas nestes guias de migração:
- No Spark 3.0, a classe
org.apache.spark.sql.streaming.ProcessingTime
preterida foi removida. Utilizeorg.apache.spark.sql.streaming.Trigger.ProcessingTime
em substituição. Da mesma forma,org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger
foi removido em favor deTrigger.Continuous
, eorg.apache.spark.sql.execution.streaming.OneTimeTrigger
foi escondido em favor deTrigger.Once
. (FAÍSCA-28199) - No Databricks Runtime 7.0, ao ler uma tabela Hive SerDe, por padrão, o Spark não permite a leitura de arquivos em um subdiretório que não seja uma partição de tabela. Para habilitá-lo, defina a configuração
spark.databricks.io.hive.scanNonpartitionedDirectory.enabled
comotrue
. Isso não afeta os leitores de tabela e de arquivos nativos do Spark.
MLlib
Destaques
- O suporte a várias colunas foi adicionado ao Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) e PySpark QuantileDiscretizer (SPARK-22796)
- Suporte à transformação de recursos baseada em árvore (SPARK-13677)
- Dois novos avaliadores MultilabelClassificationEvaluator (SPARK-16692) e RankingEvaluator (SPARK-28045) foram adicionados
- O suporte a pesos amostrais foi adicionado em DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) e GaussianMixture (SPARK-30102)
- API R para PowerIterationClustering foi adicionada (SPARK-19827)
- Adicionado ouvinte do Spark ML para acompanhar o status do pipeline de ML (SPARK-23674)
- O ajuste com o conjunto de validação foi adicionado às árvores impulsionadas por gradiente em Python (SPARK-24333)
- Transformador RobustScaler foi adicionado (SPARK-28399)
- Foram adicionados classificadores e regressores de máquinas de fatoração (SPARK-29224)
- Gaussian Naive Bayes (SPARK-16872) e Complement Naive Bayes (SPARK-29942) foram adicionados
- Paridade da função ML entre Scala e Python (SPARK-28958)
- predictRaw é tornado público em todos os modelos de classificação. predictProbability é tornado público em todos os modelos de classificação, exceto LinearSVCModel (SPARK-30358)
Alterações de comportamento para MLlib
O guia de migração a seguir lista as alterações de comportamento entre o Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações para trabalhos que você tem executado em versões inferiores do Databricks Runtime:
As seguintes alterações de comportamento não são abordadas no guia de migração:
- No Spark 3.0, uma regressão logística multiclasse no Pyspark agora retornará (corretamente) e
LogisticRegressionSummary
não a subclasseBinaryLogisticRegressionSummary
. Os métodos adicionais expostos porBinaryLogisticRegressionSummary
não funcionariam neste caso de qualquer maneira. (FAÍSCA-31681) - No Spark 3.0,
pyspark.ml.param.shared.Has*
mixins não fornecem mais nenhumset*(self, value)
método setter, use o respetivoself.set(self.*, value)
em vez disso. Consulte SPARK-29093 para obter detalhes. (FAÍSCA-29093)
SparkR
- Otimização de setas na interoperabilidade do SparkR (SPARK-26759)
- Melhoria de desempenho via R vetorizado gapply(), dapply(), createDataFrame, collect()
- "Execução ansiosa" para shell R, IDE (SPARK-24572)
- API R para clustering de iteração de energia (SPARK-19827)
Alterações de comportamento para o SparkR
O guia de migração a seguir lista as alterações de comportamento entre o Apache Spark 2.4 e 3.0. Essas alterações podem exigir atualizações para trabalhos que você tem executado em versões inferiores do Databricks Runtime:
Preterições
- Substituir o suporte ao Python 2 (SPARK-27884)
- Deprecate R < 3.4 suporte (SPARK-26014)
Problemas conhecidos
- A análise do dia do ano usando a letra de padrão 'D' retorna o resultado errado se o campo de ano estiver ausente. Isso pode acontecer em funções SQL, como
to_timestamp
que analisa a cadeia de caracteres datetime para valores datetime usando uma cadeia de caracteres padrão. (FAÍSCA-31939) - Juntar/Janela/Agregar dentro de subconsultas pode levar a resultados errados se as chaves tiverem valores -0,0 e 0,0. (FAÍSCA-31958)
- Uma consulta de janela pode falhar com erro de auto-junção ambíguo inesperadamente. (FAÍSCA-31956)
- As consultas de streaming com
dropDuplicates
o operador podem não ser capazes de reiniciar com o ponto de verificação escrito pelo Spark 2.x. (FAÍSCA-31990)
Atualizações de manutenção
Consulte Atualizações de manutenção do Databricks Runtime 7.0.
Ambiente do sistema
- Sistema Operacional: Ubuntu 18.04.4 LTS
- Java: 1.8.0_252
- Escala: 2.12.10
- Píton: 3.7.5
- R: R versão 3.6.3 (2020-02-29)
- Lago Delta 0.7.0
Bibliotecas Python instaladas
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
asn1crypto | 1.3.0 | Backcall | 0.1.0 | boto3 | 1.12.0 |
botocore | 1.15.0 | certifi | 2020.4.5 | cffi | 1.14.0 |
chardet | 3.0.4 | criptografia | 2.8 | cycler | 0.10.0 |
Quisto | 0.29.15 | decorador | 4.4.1 | docutils | 0.15.2 |
pontos de entrada | 0.3 | idna | 2.8 | Ipykernel | 5.1.4 |
ipython | 7.12.0 | ipython-genutils | 0.2.0 | Jedi | 0.14.1 |
jmespath | 0.9.4 | Joblib | 0.14.1 | jupyter-cliente | 5.3.4 |
Jupyter-core | 4.6.1 | Kiwisolver | 1.1.0 | matplotlib | 3.1.3 |
numpy | 1.18.1 | pandas | 1.0.1 | Parso | 0.5.2 |
patsy | 0.5.1 | pexpect | 4.8.0 | pickleshare | 0.7.5 |
pip | 20.0.2 | prompt-toolkit | 3.0.3 | psycopg2 | 2.8.4 |
ptyprocess | 0.6.0 | pyarrow | 0.15.1 | pycparser | 2.19 |
Pygments | 2.5.2 | PyGObject | 3.26.1 | pyOpenSSL | 19.1.0 |
pyparsing | 2.4.6 | Meias PySocks | 1.7.1 | python-apt | 1.6.5+ubuntu0.3 |
python-dateutil | 2.8.1 | pytz | 2019.3 | Pyzmq | 18.1.1 |
pedidos | 2.22.0 | s3transferir | 0.3.3 | scikit-learn | 0.22.1 |
scipy | 1.4.1 | seaborn | 0.10.0 | setuptools | 45.2.0 |
seis | 1.14.0 | ssh-import-id | 5.7 | statsmodels | 0.11.0 |
tornado | 6.0.3 | traços | 4.3.3 | Upgrades autônomos | 0.1 |
urllib3 | 1.25.8 | virtualenv | 16.7.10 | largura de wc | 0.1.8 |
roda | 0.34.2 |
Bibliotecas R instaladas
As bibliotecas R são instaladas a partir do instantâneo do Microsoft CRAN em 2020-04-22.
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
AskPass | 1.1 | asserçãoat | 0.2.1 | backports | 1.1.6 |
base | 3.6.3 | base64enc | 0.1-3 | BH | 1.72.0-3 |
bit | 1.1-15.2 | bit64 | 0.9-7 | blob | 1.2.1 |
arranque | 1.3-25 | brew | 1.0-6 | vassoura | 0.5.6 |
Chamador | 3.4.3 | acento circunflexo | 6.0-86 | Cellranger | 1.1.0 |
crono | 2.3-55 | classe | 7.3-17 | cli | 2.0.2 |
Clipr | 0.7.0 | cluster | 2.1.0 | codetools | 0.2-16 |
espaço em cores | 1.4-1 | marca comum | 1.7 | compilador | 3.6.3 |
configuração | 0.3 | CoVR | 3.5.0 | lápis de cor | 1.3.4 |
conversa cruzada | 1.1.0.1 | curl | 4.3 | data.table | 1.12.8 |
conjuntos de dados | 3.6.3 | DBI | 1.1.0 | DBPlyr | 1.4.3 |
desc | 1.2.0 | devtools | 2.3.0 | resumo | 0.6.25 |
dplyr | 0.8.5 | DT | 0,13 | reticências | 0.3.0 |
evaluate | 0.14 | Fãsi | 0.4.1 | Farver | 2.0.3 |
mapa rápido | 1.0.1 | FORCATS | 0.5.0 | foreach | 1.5.0 |
externa | 0.8-76 | forjar | 0.2.0 | FS | 1.4.1 |
Genéricos | 0.0.2 | ggplot2 | 3.3.0 | GH | 1.1.0 |
git2r | 0.26.1 | glmnet | 3.0-2 | Globais | 0.12.5 |
colar | 1.4.0 | gower | 0.2.1 | gráficos | 3.6.3 |
grDevices | 3.6.3 | grelha | 3.6.3 | gridExtra | 2.3 |
gsubfn | 0.7 | gtable | 0.3.0 | Refúgio | 2.2.0 |
mais alto | 0.8 | HMS | 0.5.3 | htmltools | 0.4.0 |
htmlwidgets | 1.5.1 | httpuv | 1.5.2 | httr | 1.4.1 |
hwriter | 1.3.2 | hwriterPlus | 1.0-3 | ini | 0.3.1 |
ipred | 0.9-9 | Isoband | 0.2.1 | iteradores | 1.0.12 |
jsonlite | 1.6.1 | KernSmooth | 2.23-17 | Knitr | 1.28 |
etiquetagem | 0.3 | mais tarde | 1.0.0 | lattice | 0.20-41 |
lava | 1.6.7 | lazyeval | 0.2.2 | ciclo de vida | 0.2.0 |
lubridate | 1.7.8 | magrittr | 1.5 | Marcação | 1.1 |
MASSA | 7.3-51.6 | Matriz | 1.2-18 | memoise | 1.1.0 |
métodos | 3.6.3 | mgcv | 1.8-31 | mime | 0,9 |
ModelMetrics | 1.2.2.2 | Modelador | 0.1.6 | munsell | 0.5.0 |
nlme | 3.1-147 | nnet | 7.3-14 | numDeriv | 2016.8-1.1 |
openssl | 1.4.1 | paralelo | 3.6.3 | pilar | 1.4.3 |
pkgbuild | 1.0.6 | pkgconfig | 2.0.3 | pkgload | 1.0.2 |
plogr | 0.2.0 | plyr | 1.8.6 | elogiar | 1.0.0 |
unidades bonitas | 1.1.1 | pROC | 1.16.2 | processx | 3.4.2 |
prodlim | 2019.11.13 | Progresso | 1.2.2 | promessas | 1.1.0 |
proto | 1.0.0 | PS | 1.3.2 | purrr | 0.3.4 |
r2d3 | 0.2.3 | R6 | 2.4.1 | randomForest | 4.6-14 |
rappdirs | 0.3.1 | rcmdcheck | 1.3.3 | RColorBrewer | 1.1-2 |
Rcpp | 1.0.4.6 | Leitor | 1.3.1 | ReadXL | 1.3.1 |
receitas | 0.1.10 | revanche | 1.0.1 | revanche2 | 2.1.1 |
Controles remotos | 2.1.1 | Reprex | 0.3.0 | remodelar2 | 1.4.4 |
Rex | 1.2.0 | RJSON | 0.2.20 | rlang | 0.4.5 |
rmarkdown | 2.1 | RODBC | 1.3-16 | roxygen2 | 7.1.0 |
rpart | 4.1-15 | rprojroot | 1.3-2 | Rserve | 1.8-6 |
RSQLite | 2.2.0 | rstudioapi | 0,11 | rversões | 2.0.1 |
Rvest | 0.3.5 | escalas | 1.1.0 | seletor | 0.4-2 |
sessioninfo | 1.1.1 | forma | 1.4.4 | brilhante | 1.4.0.2 |
ferramentas de origem | 0.1.7 | sparklyr | 1.2.0 | SparkR | 3.0.0 |
espacial | 7.3-11 | splines | 3.6.3 | sqldf | 0.4-11 |
QUADRADO | 2020.2 | estatísticas | 3.6.3 | stats4 | 3.6.3 |
stringi | 1.4.6 | stringr | 1.4.0 | sobrevivência | 3.1-12 |
sys | 3.3 | tcltk | 3.6.3 | TeachingDemos | 2.10 |
testeatat | 2.3.2 | tibble | 3.0.1 | tidyr | 1.0.2 |
tidyselect | 1.0.0 | Tidyverse | 1.3.0 | timeDate | 3043.102 |
Tinytex | 0.22 | ferramentas | 3.6.3 | usethis | 1.6.0 |
UTF8 | 1.1.4 | utilitários | 3.6.3 | VCTRS | 0.2.4 |
viridisLite | 0.3.0 | whisker | 0.4 | withr | 2.2.0 |
xfun | 0,13 | xml2 | 1.3.1 | xopen | 1.0.0 |
xtable | 1.8-4 | yaml | 2.2.1 |
Bibliotecas Java e Scala instaladas (versão de cluster Scala 2.12)
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
antlr | antlr | 2.7.7 |
com.amazonaws | amazon-kinesis-client | 1.12.0 |
com.amazonaws | aws-java-sdk-autoscaling | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudformation | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudfront | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudhsm | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudsearch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudtrail | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatch | 1.11.655 |
com.amazonaws | aws-java-sdk-cloudwatchmetrics | 1.11.655 |
com.amazonaws | aws-java-sdk-codedeploy | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitoidentity | 1.11.655 |
com.amazonaws | aws-java-sdk-cognitosync | 1.11.655 |
com.amazonaws | aws-java-sdk-config | 1.11.655 |
com.amazonaws | aws-java-sdk-core | 1.11.655 |
com.amazonaws | aws-java-sdk-datapipeline | 1.11.655 |
com.amazonaws | aws-java-sdk-directconnect | 1.11.655 |
com.amazonaws | aws-java-sdk-directory | 1.11.655 |
com.amazonaws | aws-java-sdk-dynamodb | 1.11.655 |
com.amazonaws | aws-java-sdk-ec2 | 1.11.655 |
com.amazonaws | aws-java-sdk-ecs | 1.11.655 |
com.amazonaws | aws-java-sdk-efs | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticache | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticbeanstalk | 1.11.655 |
com.amazonaws | aws-java-sdk-elasticloadbalancing | 1.11.655 |
com.amazonaws | aws-java-sdk-elastictranscoder | 1.11.655 |
com.amazonaws | aws-java-sdk-emr | 1.11.655 |
com.amazonaws | aws-java-sdk-glacier | 1.11.655 |
com.amazonaws | aws-java-sdk-iam | 1.11.655 |
com.amazonaws | aws-java-sdk-importexport | 1.11.655 |
com.amazonaws | aws-java-sdk-kinesis | 1.11.655 |
com.amazonaws | aws-java-sdk-kms | 1.11.655 |
com.amazonaws | aws-java-sdk-lambda | 1.11.655 |
com.amazonaws | aws-java-sdk-logs | 1.11.655 |
com.amazonaws | aws-java-sdk-machinelearning | 1.11.655 |
com.amazonaws | aws-java-sdk-opsworks | 1.11.655 |
com.amazonaws | aws-java-sdk-rds | 1.11.655 |
com.amazonaws | aws-java-sdk-redshift | 1.11.655 |
com.amazonaws | aws-java-sdk-route53 | 1.11.655 |
com.amazonaws | aws-java-sdk-s3 | 1.11.655 |
com.amazonaws | aws-java-sdk-ses | 1.11.655 |
com.amazonaws | aws-java-sdk-simpledb | 1.11.655 |
com.amazonaws | aws-java-sdk-simpleworkflow | 1.11.655 |
com.amazonaws | aws-java-sdk-sns | 1.11.655 |
com.amazonaws | aws-java-sdk-sqs | 1.11.655 |
com.amazonaws | aws-java-sdk-ssm | 1.11.655 |
com.amazonaws | aws-java-sdk-storagegateway | 1.11.655 |
com.amazonaws | aws-java-sdk-sts | 1.11.655 |
com.amazonaws | aws-java-sdk-support | 1.11.655 |
com.amazonaws | aws-java-sdk-swf-libraries | 1.11.22 |
com.amazonaws | aws-java-sdk-workspaces | 1.11.655 |
com.amazonaws | jmespath-java | 1.11.655 |
com.chuusai | shapeless_2.12 | 2.3.3 |
com.clearspring.analytics | transmissão em fluxo | 2.9.6 |
com.databricks | Rserve | 1.8-3 |
com.databricks | jets3t | 0.7.1-0 |
com.databricks.scalapb | compilerplugin_2.12 | 0.4.15-10 |
com.databricks.scalapb | scalapb-runtime_2,12 | 0.4.15-10 |
com.esotericsoftware | sombreado de kryo | 4.0.2 |
com.esotericsoftware | minlog | 1.3.0 |
com.fasterxml | colega de turma | 1.3.4 |
com.fasterxml.jackson.core | jackson-anotações | 2.10.0 |
com.fasterxml.jackson.core | jackson-core | 2.10.0 |
com.fasterxml.jackson.core | jackson-databind | 2.10.0 |
com.fasterxml.jackson.dataformat | jackson-dataformat-cbor | 2.10.0 |
com.fasterxml.jackson.datatype | jackson-datatype-joda | 2.10.0 |
com.fasterxml.jackson.module | jackson-module-paranamer | 2.10.0 |
com.fasterxml.jackson.module | jackson-módulo-scala_2.12 | 2.10.0 |
com.github.ben-manes.cafeína | cafeína | 2.3.4 |
com.github.fommil | jniloader | 1.1 |
com.github.fommil.netlib | núcleo | 1.1.2 |
com.github.fommil.netlib | native_ref-java | 1.1 |
com.github.fommil.netlib | native_ref-java-nativos | 1.1 |
com.github.fommil.netlib | native_system-java | 1.1 |
com.github.fommil.netlib | native_system-java-nativos | 1.1 |
com.github.fommil.netlib | netlib-native_ref-linux-x86_64-natives | 1.1 |
com.github.fommil.netlib | netlib-native_system-linux-x86_64-natives | 1.1 |
com.github.joshelser | dropwizard-metrics-hadoop-metrics2-reporter | 0.1.2 |
com.github.luben | ZSTD-JNI | 1.4.4-3 |
com.github.wendykierp | JTransforms | 3.1 |
com.google.code.findbugs | jsr305 | 3.0.0 |
com.google.code.gson | gson | 2.2.4 |
com.google.flatbuffers | flatbuffers-java | 1.9.0 |
com.google.guava | guava | 15.0 |
com.google.protobuf | protobuf-java | 2.6.1 |
com.h2database | h2 | 1.4.195 |
com.helger | criador de perfil | 1.1.1 |
com.jcraft | jsch | 0.1.50 |
com.jolbox | bonecp | 0.8.0.RELEASE |
com.microsoft.azure | azure-data-lake-store-sdk | 2.2.8 |
com.microsoft.sqlserver | mssql-jdbc | 8.2.1.jre8 |
com.ning | compress-lzf | 1.0.3 |
com.sun.mail | javax.mail | 1.5.2 |
com.tdunning | json | 1.8 |
com.thoughtworks.paranamer | paranamer | 2.8 |
com.trueaccord.lenses | lenses_2.12 | 0.4.12 |
com.twitter | chill-java | 0.9.5 |
com.twitter | chill_2.12 | 0.9.5 |
com.twitter | util-app_2.12 | 7.1.0 |
com.twitter | util-core_2.12 | 7.1.0 |
com.twitter | util-function_2.12 | 7.1.0 |
com.twitter | util-jvm_2.12 | 7.1.0 |
com.twitter | util-lint_2.12 | 7.1.0 |
com.twitter | util-registry_2.12 | 7.1.0 |
com.twitter | util-stats_2.12 | 7.1.0 |
com.typesafe | configuração | 1.2.1 |
com.typesafe.scala-logging | Escala-logging_2.12 | 3.7.2 |
com.univocity | univocity-parsers | 2.8.3 |
com.zaxxer | HikariCP | 3.1.0 |
commons-beanutils | commons-beanutils | 1.9.4 |
commons-cli | commons-cli | 1.2 |
commons-codec | commons-codec | 1.10 |
commons-collections | commons-collections | 3.2.2 |
commons-configuration | commons-configuration | 1.6 |
commons-dbcp | commons-dbcp | 1.4 |
commons-digester | commons-digester | 1.8 |
commons-fileupload | commons-fileupload | 1.3.3 |
commons-httpclient | commons-httpclient | 3.1 |
commons-io | commons-io | 2.4 |
commons-lang | commons-lang | 2.6 |
registo de comuns | registo de comuns | 1.1.3 |
commons-net | commons-net | 3.1 |
commons-pool | commons-pool | 1.5.4 |
info.ganglia.gmetric4j | gmetric4j | 1.0.10 |
io.ponte aérea | compressor de ar | 0.10 |
io.dropwizard.metrics | metrics-core | 4.1.1 |
io.dropwizard.metrics | metrics-graphite | 4.1.1 |
io.dropwizard.metrics | metrics-healthchecks | 4.1.1 |
io.dropwizard.metrics | metrics-jetty9 | 4.1.1 |
io.dropwizard.metrics | métricas-jmx | 4.1.1 |
io.dropwizard.metrics | metrics-json | 4.1.1 |
io.dropwizard.metrics | metrics-jvm | 4.1.1 |
io.dropwizard.metrics | metrics-servlets | 4.1.1 |
io.netty | netty-all | 4.1.47.Final |
jacarta.anotação | Jacarta.Anotação-API | 1.3.5 |
jacarta.validação | Jacarta.validation-api | 2.0.2 |
jakarta.ws.rs | Jacarta.ws.rs-api | 2.1.6 |
javax.activation | ativação | 1.1.1 |
javax.el | javax.el-api | 2.2.4 |
javax.jdo | jdo-api | 3.0.1 |
javax.servlet | javax.servlet-api | 3.1.0 |
javax.servlet.jsp | jsp-api | 2.1 |
javax.transaction | jta | 1.1 |
javax.transaction | API de transação | 1.1 |
javax.xml.bind | jaxb-api | 2.2.2 |
javax.xml.stream | stax-api | 1.0-2 |
javolution | javolution | 5.5.1 |
jline | jline | 2.14.6 |
joda-time | joda-time | 2.10.5 |
log4j | apache-log4j-extras | 1.2.17 |
log4j | log4j | 1.2.17 |
net.razorvine | pirolite | 4.30 |
net.sf.jpam | jpam | 1.1 |
net.sf.opencsv | opencsv | 2.3 |
net.sf.supercsv | super-csv | 2.2.0 |
net.floco de neve | flocos de neve-ingestão-sdk | 0.9.6 |
net.floco de neve | Flocos de Neve-JDBC | 3.12.0 |
net.floco de neve | faísca-snowflake_2.12 | 2.5.9-spark_2.4 |
net.sourceforge.f2j | arpack_combined_all | 0.1 |
org.acplt.remotetea | Remotetea-oncrpc | 1.1.2 |
org.antlr | ST4 | 4.0.4 |
org.antlr | antlr-runtime | 3.5.2 |
org.antlr | antlr4-runtime | 4.7.1 |
org.antlr | stringtemplate | 3.2.1 |
org.apache.ant | formiga | 1.9.2 |
org.apache.ant | ant-jsch | 1.9.2 |
org.apache.ant | ant-launcher | 1.9.2 |
org.apache.arrow | formato de seta | 0.15.1 |
org.apache.arrow | seta-memória | 0.15.1 |
org.apache.arrow | vetor de seta | 0.15.1 |
org.apache.avro | avro | 1.8.2 |
org.apache.avro | avro-ipc | 1.8.2 |
org.apache.avro | avro-mapred-hadoop2 | 1.8.2 |
org.apache.commons | commons-compress | 1.8.1 |
org.apache.commons | commons-crypto | 1.0.0 |
org.apache.commons | commons-lang3 | 3.9 |
org.apache.commons | commons-math3 | 3.4.1 |
org.apache.commons | commons-texto | 1.6 |
org.apache.curator | curador-cliente | 2.7.1 |
org.apache.curator | curador-framework | 2.7.1 |
org.apache.curator | curador-receitas | 2.7.1 |
org.apache.derby | derby | 10.12.1.1 |
org.apache.directory.api | api-asn1-api | 1.0.0-M20 |
org.apache.directory.api | api-util | 1.0.0-M20 |
org.apache.directory.server | apacheds-i18n | 2.0.0-M15 |
org.apache.directory.server | apacheds-kerberos-codec | 2.0.0-M15 |
org.apache.hadoop | hadoop-annotations | 2.7.4 |
org.apache.hadoop | hadoop-auth | 2.7.4 |
org.apache.hadoop | hadoop-client | 2.7.4 |
org.apache.hadoop | hadoop-common | 2.7.4 |
org.apache.hadoop | hadoop-hdfs | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-app | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-common | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-core | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-jobclient | 2.7.4 |
org.apache.hadoop | hadoop-mapreduce-client-shuffle | 2.7.4 |
org.apache.hadoop | hadoop-yarn-api | 2.7.4 |
org.apache.hadoop | hadoop-yarn-client | 2.7.4 |
org.apache.hadoop | hadoop-yarn-common | 2.7.4 |
org.apache.hadoop | hadoop-yarn-server-common | 2.7.4 |
org.apache.hive | hive-beeline | 2.3.7 |
org.apache.hive | hive-cli | 2.3.7 |
org.apache.hive | colmeia-comum | 2.3.7 |
org.apache.hive | colmeia-exec-core | 2.3.7 |
org.apache.hive | hive-jdbc | 2.3.7 |
org.apache.hive | hive-llap-cliente | 2.3.7 |
org.apache.hive | colmeia-lamp-comum | 2.3.7 |
org.apache.hive | hive-metastore | 2.3.7 |
org.apache.hive | Colmeia-Serde | 2.3.7 |
org.apache.hive | colmeias-calços | 2.3.7 |
org.apache.hive | hive-storage-api | 2.7.1 |
org.apache.hive | hive-vector-code-gen | 2.3.7 |
org.apache.hive.shims | colmeia-calços-0,23 | 2.3.7 |
org.apache.hive.shims | colmeia-calços-comum | 2.3.7 |
org.apache.hive.shims | colmeia-shims-scheduler | 2.3.7 |
org.apache.htrace | htrace-core | 3.1.0 incubação |
org.apache.httpcomponents | httpclient | 4.5.6 |
org.apache.httpcomponents | httpcore | 4.4.12 |
org.apache.ivy | hera | 2.4.0 |
org.apache.orc | orc-núcleo | 1.5.10 |
org.apache.orc | orc-mapreduce | 1.5.10 |
org.apache.orc | Orc-calços | 1.5.10 |
org.apache.parquet | parquet-column | 1.10.1.2-DATABRICKS4 |
org.apache.parquet | parquet-common | 1.10.1.2-DATABRICKS4 |
org.apache.parquet | parquet-encoding | 1.10.1.2-DATABRICKS4 |
org.apache.parquet | parquet-format | 2.4.0 |
org.apache.parquet | parquet-hadoop | 1.10.1.2-DATABRICKS4 |
org.apache.parquet | parquet-jackson | 1.10.1.2-DATABRICKS4 |
org.apache.thrift | libfb303 | 0.9.3 |
org.apache.thrift | libthrift | 0.12.0 |
org.apache.velocity | velocidade | 1.5 |
org.apache.xbean | xbean-asm7-sombreado | 4.15 |
org.apache.yetus | anotações de audiência | 0.5.0 |
org.apache.zookeeper | zookeeper | 3.4.14 |
org.codehaus.jackson | jackson-core-asl | 1.9.13 |
org.codehaus.jackson | jackson-jaxrs | 1.9.13 |
org.codehaus.jackson | jackson-mapper-asl | 1.9.13 |
org.codehaus.jackson | jackson-xc | 1.9.13 |
org.codehaus.janino | commons-compiler | 3.0.16 |
org.codehaus.janino | janino | 3.0.16 |
org.datanucleus | datanucleus-api-jdo | 4.2.4 |
org.datanucleus | datanucleus-core | 4.1.17 |
org.datanucleus | datanucleus-rdbms | 4.1.19 |
org.datanucleus | javax.jdo | 3.2.0-m3 |
org.eclipse.jetty | jetty-client | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-continuation | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-http | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-io | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-jndi | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-plus | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-proxy | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-security | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-server | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlet | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-servlets | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-util | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-webapp | 9.4.18.v20190429 |
org.eclipse.jetty | jetty-xml | 9.4.18.v20190429 |
org.fusesource.leveldbjni | leveldbjni-all | 1.8 |
org.glassfish.hk2 | hk2-api | 2.6.1 |
org.glassfish.hk2 | localizador hk2 | 2.6.1 |
org.glassfish.hk2 | hk2-utils | 2.6.1 |
org.glassfish.hk2 | osgi-resource-locator | 1.0.3 |
org.glassfish.hk2.external | aopalliance-repackaged | 2.6.1 |
org.glassfish.hk2.external | jacarta.inject | 2.6.1 |
org.glassfish.jersey.containers | jersey-container-servlet | 2.30 |
org.glassfish.jersey.containers | jersey-container-servlet-core | 2.30 |
org.glassfish.jersey.core | jersey-client | 2.30 |
org.glassfish.jersey.core | jersey-common | 2.30 |
org.glassfish.jersey.core | servidor de jersey | 2.30 |
org.glassfish.jersey.inject | Jersey-HK2 | 2.30 |
org.glassfish.jersey.media | jersey-media-jaxb | 2.30 |
org.hibernate.validator | hibernate-validator | 6.1.0.Final |
org.javassist | javassist | 3.25.0-GA |
org.jboss.logging | jboss-logging | 3.3.2.Final |
org.jdbi | jdbi | 2.63.1 |
org.joda | joda-convert | 1.7 |
org.jodd | jodd-core | 3.5.2 |
org.json4s | JSON4S-ast_2.12 | 3.6.6 |
org.json4s | JSON4S-core_2.12 | 3.6.6 |
org.json4s | JSON4S-jackson_2,12 | 3.6.6 |
org.json4s | JSON4S-scalap_2.12 | 3.6.6 |
org.lz4 | LZ4-Java | 1.7.1 |
org.mariadb.jdbc | mariadb-java-client | 2.1.2 |
org.objenesis | objenesis | 2.5.1 |
org.postgresql | postgresql | 42.1.4 |
org.roaringbitmap | RoaringBitmap | 0.7.45 |
org.roaringbitmap | calços | 0.7.45 |
org.rocksdb | rocksdbjni | 6.2.2 |
org.rosuda.REngine | REngine | 2.1.0 |
org.scala-lang | Escala-compiler_2.12 | 2.12.10 |
org.scala-lang | Escala-library_2.12 | 2.12.10 |
org.scala-lang | Escala-reflect_2,12 | 2.12.10 |
org.scala-lang.modules | scala-coleção-compat_2.12 | 2.1.1 |
org.scala-lang.modules | scala-parser-combinators_2.12 | 1.1.2 |
org.scala-lang.modules | Escala-xml_2.12 | 1.2.0 |
org.scala-sbt | interface de teste | 1.0 |
org.scalacheck | scalacheck_2.12 | 1.14.2 |
org.scalactic | scalactic_2.12 | 3.0.8 |
org.scalanlp | Brisa-macros_2.12 | 1.0 |
org.scalanlp | breeze_2.12 | 1.0 |
org.scalatest | scalatest_2.12 | 3.0.8 |
org.slf4j | jcl-over-slf4j | 1.7.30 |
org.slf4j | jul-to-slf4j | 1.7.30 |
org.slf4j | slf4j-api | 1.7.30 |
org.slf4j | slf4j-log4j12 | 1.7.30 |
org.spark-project.spark | não utilizado | 1.0.0 |
org.springframework | spring-core | 4.1.4.RELEASE |
org.springframework | teste de primavera | 4.1.4.RELEASE |
org.threeten | trêsdez-extra | 1.5.0 |
org.tukaani | xz | 1.5 |
org.typelevel | algebra_2.12 | 2.0.0-M2 |
org.typelevel | gatos-kernel_2.12 | 2.0.0-M4 |
org.typelevel | machinist_2.12 | 0.6.8 |
org.typelevel | macro-compat_2.12 | 1.1.1 |
org.typelevel | torre-macros_2.12 | 0,17,0-m1 |
org.typelevel | torre-platform_2.12 | 0,17,0-m1 |
org.typelevel | torre-util_2.12 | 0,17,0-m1 |
org.typelevel | spire_2.12 | 0,17,0-m1 |
org.xerial | sqlite-jdbc | 3.8.11.2 |
org.xerial.snappy | snappy-java | 1.1.7.5 |
org.yaml | snakeyaml | 1,24 |
oro | oro | 2.0.8 |
pl.edu.icm | JLargeArrays | 1.5 |
software.amazon.ion | ion-java | 1.0.2 |
stax | stax-api | 1.0.1 |
xmlenc | xmlenc | 0.52 |