Udostępnij za pośrednictwem


Databricks Runtime 5.3 ML (EoS)

Uwaga

Obsługa tej wersji środowiska Databricks Runtime została zakończona. Aby uzyskać datę zakończenia pomocy technicznej, zobacz Historia zakończenia pomocy technicznej. Wszystkie obsługiwane wersje środowiska Databricks Runtime można znaleźć w temacie Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime).

Usługa Databricks wydała tę wersję w kwietniu 2019 r.

Środowisko Databricks Runtime 5.3 ML zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 5.3 (EoS). Środowisko Databricks Runtime dla uczenia maszynowego zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch, Keras i XGBoost. Obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.

Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks Runtime, zobacz Sztuczna inteligencja i uczenie maszynowe w usłudze Databricks.

Nowe funkcje

Środowisko Databricks Runtime 5.3 ML jest oparte na środowisku Databricks Runtime 5.3. Aby uzyskać informacje o nowościach w środowisku Databricks Runtime 5.3, zobacz informacje o wersji środowiska Databricks Runtime 5.3 (EoS). Oprócz aktualizacji biblioteki środowisko Databricks Runtime 5.3 ML wprowadza następujące nowe funkcje:

  • Integracja biblioteki MLflow + Apache Spark MLlib: środowisko Databricks Runtime 5.3 ML obsługuje automatyczne rejestrowanie przebiegów MLflow dla modeli pasujących do algorytmów CrossValidator dostrajania PySpark i TrainValidationSplit.

    Ważne

    Ta funkcja jest dostępna w prywatnej wersji zapoznawczej. Skontaktuj się z przedstawicielem ds. sprzedaży usługi Azure Databricks, aby dowiedzieć się więcej o jej włączeniu.

  • Uaktualnia następujące biblioteki do najnowszej wersji:

    • PyArrow z wersji 0.8.0 do 0.12.1: BinaryType jest obsługiwana przez konwersję opartą na strzałkach i może być używana w bibliotece PandasUDF.
    • Horovod z 0.15.2 do 0.16.0.
    • TensorboardX z wersji 1.4 do 1.6.

Interfejs API eksportu modeli uczenia maszynowego usługi Databricks został przestarzały. Usługa Azure Databricks zaleca zamiast tego używanie biblioteki MLeap, która zapewnia szerszy zakres typów modeli MLlib. Dowiedz się więcej na stronie Eksportowanie modelu uczenia maszynowego MLeap.

Uwaga

Ponadto środowisko Databricks Runtime 5.3 zawiera nową instalację FUSE zoptymalizowaną pod kątem ładowania danych, tworzenia punktów kontrolnych modelu i rejestrowania z każdego procesu roboczego do udostępnionej lokalizacji file:/dbfs/mlmagazynu, która zapewnia wysoką wydajność operacji we/wy na potrzeby obciążeń uczenia głębokiego. Zobacz Ładowanie danych na potrzeby uczenia maszynowego i uczenia głębokiego.

Aktualizacje konserwacyjne

Zobacz Aktualizacje konserwacji uczenia maszynowego usługi Databricks Runtime 5.4.

Środowisko systemu

Środowisko systemowe w środowisku Databricks Runtime 5.3 ML różni się od środowiska Databricks Runtime 5.3 w następujący sposób:

  • Python: 2.7.15 dla klastrów języka Python 2 i 3.6.5 dla klastrów języka Python 3.
  • DBUtils: Środowisko Databricks Runtime 5.3 ML nie zawiera narzędzia biblioteki (dbutils.library) (starsza wersja).
  • W przypadku klastrów gpu następujące biblioteki procesora GPU firmy NVIDIA:
    • Kierowca Tesla 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Biblioteki

W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 5.3 ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 5.3.

Biblioteki najwyższego poziomu

Środowisko Databricks Runtime 5.3 ML obejmuje następujące biblioteki najwyższego poziomu:

Biblioteki języka Python

Środowisko Databricks Runtime 5.3 ML używa narzędzia Conda do zarządzania pakietami języka Python. W związku z tym istnieją poważne różnice w wstępnie zainstalowanych bibliotek języka Python w porównaniu z środowiskiem Databricks Runtime. Poniżej znajduje się pełna lista udostępnionych pakietów i wersji języka Python zainstalowanych przy użyciu menedżera pakietów Conda.

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.7.0 argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 wybielacz 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
kryptografia 2.2.2 rowerzysta 0.10.0 Cython 0.28.2
dekorator 4.3.0 docutils 0,14 punkty wejścia 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Futures 3.2.0
Gast 0.2.2 grpcio 1.12.1 h5py 2.8.0
horovod 0.16.0 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2.10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Przetwarzanie wstępne protokołu Keras 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Znaczniki języka Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
drwić 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nos 1.3.7 wyklucz nos 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 Pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 Patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Poduszka 5.1.0 pip 10.0.1 warstwa 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psutil 5.6.0
psycopg2 2.7.5 ptyprocess 0.5.2 pyarrow 0.12.1
pyasn1 0.4.5 pycparser 2.18 Pygments 2.2.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 3.12 pyzmq 17.0.0
żądania 2.18.4 s3transfer 0.1.13 scandir 1,7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
Sześć 1.11.0 statsmodels 0.9.0 podprocesy32 3.5.3
tablica tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 ścieżka testowa 0.3.1 pochodnia 0.4.1
torchvision 0.2.1 tornado 5.0.2 traceback2 1.4.0
traitlety 4.3.2 unittest2 1.1.0 urllib3 1.22
virtualenv 16.0.0 wcwidth 0.1.7 webencodings 0.5.1
Werkzeug 0.14.1 koło 0.31.1 zawijanie 1.10.11
wsgiref 0.1.2

Ponadto następujące pakiety platformy Spark obejmują moduły języka Python:

Pakiet Platformy Spark Moduł języka Python Wersja
ramki grafu ramki grafu 0.7.0-db1-spark2.4
uczenie głębokie spark sparkdl 1.5.0-db1-spark2.4
ramki tensorframe ramki tensorframe 0.6.0-s_2.11

Biblioteki R

Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 5.3.

Biblioteki Java i Scala (klaster Scala 2.11)

Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 5.3 środowisko Databricks Runtime 5.3 ML zawiera następujące jednostki JAR:

Identyfikator grupy Identyfikator artefaktu Wersja
com.databricks uczenie głębokie spark 1.5.0-db1-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes ramki tensorframe 0.6.0-s_2.11