Databricks Runtime 5.4 for ML (EoS)
Uwaga
Obsługa tej wersji środowiska Databricks Runtime została zakończona. Aby uzyskać datę zakończenia pomocy technicznej, zobacz Historia zakończenia pomocy technicznej. Wszystkie obsługiwane wersje środowiska Databricks Runtime można znaleźć w temacie Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime).
Usługa Databricks wydała tę wersję w czerwcu 2019 roku.
Środowisko Databricks Runtime 5.4 for Machine Learning zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 5.4 (EoS). Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch, Keras i XGBoost. Obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.
Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks Runtime, zobacz Sztuczna inteligencja i uczenie maszynowe w usłudze Databricks.
Nowe funkcje
Środowisko Databricks Runtime 5.4 ML jest oparte na środowisku Databricks Runtime 5.4. Aby uzyskać informacje o nowościach w środowisku Databricks Runtime 5.4, zobacz informacje o wersji środowiska Databricks Runtime 5.4 (EoS).
Oprócz aktualizacji biblioteki środowisko Databricks Runtime 5.4 ML wprowadza następujące nowe funkcje:
Rozproszone śledzenie biblioteki Hyperopt i zautomatyzowanego śledzenia MLflow
Środowisko Databricks Runtime 5.4 ML wprowadza nową implementację funkcji Hyperopt obsługiwanej przez platformę Apache Spark w celu skalowania i upraszczania dostrajania hiperparametrów. Nowa Trials
klasa SparkTrials
jest implementowana w celu dystrybucji przebiegów próbnych funkcji Hyperopt między wieloma maszynami i węzłami przy użyciu platformy Apache Spark. Ponadto wszystkie eksperymenty dostrajania wraz ze dostrojenia hiperparametrami i docelowymi metrykami są automatycznie rejestrowane w przebiegach MLflow. Zobacz Równoległe dostrajanie hiperparametrów funkcji Hyperopt.
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
Biblioteka MLlib platformy Apache Spark i zautomatyzowane śledzenie MLflow
Środowisko Databricks Runtime 5.4 ML obsługuje automatyczne rejestrowanie przebiegów MLflow dla modeli pasujących do algorytmów CrossValidator
dostrajania PySpark i TrainValidationSplit
. Zobacz Biblioteki MLlib platformy Apache Spark i zautomatyzowane śledzenie MLflow. Ta funkcja jest domyślnie włączona w środowisku Databricks Runtime 5.4 ML, ale domyślnie była wyłączona w środowisku Databricks Runtime 5.3 ML.
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
Ulepszenia modułu HorovodRunner
Dane wyjściowe wysyłane z platformy Horovod do węzła sterownika spark są teraz widoczne w komórkach notesu.
Aktualizacja pakietu języka Python XGBoost
Zainstalowano pakiet języka Python XGBoost 0.80.
Środowisko systemu
Środowisko systemowe w środowisku Databricks Runtime 5.4 ML różni się od środowiska Databricks Runtime 5.4 w następujący sposób:
- Python: 2.7.15 dla klastrów języka Python 2 i 3.6.5 dla klastrów języka Python 3.
- DBUtils: Środowisko Databricks Runtime 5.4 ML nie zawiera narzędzia biblioteki (dbutils.library) (starsza wersja).
- W przypadku klastrów gpu następujące biblioteki procesora GPU firmy NVIDIA:
- Kierowca Tesla 396.44
- CUDA 9.2
- CUDNN 7.2.1
Biblioteki
W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 5.4 ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 5.4.
Biblioteki najwyższego poziomu
Środowisko Databricks Runtime 5.4 ML obejmuje następujące biblioteki najwyższego poziomu:
Biblioteki języka Python
Środowisko Databricks Runtime 5.4 ML używa narzędzia Conda do zarządzania pakietami języka Python. W związku z tym istnieją poważne różnice w instalowanych bibliotekach języka Python w porównaniu z środowiskiem Databricks Runtime. Poniżej znajduje się pełna lista udostępnionych pakietów i wersji języka Python zainstalowanych przy użyciu menedżera pakietów Conda.
Biblioteka | Wersja | Biblioteka | Wersja | Biblioteka | Wersja |
---|---|---|---|---|---|
absl-py | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
Astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.6 | wybielacz | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
kryptografia | 2.2.2 | rowerzysta | 0.10.0 | Cython | 0.28.2 |
dekorator | 4.3.0 | docutils | 0,14 | punkty wejścia | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | przyszłość | 0.17.1 |
Futures | 3.2.0 | Gast | 0.2.2 | grpcio | 1.12.1 |
h5py | 2.8.0 | horovod | 0.16.0 | html5lib | 1.0.1 |
hyperopt | 0.1.2.db4 | idna | 2.6 | ipaddress | 1.0.22 |
ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2.10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-client | 5.2.3 | jupyter-core | 4.4.0 | Keras | 2.2.4 |
Keras-Applications | 1.0.7 | Przetwarzanie wstępne protokołu Keras | 1.0.9 | kiwisolver | 1.1.0 |
linecache2 | 1.0.0 | llvmlite | 0.23.1 | lxml | 4.2.1 |
Znaczniki języka Markdown | 3.1.1 | MarkupSafe | 1.0 | matplotlib | 2.2.2 |
mistune | 0.8.3 | mkl-fft | 1.0.0 | mkl-random | 1.0.1 |
mleap | 0.8.1 | drwić | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | networkx | 2,2 |
nos | 1.3.7 | wyklucz nos | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.dirty |
numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
Pandas | 0.23.0 | pandocfilters | 1.4.2 | paramiko | 2.4.1 |
pathlib2 | 2.3.2 | Patsy | 0.5.0 | pbr | 5.1.3 |
pexpect | 4.5.0 | pickleshare | 0.7.4 | Poduszka | 5.1.0 |
10.0.1 | warstwa | 3.11 | prompt-toolkit | 1.0.15 | |
protobuf | 3.7.1 | psutil | 5.6.2 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2.18 | Pygments | 2.2.0 | pymongo | 3.8.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5,1 | pyzmq | 17.0.0 |
żądania | 2.18.4 | s3transfer | 0.1.13 | scandir | 1,7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
Sześć | 1.11.0 | statsmodels | 0.9.0 | podprocesy32 | 3.5.4 |
tablica tensorboard | 1.12.2 | tensorboardX | 1.6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | ścieżka testowa | 0.3.1 | pochodnia | 0.4.1 |
torchvision | 0.2.1 | tornado | 5.0.2 | tqdm | 4.32.1 |
traceback2 | 1.4.0 | traitlety | 4.3.2 | unittest2 | 1.1.0 |
urllib3 | 1.22 | virtualenv | 16.0.0 | wcwidth | 0.1.7 |
webencodings | 0.5.1 | Werkzeug | 0.14.1 | koło | 0.31.1 |
zawijanie | 1.10.11 | wsgiref | 0.1.2 |
Ponadto następujące pakiety platformy Spark obejmują moduły języka Python:
Pakiet Platformy Spark | Moduł języka Python | Wersja |
---|---|---|
ramki grafu | ramki grafu | 0.7.0-db1-spark2.4 |
uczenie głębokie spark | sparkdl | 1.5.0-db3-spark2.4 |
ramki tensorframe | ramki tensorframe | 0.6.0-s_2.11 |
Biblioteki R
Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 5.4.
Biblioteki Java i Scala (klaster Scala 2.11)
Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 5.4 środowisko Databricks Runtime 5.4 ML zawiera następujące jednostki JAR:
Identyfikator grupy | Identyfikator artefaktu | Wersja |
---|---|---|
com.databricks | uczenie głębokie spark | 1.5.0-db3-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0.81 |
ml.dmlc | xgboost4j-spark | 0.81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | ramki tensorframe | 0.6.0-s_2.11 |