Databricks Runtime 5.2 ML
Usługa Databricks wydała tę wersję w styczniu 2019 r.
Środowisko Databricks Runtime 5.2 ML zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 5.2 (EoS). Środowisko Databricks Runtime dla uczenia maszynowego zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch, Keras i XGBoost. Obsługuje również rozproszone trenowanie Biblioteki TensorFlow przy użyciu struktury Horovod.
Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks Runtime, zobacz Sztuczna inteligencja i uczenie maszynowe w usłudze Databricks.
Nowe funkcje
Środowisko Databricks Runtime 5.2 ML jest oparte na środowisku Databricks Runtime 5.2. Aby uzyskać informacje o nowościach w środowisku Databricks Runtime 5.2, zobacz informacje o wersji środowiska Databricks Runtime 5.2 (EoS). Oprócz aktualizacji biblioteki środowisko Databricks Runtime 5.2 ML wprowadza następujące nowe funkcje:
- Elementy GraphFrames obsługują teraz interfejs API pregel (Python) z optymalizacjami wydajności usługi Databricks.
- HorovodRunner dodaje:
- W klastrze gpu procesy trenowania są mapowane na procesory GPU zamiast węzłów roboczych, aby uprościć obsługę typów wystąpień z wieloma procesorami GPU. Ta wbudowana obsługa umożliwia dystrybucję do wszystkich procesorów GPU na maszynie z wieloma procesorami GPU bez kodu niestandardowego.
HorovodRunner.run()
teraz zwraca wartość zwracaną z pierwszego procesu trenowania.
Uwaga
Wersje środowiska Databricks Runtime ML pobierają wszystkie aktualizacje konserwacji do podstawowej wersji środowiska Databricks Runtime. Aby uzyskać listę wszystkich aktualizacji konserwacji, zobacz Aktualizacje konserwacji środowiska Databricks Runtime (zarchiwizowane).
Środowisko systemu
Środowisko systemowe w środowisku Databricks Runtime 5.2 ML różni się od środowiska Databricks Runtime 5.2 w następujący sposób:
- Python: 2.7.15 dla klastrów języka Python 2 i 3.6.5 dla klastrów języka Python 3.
- DBUtils: Środowisko Databricks Runtime 5.2 ML nie zawiera narzędzia biblioteki (dbutils.library) (starsza wersja).
- W przypadku klastrów gpu następujące biblioteki procesora GPU firmy NVIDIA:
- Kierowca Tesla 396.44
- CUDA 9.2
- CUDNN 7.2.1
Biblioteki
W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 5.2 ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 5.2.
Biblioteki języka Python
Środowisko Databricks Runtime 5.2 ML używa narzędzia Conda do zarządzania pakietami języka Python. W związku z tym istnieją poważne różnice w wstępnie zainstalowanych bibliotek języka Python w porównaniu z środowiskiem Databricks Runtime. Poniżej znajduje się pełna lista udostępnionych pakietów i wersji języka Python zainstalowanych przy użyciu menedżera pakietów Conda.
Biblioteka | Wersja | Biblioteka | Wersja | Biblioteka | Wersja |
---|---|---|---|---|---|
absl-py | 0.6.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
Astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.5 | wybielacz | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
kryptografia | 2.2.2 | rowerzysta | 0.10.0 | Cython | 0.28.2 |
dekorator | 4.3.0 | docutils | 0,14 | punkty wejścia | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | Futures | 3.2.0 |
Gast | 0.2.0 | grpcio | 1.12.1 | h5py | 2.8.0 |
horovod | 0.15.2 | html5lib | 1.0.1 | idna | 2.6 |
ipaddress | 1.0.22 | ipython | 5.7.0 | ipython_genutils | 0.2.0 |
jdcal | 1.4 | Jinja2 | 2.10 | jmespath | 0.9.3 |
jsonschema | 2.6.0 | jupyter-client | 5.2.3 | jupyter-core | 4.4.0 |
Keras | 2.2.4 | Keras-Applications | 1.0.6 | Przetwarzanie wstępne protokołu Keras | 1.0.5 |
kiwisolver | 1.0.1 | linecache2 | 1.0.0 | llvmlite | 0.23.1 |
lxml | 4.2.1 | Znaczniki języka Markdown | 3.0.1 | MarkupSafe | 1.0 |
matplotlib | 2.2.2 | mistune | 0.8.3 | mleap | 0.8.1 |
drwić | 2.0.0 | msgpack | 0.5.6 | nbconvert | 5.3.1 |
nbformat | 4.4.0 | nos | 1.3.7 | wyklucz nos | 0.5.0 |
numba | 0.38.0+0.g2a2b772fc.dirty | numpy | 1.14.3 | olefile | 0.45.1 |
openpyxl | 2.5.3 | Pandas | 0.23.0 | pandocfilters | 1.4.2 |
paramiko | 2.4.1 | pathlib2 | 2.3.2 | Patsy | 0.5.0 |
pbr | 5.1.1 | pexpect | 4.5.0 | pickleshare | 0.7.4 |
Poduszka | 5.1.0 | 10.0.1 | warstwa | 3.11 | |
prompt-toolkit | 1.0.15 | protobuf | 3.6.1 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.8.0 | pyasn1 | 0.4.4 |
pycparser | 2.18 | Pygments | 2.2.0 | PyNaCl | 1.3.0 |
pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 | PySocks | 1.6.8 |
Python | 2.7.15 | python-dateutil | 2.7.3 | pytz | 2018.4 |
PyYAML | 3.12 | pyzmq | 17.0.0 | żądania | 2.18.4 |
s3transfer | 0.1.13 | scandir | 1,7 | scikit-learn | 0.19.1 |
scipy | 1.1.0 | seaborn | 0.8.1 | setuptools | 39.1.0 |
simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 | Sześć | 1.11.0 |
statsmodels | 0.9.0 | podprocesy32 | 3.5.3 | tablica tensorboard | 1.12.2 |
tensorboardX | 1.4 | tensorflow | 1.12.0 | termcolor | 1.1.0 |
ścieżka testowa | 0.3.1 | pochodnia | 0.4.1 | torchvision | 0.2.1 |
tornado | 5.0.2 | traceback2 | 1.4.0 | traitlety | 4.3.2 |
unittest2 | 1.1.0 | urllib3 | 1.22 | virtualenv | 16.0.0 |
wcwidth | 0.1.7 | webencodings | 0.5.1 | Werkzeug | 0.14.1 |
koło | 0.31.1 | zawijanie | 1.10.11 | wsgiref | 0.1.2 |
Ponadto następujące pakiety platformy Spark obejmują moduły języka Python:
Pakiet Platformy Spark | Moduł języka Python | Wersja |
---|---|---|
ramki grafu | ramki grafu | 0.7.0-db1-spark2.4 |
uczenie głębokie spark | sparkdl | 1.5.0-db1-spark2.4 |
ramki tensorframe | ramki tensorframe | 0.6.0-s_2.11 |
Biblioteki R
Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 5.2.
Biblioteki Java i Scala (klaster Scala 2.11)
Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 5.2 środowisko Databricks Runtime 5.2 ML zawiera następujące jednostki JAR:
Identyfikator grupy | Identyfikator artefaktu | Wersja |
---|---|---|
com.databricks | uczenie głębokie spark | 1.5.0-db1-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0.81 |
ml.dmlc | xgboost4j-spark | 0.81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | ramki tensorframe | 0.6.0-s_2.11 |