Naslaginformatie: Ubuntu (Linux) Datawetenschap virtuele machine
Dit document bevat een lijst met beschikbare hulpprogramma's op uw Ubuntu Datawetenschap Virtual Machine (DSVM).
Deep Learning-bibliotheken
PyTorch
PyTorch is een populair wetenschappelijk computingframework, met brede ondersteuning voor machine learning-algoritmen. Als uw computer een ingebouwde GPU heeft, kan deze gebruikmaken van die GPU om de deep learning te versnellen. PyTorch is beschikbaar in de py38_pytorch
omgeving.
H2O
H2O is een snel, in-memory, gedistribueerd machine learning- en predictive analytics-platform. Er wordt een Python-pakket geïnstalleerd in zowel de hoofd- als py35 Anaconda-omgevingen. Er is ook een R-pakket geïnstalleerd.
Voer java -jar /dsvm/tools/h2o/current/h2o.jar
H2O uit vanaf de opdrachtregel om H2O te openen. U kunt verschillende beschikbareopdrachtregelopties configureren. Blader naar de webinterface van Flow om aan de slag te http://localhost:54321
gaan. JupyterHub biedt voorbeeldnotebooks.
TensorFlow
TensorFlow is de Google Deep Learning-bibliotheek. Het is een opensource-softwarebibliotheek voor numerieke berekeningen met behulp van gegevensstroomgrafieken. Als uw computer een GPU heeft ingebouwd, kan deze GPU gebruiken om de deep learning te versnellen. TensorFlow is beschikbaar in de py38_tensorflow
Conda-omgeving.
Python
De Datawetenschap Virtual Machine (DSVM) heeft meerdere vooraf geïnstalleerde Python-omgevingen, met Python versie 3.8 of Python versie 3.6. Voer conda env list
deze opdracht uit in een terminalvenster om de volledige lijst met geïnstalleerde omgevingen weer te geven.
Jupyter
De DSVM wordt ook geleverd met Jupyter, een omgeving voor het delen van code en codeanalyse. Jupyter is geïnstalleerd op de DSVM in deze smaken:
- Jupyter Lab
- Jupyter Notebook
- Jupyter Hub
Als u Jupyter Lab wilt starten, opent u Jupyter in het toepassingsmenu of selecteert u het bureaubladpictogram. U kunt ook uitvoeren jupyter lab
vanaf een opdrachtregel om Jupyter Lab te openen.
Als u Jupyter Notebook wilt openen, opent u een opdrachtregel en voert u deze uit jupyter notebook
.
Als u Jupyter Hub wilt openen, opent u https://< VM DNS-naam of IP-adres>:8000/ in een browser. U moet uw lokale Linux-gebruikersnaam en -wachtwoord opgeven.
Notitie
U kunt certificaatwaarschuwingen negeren.
Notitie
Voor de Ubuntu-installatiekopieën wordt firewallpoort 8000 standaard geopend wanneer de VIRTUELE machine wordt ingericht.
Zelfstandige Apache Spark-versie
Een zelfstandig exemplaar van Apache Spark is vooraf geïnstalleerd op de Linux-DSVM, zodat u Spark-toepassingen lokaal kunt ontwikkelen voordat u deze toepassingen test en implementeert op grote clusters.
U kunt PySpark-programma's uitvoeren via de Jupyter-kernel. Wanneer Jupyter wordt gestart, selecteert u de knop Nieuw . Een lijst met beschikbare kernels moet zichtbaar worden. U kunt Spark-toepassingen bouwen met de Python-taal als u de Spark - Python-kernel kiest. U kunt ook een Python IDE gebruiken, bijvoorbeeld VS. Code of PyCharm: om uw Spark-programma te bouwen.
In dit zelfstandige exemplaar wordt de Spark-stack uitgevoerd in het aanroepende clientprogramma. Deze functie maakt het sneller en eenvoudiger om problemen op te lossen, vergeleken met de ontwikkeling in een Spark-cluster.
IDE's en editors
U hebt een keuze uit verschillende code-editors, waaronder VS. Code, PyCharm, IntelliJ, vi/Vim of Emacs.
VS. Code, PyCharm en IntelliJ zijn grafische editors. Als u ze wilt gebruiken, moet u zijn aangemeld bij een grafisch bureaublad. U opent ze met behulp van snelkoppelingen in het bureaublad- en toepassingsmenu.
Vim en Emacs zijn teksteditors. Op Emacs maakt het ESS-invoegtoepassingspakket het gemakkelijker om met R te werken in de Emacs-editor. Ga naar de WEBSITE van ESS voor meer informatie.
Databases
Grafische SQL-client
SQuirrel SQL, een grafische SQL-client, kan verbinding maken met verschillende databases, bijvoorbeeld Microsoft SQL Server of MySQL, en SQL-query's uitvoeren. De snelste manier om SQuirrel SQL te openen, is door het toepassingsmenu te gebruiken vanuit een grafische bureaubladsessie (bijvoorbeeld via de X2Go-client)
Voordat u in eerste instantie gaat gebruiken, moet u uw stuurprogramma's en databasealiassen instellen. U vindt de JDBC-stuurprogramma's op /usr/share/java/jdbcdrivers.
Ga naar de SQuirrel SQL-resource voor meer informatie.
Opdrachtregelprogramma's voor toegang tot Microsoft SQL Server
Het ODBC-stuurprogrammapakket voor SQL Server bevat ook twee opdrachtregelprogramma's:
- bcp: Het bcp-hulpprogramma kopieert gegevens bulksgewijs tussen een exemplaar van Microsoft SQL Server en een gegevensbestand, in een door de gebruiker opgegeven indeling. U kunt het hulpprogramma bcp gebruiken om grote aantallen nieuwe rijen te importeren in SQL Server-tabellen of om gegevens uit tabellen te exporteren naar gegevensbestanden. Als u gegevens in een tabel wilt importeren, moet u een indelingsbestand gebruiken dat voor die tabel is gemaakt. U moet de structuur van de tabel en de typen gegevens begrijpen die geldig zijn voor de kolommen.
Ga naar Verbinding maken met bcp voor meer informatie.
sqlcmd: U kunt Transact-SQL-instructies invoeren met het hulpprogramma sqlcmd. U kunt ook systeemprocedures en scriptbestanden invoeren bij de opdrachtprompt. Dit hulpprogramma maakt gebruik van ODBC om Transact-SQL-batches uit te voeren.
Ga naar Verbinding maken met sqlcmd voor meer informatie.
Notitie
Er zijn enkele verschillen in dit hulpprogramma tussen de linux- en Windows-platformversies. Raadpleeg de documentatie voor meer informatie.
Databasetoegangsbibliotheken
R- en Python-bibliotheken zijn beschikbaar voor databasetoegang:
- In R kunt u de RODBC dplyr-pakketten gebruiken om SQL-instructies op de databaseserver op te vragen of uit te voeren
- In Python biedt de pyodbc-bibliotheek databasetoegang met ODBC als onderliggende laag
Azure-hulpprogramma's
Deze Azure-hulpprogramma's worden geïnstalleerd op de VM:
Azure CLI: U kunt de opdrachtregelinterface in Azure gebruiken om Azure-resources te maken en te beheren via shellopdrachten. Als u de Azure-hulpprogramma's wilt openen, voert u Azure Help in. Ga naar de documentatiepagina van Azure CLI voor meer informatie.
Azure Storage Explorer: Azure Storage Explorer is een grafisch hulpprogramma dat u kunt gebruiken om door de objecten te bladeren die u hebt opgeslagen in uw Azure-opslagaccount en om gegevens te uploaden en te downloaden van en naar Azure-blobs. U kunt Storage Explorer openen via het snelkoppelingspictogram op het bureaublad. U kunt deze ook openen vanuit een shellprompt als u StorageExplorer invoert. U moet zijn aangemeld vanaf een X2Go-client of doorsturen met X11 hebben ingesteld.
Azure-bibliotheken: dit zijn enkele van de vooraf geïnstalleerde bibliotheken:
- Python: Python biedt de azure-, azureml-, pydocumentdb- en pyodbc Azure-gerelateerde bibliotheken. Met de eerste drie bibliotheken hebt u toegang tot Azure Storage-services, Azure Machine Learning en Azure Cosmos DB (een NoSQL-database in Azure). De vierde bibliotheek, pyodbc (samen met het Microsoft ODBC-stuurprogramma voor SQL Server), biedt toegang tot SQL Server, Azure SQL Database en Azure Synapse Analytics vanuit Python via een ODBC-interface. Voer pip-lijst in om alle vermelde bibliotheken weer te geven. Zorg ervoor dat u deze opdracht uitvoert in de Python 2.7- en 3.5-omgevingen.
- R: Azure Machine Learning en RODBC zijn de Azure-gerelateerde bibliotheken in R.
- Java: Directory /dsvm/sdk/AzureSDKJava bevat de lijst met Azure Java-bibliotheken in de map /dsvm/sdk/AzureSDKJava op de VM. De sleutelbibliotheken zijn Azure Storage- en beheer-API's, Azure Cosmos DB en JDBC-stuurprogramma's voor SQL Server.
Azure Machine Learning
Met de volledig beheerde Azure Machine Learning-cloudservice kunt u predictive analytics-oplossingen bouwen, implementeren en delen. U kunt uw experimenten en modellen bouwen in Azure Machine Learning-studio. Ga naar Microsoft Azure Machine Learning voor toegang vanuit een webbrowser op de Datawetenschap virtuele machine.
Nadat u zich hebt aangemeld bij Azure Machine Learning-studio, kunt u een experimenteercanvas gebruiken om een logische stroom te bouwen voor de machine learning-algoritmen. U hebt ook toegang tot een Jupyter-notebook die wordt gehost op Azure Machine Learning. Dit notebook kan naadloos werken met de experimenten in Azure Machine Learning-studio.
Als u de machine learning-modellen wilt operationeel maken die u hebt gemaakt, verpakt u deze in een webservice-interface. Met machine learning-model operationalisatie kunnen clients die in elke taal zijn geschreven voorspellingen van deze modellen aanroepen. Raadpleeg de Documentatie voor Machine Learning voor meer informatie.
U kunt uw modellen ook bouwen in R of Python op de virtuele machine en deze vervolgens implementeren in productie in Azure Machine Learning. We hebben bibliotheken geïnstalleerd in R (AzureML) en Python (azureml) om deze functionaliteit in te schakelen.
Notitie
We hebben deze instructies geschreven voor de windows-versie van Datawetenschap Virtual Machine. De instructies hebben echter betrekking op azure Machine Learning-modelimplementaties op de Virtuele Linux-machine.
Machine learning-hulpprogramma's
De VIRTUELE machine wordt geleverd met vooraf gecompileerde machine learning-hulpprogramma's en -algoritmes, die allemaal lokaal zijn geïnstalleerd. Deze omvatten:
Vowpal Wabbit: Een snel online leeralgoritme
xgboost: dit hulpprogramma biedt geoptimaliseerde, versterkte structuuralgoritmen
Rattle: een grafische tool op basis van R voor eenvoudige gegevensverkenning en modellering
Python: Anaconda Python wordt geleverd met machine learning-algoritmen met bibliotheken zoals Scikit-learn. U kunt andere bibliotheken installeren met de
pip install
opdrachtLightGBM: Een snel, gedistribueerd, high-performance gradiëntverhogingsframework op basis van beslissingsstructuuralgoritmen
R: Er is een uitgebreide bibliotheek met machine learning-functies beschikbaar voor R. Vooraf geïnstalleerde bibliotheken zijn lm, glm, randomForest en rpart. U kunt andere bibliotheken installeren met deze opdracht:
install.packages(<lib name>)
Hier vindt u meer informatie over de eerste drie machine learning-hulpprogramma's in de lijst.
Vowpal Wabbit
Vowpal Wabbit is een machine learning-systeem dat gebruikmaakt van
- actief
- allreduce
- Hashing
- interactief leren
- learning2search
- Online
- Kortingen
Technieken.
Gebruik deze opdrachten om het hulpprogramma uit te voeren op een basisvoorbeeld:
cp -r /dsvm/tools/VowpalWabbit/demo vwdemo
cd vwdemo
vw house_dataset
Die map biedt andere, grotere demo's. Bezoek deze sectie van GitHub en de Vowpal Wabbit-wiki voor meer informatie over Vowpal Wabbit.
xgboost
De xgboost-bibliotheek is ontworpen en geoptimaliseerd voor boosted (tree)-algoritmen. De xgboost-bibliotheek pusht de rekenlimieten van machines tot de extremen die nodig zijn voor nauwkeurige, draagbare en schaalbare grootschalige boomverbetering.
De xgboost-bibliotheek wordt geleverd als een opdrachtregelresource en een R-bibliotheek. Als u deze bibliotheek in R wilt gebruiken, kunt u R in de shell invoeren om een interactieve R-sessie te starten en de bibliotheek te laden.
In dit eenvoudige voorbeeld ziet u hoe u xgboost uitvoert in een R-prompt:
library(xgboost)
data(agaricus.train, package='xgboost')
data(agaricus.test, package='xgboost')
train <- agaricus.train
test <- agaricus.test
bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
eta = 1, nthread = 2, nround = 2, objective = "binary:logistic")
pred <- predict(bst, test$data)
Als u de xgboost-opdrachtregel wilt uitvoeren, voert u deze opdrachten uit in de shell:
cp -r /dsvm/tools/xgboost/demo/binary_classification/ xgboostdemo
cd xgboostdemo
xgboost mushroom.conf
Ga naar de pagina met xgboost-documentatie en de Bijbehorende GitHub-opslagplaats voor meer informatie over xgboost.
Rattle
Rattle (de R Analytical T ool To Lverdien Easily) maakt gebruik van op GUI gebaseerde gegevensverkenning en modellering. IT
- geeft statistische en visuele samenvattingen van gegevens weer
- transformeert gegevens die gemakkelijk kunnen worden gemodelleerd
- bouwt zowel modellen zonder supervisie als onder supervisie op basis van de gegevens
- geeft de prestaties van modellen grafisch weer
- nieuwe gegevenssets scoren
Er wordt ook R-code gegenereerd, waarmee Rattle-bewerkingen in de gebruikersinterface worden gerepliceerd. U kunt die code rechtstreeks in R uitvoeren of deze gebruiken als uitgangspunt voor verdere analyse.
Als u Rattle wilt uitvoeren, moet u werken in een grafische bureaublad-aanmeldingssessie. Voer in de terminal R in om de R-omgeving te openen. Voer bij de R-prompt deze opdracht in:
library(rattle)
rattle()
Een grafische interface, met een set tabbladen, wordt geopend. Deze quickstartstappen in Rattle maken gebruik van een voorbeeldgegevensset voor het bouwen van een model. In sommige stappen ontvangt u prompts om specifieke, vereiste R-pakketten die nog niet op het systeem staan, automatisch te installeren en te laden.
Notitie
Als u geen toegangsmachtigingen hebt om het pakket te installeren in de systeemmap (de standaardinstelling), ziet u mogelijk een prompt in het R-consolevenster om pakketten te installeren in uw persoonlijke bibliotheek. Antwoord y als u deze prompts tegenkomt.
- Selecteer Uitvoeren
- Er wordt een dialoogvenster weergegeven waarin u wordt gevraagd of u de voorbeeldgegevensset wilt gebruiken. Selecteer Ja om het voorbeeld te laden
- Selecteer het tabblad Model
- Selecteer Uitvoeren om een beslissingsstructuur te bouwen
- Selecteer Tekenen om de beslissingsstructuur weer te geven
- Selecteer de optie Forest en selecteer Uitvoeren om een willekeurig forest te bouwen
- Het tabblad Evalueren selecteren
- Selecteer de optie Risico en selecteer Uitvoeren om twee prestatieplots (cumulatief) weer te geven
- Selecteer het tabblad Logboek om de gegenereerde R-code voor de voorgaande bewerkingen weer te geven
- Vanwege een bug in de huidige versie van Rattle moet u een # teken invoegen vóór Dit logboek exporteren in de tekst van het logboek
- Selecteer de knop Exporteren om het R-scriptbestand op te slaan met de naam weather_script. R, naar de basismap
U kunt Rattle en R afsluiten. U kunt nu het gegenereerde R-script wijzigen. U kunt het script ook als zodanig gebruiken en op elk gewenst moment uitvoeren om alles te herhalen dat is uitgevoerd in de Rattle-gebruikersinterface. Voor beginners in R, met name, is dit geschikt voor snelle analyse en machine learning in een eenvoudige grafische interface, terwijl automatisch code wordt gegenereerd in R voor aanpassing of leren.
Volgende stappen
Voor meer vragen kunt u overwegen een ondersteuningsticket te maken