Introduzione a DirectML
L'associazione di DirectML al runtime ONNX è spesso il modo più semplice per molti sviluppatori di portare l'intelligenza artificiale accelerata dall'hardware agli utenti su larga scala. Questi tre passaggi sono una guida generale per l'uso di questa potente combinazione.
1. Converti
Il formato ONNX consente di sfruttare il runtime ONNX con DirectML, che offre funzionalità multi-hardware.
Per convertire il modello nel formato ONNX, è possibile utilizzare ONNXMLTools o Olive.
2. Ottimizzare
Dopo aver creato un modello con estensione onnx, sfruttare Olive basato su DirectML per ottimizzare il modello. Verranno visualizzati notevoli miglioramenti delle prestazioni che è possibile distribuire nell'ecosistema hardware Windows.
3. Integrare
Quando il modello è pronto, è il momento di portare l'inferenza accelerata dell'hardware nell'app con ONNX Runtime e DirectML. Per i modelli generativi di intelligenza artificiale, è consigliabile usare l'API ONNX Runtime Generate()
Sono stati creati alcuni esempi per illustrare come usare DirectML e il runtime ONNX:
- Phi-3-mini
- Modelli di linguaggio di grandi dimensioni
- Diffusione stabile
- Trasferimento di stili
- Inferenza in SERVER dei criteri di rete
DirectML e PyTorch
Il back-end DirectML per Pytorch consente l'accesso ad alte prestazioni e di basso livello all'hardware GPU, esponendo al tempo stesso un'API Pytorch familiare per gli sviluppatori. Altre informazioni su come usare PyTorch con DirectML sono disponibili qui
DirectML per applicazioni Web (anteprima)
L'API Web Neural Network (WebNN) è uno standard Web emergente che consente alle app Web e ai framework di accelerare le reti neurali profonde con hardware su dispositivo, ad esempio GPU, CPU o acceleratori di intelligenza artificiale appositamente creati, ad esempio NPU. L'API WebNN sfrutta l'API DirectML in Windows per accedere alle funzionalità hardware native e ottimizzare l'esecuzione di modelli di rete neurale. Per altre informazioni su WebNN, vedere qui