Erste Schritte mit DirectML
Das Koppeln von DirectML mit der ONNX-Runtime ist häufig die einfachste Möglichkeit für viele Entwickler, hardwarebeschleunigte KI an ihre Benutzer zu bringen. Diese drei Schritte sind ein allgemeiner Leitfaden für die Verwendung dieser leistungsstarken Kombination.
1. Konvertieren
Mit dem ONNX-Format können Sie ONNX-Runtime mit DirectML nutzen, die hardwareübergreifende Funktionen bietet.
Um Ihr Modell in das ONNX-Format zu konvertieren, können Sie ONNXMLTools oder Olive verwenden.
Optimierer
Nachdem Sie über ein ONNX-Modell verfügen, nutzen Sie Olive powered by DirectML, um Ihr Modell zu optimieren. Es werden dramatische Leistungsverbesserungen angezeigt, die Sie im gesamten Windows-Hardwareökosystem bereitstellen können.
3. Integrieren
Wenn Ihr Modell fertig ist, ist es an der Zeit, hardwarebeschleunigte Inferencing mit ONNX-Runtime und DirectML zu Ihrer App zu bringen. Für generative KI-Modelle empfehlen wir, die ONNX-Runtime Generate()-API zu verwenden.
Wir haben einige Beispiele erstellt, um zu zeigen, wie Sie DirectML und die ONNX-Runtime verwenden können:
- Phi-3-mini
- Große Sprachmodelle (LLMs)
- Stabile Diffusion
- (Formatübertragung)
- Rückschlussoptionen
DirectML und PyTorch
Das DirectML-Back-End für Pytorch ermöglicht einen leistungsfähigen, niedrigen Zugriff auf die GPU-Hardware und stellt gleichzeitig eine vertraute Pytorch-API für Entwickler bereit. Weitere Informationen zur Verwendung von PyTorch mit DirectML finden Sie hier.
DirectML für Webanwendungen (Vorschau)
Die Web Neural Network API (WebNN) ist ein neuer Webstandard, mit dem Web-Apps und Frameworks tiefe neurale Netzwerke mit Gerätehardware wie GPUs, CPUs oder speziell erstellten KI-Zugriffstasten wie NPUs beschleunigen können. Die WebNN-API nutzt die DirectML-API unter Windows, um auf die systemeigenen Hardwarefunktionen zuzugreifen und die Ausführung neuraler Netzwerkmodelle zu optimieren. Weitere Informationen zu WebNN finden Sie hier