Hi,
Situation:
bei der Verwendung von GPTs (z.B. GPT-4-1106-preview) habe ich bei der Nutzung der Azure OpenAI API im Streaming-Modus relativ lange Buffergrößen beim Generieren von Text (also viele Tokens werden generiert, bevor eine Ausgabe der Chat Completion zusehen ist) . Im Unterschied dazu scheint die API von OpenAI beim Streaming nur eine Buffergröße einem Token zu haben und man sieht den Text flüssig generieren. Also so, als ob jemand im Chat die Buchstaben hintereinander eintippt.
Frage:
Kann man irgendwie die Anzahl der Tokens, die pro Streaming-Paket von Azure OpenAI generiert werden, einstellen? z.B. auch auf 1 Paket pro Token, so dass es "flüssig" aussieht, wenn Text in z.B. einem Chat generiert wird und man nicht erst 20 Sekunden warten muss, bis man die ersten x Tokens lesen kann?
Hoffe die Aufgabe ist verständlich, falls nicht, bitte fragen. Oder ich mache noch ein Video, wo man die Unterschiede sieht. Ich bin wirklich dankbar für jede Hilfe.
LG, Thomas