Buffersize bei Azure OpenAI Streaming

Question

Hi,

Situation:
bei der Verwendung von GPTs (z.B. GPT-4-1106-preview) habe ich bei der Nutzung der Azure OpenAI API im Streaming-Modus relativ lange Buffergrößen beim Generieren von Text (also viele Tokens werden generiert, bevor eine Ausgabe der Chat Completion zusehen ist) . Im Unterschied dazu scheint die API von OpenAI beim Streaming nur eine Buffergröße einem Token zu haben und man sieht den Text flüssig generieren. Also so, als ob jemand im Chat die Buchstaben hintereinander eintippt.

Frage:
Kann man irgendwie die Anzahl der Tokens, die pro Streaming-Paket von Azure OpenAI generiert werden, einstellen? z.B. auch auf 1 Paket pro Token, so dass es "flüssig" aussieht, wenn Text in z.B. einem Chat generiert wird und man nicht erst 20 Sekunden warten muss, bis man die ersten x Tokens lesen kann?

Hoffe die Aufgabe ist verständlich, falls nicht, bitte fragen. Oder ich mache noch ein Video, wo man die Unterschiede sieht. Ich bin wirklich dankbar für jede Hilfe.

LG, Thomas

Answer

Hallo Thomas,

Hast Du versucht, tokens_in_message Parameter in tiktoken, einem Tokenizer für GPT-4-Modelle, zu verwenden? Dieser Parameter bietet eine Möglichkeit, die Anzahl der Token in einer einzelnen Nachricht innerhalb Deiner GPT-4-Modellkonversation festzulegen. Weitere Informationen findest Du hier:

Erfahren Sie, wie Sie mit den Modellen GPT-35-Turbo und GPT-4 arbeiten > Verwalten von Konversationen.

Gruß,

Ivan Dragov

Freigeben über

Buffersize bei Azure OpenAI Streaming

1 Antwort

Ihre Antwort