Sdílet prostřednictvím


Škálování chatu Azure OpenAI pro JavaScript pomocí RAG s Azure Container Apps

Zjistěte, jak do aplikace přidat vyrovnávání zatížení, abyste mohli chatovací aplikaci rozšířit nad rámec limitů kvóty modelu a tokenu Azure OpenAI. Tento přístup používá Azure Container Apps k vytvoření tří koncových bodů Azure OpenAI a primárního kontejneru pro směrování příchozího provozu do jednoho ze tří koncových bodů.

Tento článek vyžaduje nasazení dvou samostatných ukázek:

  • Chatovací aplikace

    • Pokud jste chatovací aplikaci ještě nenasadili, počkejte, až se ukázka nástroje pro vyrovnávání zatížení nasadí.

    • Pokud jste chatovací aplikaci už jednou nasadili, změníte proměnnou prostředí tak, aby podporovala vlastní koncový bod nástroje pro vyrovnávání zatížení, a znovu ji nasadíte.

    • Chatovací aplikace dostupná v těchto jazycích:

  • Aplikace nástroje pro vyrovnávání zatížení

Poznámka:

Tento článek používá jednu nebo více šablon aplikací AI jako základ pro příklady a pokyny v tomto článku. Šablony aplikací AI poskytují dobře udržované a snadno použitelné referenční implementace, které pomáhají zajistit vysoce kvalitní výchozí bod pro vaše aplikace AI.

Architektura pro vyrovnávání zatížení Azure OpenAI s využitím Azure Container Apps

Vzhledem k tomu, že prostředek Azure OpenAI má konkrétní limity kvót tokenu a modelu, je chatovací aplikace využívající jeden prostředek Azure OpenAI náchylný k selhání konverzací kvůli těmto limitům.

Diagram showing chat app architecture with Azure OpenAI resource highlighted.Diagram znázorňující architekturu chatovací aplikace se zvýrazněným prostředkem Azure OpenAI

Pokud chcete chatovací aplikaci používat bez dosažení těchto limitů, použijte řešení s vyrovnáváním zatížení se službou Azure Container Apps. Toto řešení bezproblémově zpřístupňuje jeden koncový bod z Azure Container Apps na váš chatovací aplikační server.

Diagram showing chat app architecture with Azure Container Apps in front of three Azure OpenAI resources.Diagram znázorňující architekturu chatovacích aplikací s Azure Container Apps před třemi prostředky Azure OpenAI

Aplikace Azure Container se nachází před sadou prostředků Azure OpenAI. Aplikace kontejneru řeší dva scénáře: normální a omezené. Během normálního scénáře , kdy je k dispozici kvóta tokenů a modelů, vrátí prostředek Azure OpenAI 200 zpět prostřednictvím kontejnerové aplikace a aplikačního serveru.

Diagram displaying a normal scenario. The normal scenario shows three Azure OpenAI endpoint groups with the first group of two endpoints getting successful traffic. Diagram znázorňující normální scénář V normálním scénáři se zobrazují tři skupiny koncových bodů Azure OpenAI s první skupinou dvou koncových bodů, které získávají úspěšný provoz.

Pokud je prostředek v omezeném scénáři, jako jsou limity kvót, může aplikace Kontejner Azure okamžitě zkusit jiný prostředek Azure OpenAI, aby splnila původní žádost o chatovací aplikaci.

Diagram displaying a throttling scenario with a 429 failing response code and a response header of how many seconds the client has to wait to retry.Diagram znázorňující scénář omezování s kódem odpovědi 429, který selhává, a hlavičkou odpovědi o tom, kolik sekund musí klient počkat na opakování

Požadavky

Ukázková aplikace místního nástroje pro vyrovnávání zůstatku v aplikacích Pro kontejnery

GitHub Codespaces spouští vývojový kontejner spravovaný GitHubem pomocí editoru Visual Studio Code pro web jako uživatelského rozhraní. Pro nejjednodušší vývojové prostředí použijte GitHub Codespaces, abyste měli předinstalované správné vývojářské nástroje a závislosti k dokončení tohoto článku.

Open this project in GitHub CodespacesOtevření tohoto projektu v GitHub Codespaces

Důležité

Všechny účty GitHubu můžou každý měsíc používat Codespaces až 60 hodin zdarma se 2 jádrovými instancemi. Další informace najdete v tématu GitHub Codespaces měsíčně zahrnuté úložiště a hodiny jádra.

Nasazení nástroje pro vyrovnávání zatížení Azure Container Apps

  1. Přihlaste se k Azure Developer CLI a poskytněte ověřování krokům zřizování a nasazení.

    azd auth login --use-device-code
    
  2. Nastavte proměnnou prostředí tak, aby používala ověřování Azure CLI pro krok po zřízení.

    azd config set auth.useAzCliAuth "true"
    
  3. Nasaďte aplikaci nástroje pro vyrovnávání zatížení.

    azd up
    

    Budete muset vybrat předplatné a oblast nasazení. Nemusí to být stejné předplatné a oblast jako chatovací aplikace.

  4. Než budete pokračovat, počkejte, dokud nasazování neskončí.

Získání koncového bodu nasazení

  1. K zobrazení nasazeného koncového bodu pro aplikaci Kontejner Azure použijte následující příkaz.

    azd env get-values
    
  2. CONTAINER_APP_URL Zkopírujte hodnotu. Použijete ho v další části.

Opětovné nasazení chatovací aplikace s koncovým bodem nástroje pro vyrovnávání zatížení

Ty jsou hotové v ukázce chatovací aplikace.

  1. Otevřete ukázkový vývojový kontejner chatovací aplikace pomocí jedné z následujících možností.

    Jazyk Codespaces Visual Studio Code
    .NET Open in GitHub CodespacesOtevřít v GitHub Codespaces Open in Dev ContainersOtevřít v Dev Containers
    JavaScript Open in GitHub CodespacesOtevřít v GitHub Codespaces Open in Dev ContainersOtevřít v Dev Containers
    Python Open in GitHub CodespacesOtevřít v GitHub Codespaces Open in Dev ContainersOtevřít v Dev Containers
  2. Přihlaste se k Azure Developer CLI (AZD).

    azd auth login
    

    Dokončete pokyny pro přihlášení.

  3. Vytvořte prostředí AZD s názvem, například chat-app.

    azd env new <name>
    
  4. Přidejte následující proměnnou prostředí, která říká back-endu chatovací aplikace, aby pro požadavky OpenAI používala vlastní adresu URL.

    azd env set OPENAI_HOST azure_custom
    
  5. Přidejte následující proměnnou prostředí, která nahrazuje <CONTAINER_APP_URL> adresu URL z předchozí části. Tato akce řekne back-endu chatovací aplikace, jaká je hodnota vlastní adresy URL požadavku OpenAI.

    azd env set AZURE_OPENAI_CUSTOM_URL <CONTAINER_APP_URL>
    
  6. Nasaďte chatovací aplikaci.

    azd up
    

Chatovací aplikaci teď můžete používat s jistotou, že je vytvořená tak, aby se škálovat napříč mnoha uživateli bez vyčerpání kvóty.

Streamování protokolů pro zobrazení výsledků nástroje pro vyrovnávání zatížení

  1. Na webu Azure Portal vyhledejte skupinu prostředků.

  2. V seznamu prostředků ve skupině vyberte prostředek Kontejnerová aplikace.

  3. Výběrem možnosti Monitorování –> Stream protokolu zobrazte protokol.

  4. K vygenerování provozu v protokolu použijte chatovací aplikaci.

  5. Vyhledejte protokoly, které odkazují na prostředky Azure OpenAI. Každý ze tří prostředků má svou číselnou identitu v komentáři protokolu začínající Proxying to https://openai3na , kde 3 označuje třetí prostředek Azure OpenAI.

    Screenshot showing Azure Container App streaming logs with two log lines high lighted which demonstrate the log comment. Snímek obrazovky zobrazující protokoly streamování aplikace Azure Container App se dvěma řádky protokolů s vysokým osvětlením, které ukazují komentář k protokolu

  6. Když při používání chatovací aplikace obdrží nástroj pro vyrovnávání zatížení stav, že žádost překročila kvótu, nástroj pro vyrovnávání zatížení se automaticky otočí do jiného prostředku.

Nakonfigurujte kvótu TPM

Ve výchozím nastavení se každá instance Azure OpenAI v nástroji pro vyrovnávání zatížení nasadí s kapacitou 30 000 tokenů za minutu (TPM). Chatovací aplikaci můžete používat s jistotou, že je vytvořená tak, aby se škálovat napříč mnoha uživateli bez vyčerpání kvóty. Tuto hodnotu změňte v těchto případech:

  • Zobrazí se chyby kapacity nasazení: Změňte hodnotu na nižší.
  • Potřebujete vyšší kapacitu: Zvyšte hodnotu.
  1. Ke změně hodnoty použijte následující příkaz:

    azd env set OPENAI_CAPACITY 50
    
  2. Znovu nasaďte nástroj pro vyrovnávání zatížení:

    azd up
    

Vyčištění prostředků

Až budete hotovi s chatovací aplikací i nástrojem pro vyrovnávání zatížení, vyčistěte prostředky. Prostředky Azure vytvořené v tomto článku se fakturují k vašemu předplatnému Azure. Pokud v budoucnu tyto prostředky nepotřebujete, odstraňte je, abyste se vyhnuli účtování dalších poplatků.

Vyčištění prostředků chatovací aplikace

Vraťte se do článku chatovací aplikace, abyste tyto prostředky vyčistili.

Vyčištění prostředků nástroje pro vyrovnávání nahrávání

Spuštěním následujícího příkazu Azure Developer CLI odstraňte prostředky Azure a odeberte zdrojový kód:

azd down --purge --force

Přepínače poskytují:

  • purge: Odstraněné prostředky se okamžitě vymažou. To vám umožní opakovaně používat čip TPM Azure OpenAI.
  • force: Odstranění probíhá bezobslužně bez nutnosti souhlasu uživatele.

Vyčištění služby GitHub Codespaces

Odstraněním prostředí GitHub Codespaces zajistíte, že můžete maximalizovat nárok na počet bezplatných hodin za jádro, které získáte pro svůj účet.

Důležité

Další informace o oprávněních účtu GitHub najdete v tématu GitHub Codespaces měsíčně zahrnuté hodiny úložiště a jádra.

  1. Přihlaste se k řídicímu panelu GitHub Codespaces (https://github.com/codespaces).

  2. Vyhledejte aktuálně spuštěné Codespaces zdrojové z azure-samples/openai-aca-lb úložiště GitHub.

    Screenshot of all the running Codespaces including their status and templates.Snímek obrazovky se všemi spuštěnými codespaces včetně jejich stavu a šablon

  3. Otevřete místní nabídku pro codespace a pak vyberte Odstranit.

    Screenshot of the context menu for a single codespace with the delete option highlighted.Snímek obrazovky s místní nabídkou pro jeden prostor kódu se zvýrazněnou možností odstranit

Získání pomoci

Pokud máte potíže s nasazením nástroje pro vyrovnávání zatížení služby Azure API Management, zapište problém do problémů úložiště.

Ukázkový kód

Ukázky použité v tomto článku zahrnují:

Další krok