Compartir a través de


Inicio rápido: Instalación del SDK de Voz

Documentación de referencia | Paquete (NuGet) | Ejemplos adicionales en GitHub

En este inicio rápido, instalará la SDK de voz para C#.

Los ejemplos de código de la documentación se escriben en C# 8 y se ejecutan en .NET standard 2.0.

Requisitos de la plataforma

El SDK de Voz para C# es compatible con Windows, Linux y macOS.

En Windows debe usar la arquitectura de destino de 64 bits. Se requiere Windows 10 o posterior.

Instale el Microsoft Visual C++ Redistributable para Visual Studio 2015, 2017, 2019 y 2022 para su plataforma. Durante la primera instalación del paquete, es posible que deba reiniciar.

Instale el SDK de Voz para C#

El SDK de voz para C# está disponible como paquete NuGet e implementa el estándar 2.0 de .NET. Para más información, consulte Microsoft.CognitiveServices.Speech.

El SDK de voz para C# se puede instalar desde la CLI de .NET con el siguiente comando dotnet add:

dotnet add package Microsoft.CognitiveServices.Speech

Puede seguir estas guías para ver más opciones.

Esta guía muestra cómo instalar el SDK de voz para una aplicación de consola de .NET Framework (Windows).

Esta guía requiere:

Creación de un proyecto de Visual Studio e instalación del SDK de Voz

El siguiente paso consiste en instalar el paquete NuGet del SDK de Voz para que pueda hacer referencia a él en el código. Para ello, primero puede ser necesario crear un proyecto helloworld. Si ya tiene un proyecto con la carga de trabajo de desarrollo de escritorio de .NET disponible, puede usar ese proyecto y pasar directamente a Uso del Administrador de paquetes NuGet para instalar el SDK de Voz.

Creación de un proyecto helloworld

  1. Abierto Visual Studio.

  2. En Comenzar, seleccione Crear un nuevo flujo.

  3. En Crear un proyecto, elija Aplicación de consola (.NET Framework) y seleccione Siguiente.

  4. En Configure su nuevo proyecto,para el nombre de proyecto escriba helloworld , elija o cree la ruta de acceso del directorio en Ubicación y seleccione Crear.

  5. En la barra de menús de Visual Studio, seleccione Herramientas>Obtener herramientas y características. Este paso abre el Instalador de Visual Studio y muestra el cuadro de diálogo Modificando.

  6. Compruebe si la carga de trabajo Desarrollo de escritorio de .NET está disponible. Si aún no está instalada la carga de trabajo, selecciónela y elija Modificar para iniciar la instalación. La descarga e instalación pueden tardar unos minutos.

    Si la opción Desarrollo de escritorio de .NET ya está seleccionada, elija Cerrar para cerrar el cuadro de diálogo.

    Captura de pantalla que muestra cómo habilitar el desarrollo de escritorio de .NET.

  7. Cierre el Instalador de Visual Studio.

Uso del Administrador de paquetes Nuget para instalar el SDK de Voz

  1. En el Explorador de soluciones, haga clic con el botón derecho en el proyecto helloworld y seleccione Administrar paquetes NuGet para mostrar el Administrador de paquetes NuGet.

  2. En la esquina superior derecha, busque el cuadro desplegable Origen del paquete y asegúrese de que nuget.org está seleccionado.

    Captura de pantalla que muestra el Administrador de paquetes NuGet.

  3. En la esquina superior izquierda, seleccione Examinar.

  4. En el cuadro de búsqueda, escriba Microsoft.CognitiveServices.Speech y seleccione Entrar.

  5. En los resultados de la búsqueda, seleccione el paquete Microsoft.CognitiveServices.Speech y, después, seleccione Instalar para instalar la versión estable más reciente.

    Captura de pantalla que muestra la instalación del paquete NuGet Microsoft.CognitiveServices.Speech.

  6. Acepte todos los contratos y licencias para iniciar la instalación.

    Después de instalar el paquete aparecerá una confirmación en la ventana Consola del administrador de paquetes.

Elección de la arquitectura de destino

Para compilar y ejecutar la aplicación de consola, cree una configuración de plataforma que coincida con la arquitectura del equipo.

  1. En el menú, seleccione Compilar>Administrador de configuración. Aparecerá el cuadro de diálogo Administrador de configuración.

  2. En el cuadro desplegable Plataforma de soluciones activas, seleccione Nuevo. Aparecerá el cuadro de diálogo Nueva plataforma de solución.

    Captura de pantalla que muestra el cuadro de diálogo de Configuration Manager.

  3. En el cuadro desplegable Escriba o seleccione la nueva plataforma:

    • Si está ejecutando Windows de 64 bits, seleccione x64.
    • Si está ejecutando Windows de 32 bits, seleccione x86.
  4. Seleccione Aceptar y, después, Cerrar.

Documentación de referencia | Paquete (NuGet) | Ejemplos adicionales en GitHub

En este inicio rápido, instalará la SDK de voz para C++.

Requisitos de la plataforma

El SDK de Voz para C++ es compatible con Windows, Linux y macOS.

En Windows debe usar la arquitectura de destino de 64 bits. Se requiere Windows 10 o posterior.

Instale el Microsoft Visual C++ Redistributable para Visual Studio 2015, 2017, 2019 y 2022 para su plataforma. Durante la primera instalación del paquete, es posible que deba reiniciar.

Instale el SDK de Voz para C++

El SDK de voz para C++ está disponible como paquete NuGet. Para más información, consulte Microsoft.CognitiveServices.Speech.

El SDK de voz para C++ se puede instalar desde la CLI de .NET con el siguiente comando dotnet add:

dotnet add package Microsoft.CognitiveServices.Speech

Puede seguir estas guías para ver más opciones.

En esta guía se muestra cómo instalar el SDK de Voz para Linux.

Use el procedimiento siguiente para descargar e instalar el SDK. Los pasos incluyen la descarga de las bibliotecas y los archivos de encabezado necesarios, como un archivo .tar.

  1. Elija un directorio para los archivos del SDK de Voz. Establezca la variable de entorno SPEECHSDK_ROOT para que apunte a ese directorio. Esta variable facilita la referencia al directorio en futuros comandos.

    Para usar el directorio speechsdk en el directorio principal, ejecute el siguiente comando:

    export SPEECHSDK_ROOT="$HOME/speechsdk"
    
  2. Si no existe el directorio, créelo:

    mkdir -p "$SPEECHSDK_ROOT"
    
  3. Descargue y extraiga el archivo .tar.gz que contiene los archivos binarios del SDK de voz:

    wget -O SpeechSDK-Linux.tar.gz https://aka.ms/csspeech/linuxbinary
    tar --strip 1 -xzf SpeechSDK-Linux.tar.gz -C "$SPEECHSDK_ROOT"
    
  4. Valide el contenido del directorio de nivel superior del paquete extraído:

    ls -l "$SPEECHSDK_ROOT"
    

    La lista de directorios debe contener los archivos de licencia y aviso del asociado. La lista debe contener también un directorio include que contenga archivos de encabezado (.h) y un directorio lib que contenga bibliotecas para arm32, arm64, x64 y x86.

    Ruta de acceso Descripción
    license.md Licencia
    ThirdPartyNotices.md Avisos de asociados
    REDIST.txt Aviso de redistribución
    include Archivos de encabezado necesarios para C++
    lib/arm32 Biblioteca nativa para ARM32 necesaria para vincular la aplicación
    lib/arm64 Biblioteca nativa para ARM64 necesaria para vincular la aplicación
    lib/x64 Biblioteca nativa para x64 necesaria para vincular la aplicación
    lib/x86 Biblioteca nativa para x86 necesaria para vincular la aplicación

Documentación de referencia | Paquete (Go) | Ejemplos adicionales en GitHub

En este inicio rápido, instalará la SDK de voz para Go.

Requisitos de la plataforma

El SDK de Voz para Go es compatible con las siguientes distribuciones en la arquitectura x64:

  • Ubuntu 20.04/22.04/24.04
  • Debian 11/12

Importante

Use la versión LtS más reciente de la distribución de Linux. Por ejemplo, si usa Ubuntu 20.04 LTS, use la versión más reciente de Ubuntu 20.04.X.

El SDK de Voz depende de las siguientes bibliotecas del sistema Linux:

  • Las bibliotecas compartidas de la biblioteca GNU C, incluida la biblioteca de programación de hilos POSIX, libpthreads.
  • La biblioteca OpenSSL, versión 1.x (libssl1) o 3.x (libssl3), y certificados (ca-certificates).
  • La biblioteca compartida para aplicaciones ALSA (libasound2).

Ejecute estos comandos:

sudo apt-get update
sudo apt-get install build-essential ca-certificates libasound2-dev libssl-dev wget

Instale la versión binaria de Go versión 1.13 o posterior.

Instale el SDK de Voz para Go

Use el procedimiento siguiente para descargar e instalar el SDK. Los pasos incluyen la descarga de las bibliotecas y los archivos de encabezado necesarios, como un archivo .tar.

  1. Elija un directorio para los archivos del SDK de Voz. Establezca la variable de entorno SPEECHSDK_ROOT para que apunte a ese directorio. Esta variable facilita la referencia al directorio en futuros comandos.

    Para usar el directorio speechsdk en el directorio principal, ejecute el siguiente comando:

    export SPEECHSDK_ROOT="$HOME/speechsdk"
    
  2. Si no existe el directorio, créelo:

    mkdir -p "$SPEECHSDK_ROOT"
    
  3. Descargue y extraiga el archivo .tar.gz que contiene los archivos binarios del SDK de voz:

    wget -O SpeechSDK-Linux.tar.gz https://aka.ms/csspeech/linuxbinary
    tar --strip 1 -xzf SpeechSDK-Linux.tar.gz -C "$SPEECHSDK_ROOT"
    
  4. Valide el contenido del directorio de nivel superior del paquete extraído:

    ls -l "$SPEECHSDK_ROOT"
    

    La lista de directorios debe contener los archivos de licencia y aviso del asociado. La lista debe contener también un directorio include que contenga archivos de encabezado (.h) y un directorio lib que contenga bibliotecas para arm32, arm64, x64 y x86.

    Ruta de acceso Descripción
    license.md Licencia
    ThirdPartyNotices.md Avisos de asociados
    REDIST.txt Aviso de redistribución
    include Archivos de encabezado necesarios para C++
    lib/arm32 Biblioteca nativa para ARM32 necesaria para vincular la aplicación
    lib/arm64 Biblioteca nativa para ARM64 necesaria para vincular la aplicación
    lib/x64 Biblioteca nativa para x64 necesaria para vincular la aplicación
    lib/x86 Biblioteca nativa para x86 necesaria para vincular la aplicación

Configuración del entorno de Go

Los pasos siguientes permiten configurar el entorno de Go para buscar el SDK de Voz.

  1. Dado que los enlaces se basan en cgo, es necesario que establezca las variables de entorno para que Go pueda encontrar el SDK.

    export CGO_CFLAGS="-I$SPEECHSDK_ROOT/include/c_api"
    export CGO_LDFLAGS="-L$SPEECHSDK_ROOT/lib/<architecture> -lMicrosoft.CognitiveServices.Speech.core"
    

    Importante

    Reemplace <architecture> por la arquitectura de procesador de la CPU: x64, arm32, o arm64.

  2. Para ejecutar aplicaciones y el SDK, debe indicar al sistema operativo dónde encontrar las bibliotecas.

    export LD_LIBRARY_PATH="$SPEECHSDK_ROOT/lib/<architecture>:$LD_LIBRARY_PATH"
    

    Importante

    Reemplace <architecture> por la arquitectura de procesador de la CPU: x64, arm32, o arm64.

Documentación de referencia | Ejemplos adicionales en GitHub

En este inicio rápido, instalará la SDK de voz para Java.

Requisitos de la plataforma

Elija su ámbito objetivo:

El SDK de Voz para Java es compatible con Windows, Linux y macOS.

En Windows debe usar la arquitectura de destino de 64 bits. Se requiere Windows 10 o posterior.

Instale el Microsoft Visual C++ Redistributable para Visual Studio 2015, 2017, 2019 y 2022 para su plataforma. Durante la primera instalación del paquete, es posible que deba reiniciar.

El SDK de Voz para Java no admite Windows en ARM64.

Instale un kit de desarrollo de Java como Azul Zulu OpenJDK. La compilación de Microsoft de OpenJDK o su JDK preferido también deberían funcionar.

Instale el SDK de Voz para Java

Algunas de las instrucciones usan una versión específica del SDK, como 1.24.2. Para comprobar la versión más reciente, busque nuestro repositorio de GitHub.

Elija su ámbito objetivo:

En esta guía se muestra cómo instalar el SDK de Voz para Java en Java Runtime.

Sistemas operativos admitidos

El paquete de SDK de voz para Java está disponible en estos sistemas operativos:

Siga estos pasos para instalar el SDK de voz para Java mediante Apache Maven:

  1. Instalación de Apache Maven.

  2. Abra un símbolo del sistema donde desea el nuevo proyecto, y crear un nuevo archivo pom.xml.

  3. Copie el siguiente contenido XML en pom.xml:

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.42.0</version>
            </dependency>
        </dependencies>
    </project>
    
  4. Ejecute el siguiente comando de Maven para instalar el SDK de Voz y las dependencias.

    mvn clean dependency:copy-dependencies
    

Documentación de referencia | Paquete (npm) | Ejemplos adicionales en GitHub | Código fuente de la biblioteca

En este inicio rápido, instalará la SDK de voz para JavaScript.

El SDK de Voz para JavaScript está disponible como un paquete npm. Consulte microsoft-cognitiveservices-speech-sdk y la versión complementaria cognitive-services-speech-sdk-js del repositorio de GitHub.

Requisitos de la plataforma

Comprenda las implicaciones arquitectónicas entre Node.js y los exploradores web cliente. Por ejemplo, Document Object Model (DOM) no está disponible para aplicaciones del lado servidor. El sistema de archivos de Node.js no está disponible para las aplicaciones del lado cliente.

Instale el SDK de Voz para JavaScript

En función del entorno de destino, use una de las siguientes guías:

En esta guía se muestra cómo instalar el SDK de Voz para JavaScript para su uso con Node.js.

  1. Instale Node.js.

  2. Cree un nuevo directorio, ejecute npm init y siga las indicaciones.

  3. Para instalar el SDK de Voz para JavaScript, ejecute el siguiente comando npm install:

    npm install microsoft-cognitiveservices-speech-sdk
    

Para obtener más información, consulte los ejemplos deNode.js.

Uso del SDK de Voz

  • Agregue la siguiente instrucción import para usar el SDK de voz en el proyecto de JavaScript:

    import * as sdk from "microsoft-cognitiveservices-speech-sdk";
    

Para más información sobre import, consulte Exportación e importación en el sitio web de JavaScript.

Como alternativa, puede usar una instrucción require:

const sdk = require("microsoft-cognitiveservices-speech-sdk");

Documentación de referencia | Paquete (descarga) | Ejemplos adicionales en GitHub

En este inicio rápido, instalará la SDK de voz para Objective-C.

Sugerencia

Para obtener más información sobre el uso del SDK de voz para Swift, consulte Importación de Objective-C en Swift.

Instale el SDK de Voz para Objective-C

El SDK de voz para Objective-C está disponible de forma nativa como paquete CocoaPod para Mac x64 y sistemas basados en ARM.

Requisitos del sistema para Mac:

  • macOS 10.14, o cualquier versión posterior

El paquete CocoaPod de macOS está disponible para descargarlo y usarlo con el entorno de desarrollo integrado (IDE) Xcode 9.4.1 o posterior.

  1. Vaya al directorio Xcode donde se encuentra el archivo del proyecto .xcodeproj.

  2. Ejecute pod init para crear un archivo de pod denominado Podfile.

  3. Reemplace el contenido de Podfile por el siguiente contenido. Actualice el nombre target de AppName al nombre de la aplicación. Actualice la versión de la plataforma o del pod según sea necesario.

    platform :osx, 10.14
    use_frameworks!
    
    target 'AppName' do
      pod 'MicrosoftCognitiveServicesSpeech-macOS', '~> 1.42.0'
    end
    
  4. Ejecute pod install para instalar el SDK de voz.

Como alternativa, descargue el CocoaPod binario y extraiga su contenido. En el proyecto de Xcode, agregue una referencia a la carpeta extraída MicrosoftCognitiveServicesSpeech.xcframework y su contenido.

Nota:

Los desarrolladores de .NET pueden compilar aplicaciones nativas de macOS mediante el marco de trabajo de la aplicación de Xamarin.Mac. Para más información, consulte Xamarin.Mac.

Documentación de referencia | Paquete (descarga) | Ejemplos adicionales en GitHub

En este inicio rápido, instalará la SDK de voz para Swift.

Sugerencia

Para obtener más información sobre el uso del SDK de voz para Swift, consulte Importación de Objective-C en Swift.

Instale el SDK de Voz para Swift

El SDK de voz para Swift está disponible de forma nativa como paquete CocoaPod para sistemas Mac basados en x64 y ARM.

Requisitos del sistema para Mac:

  • macOS 10.14, o cualquier versión posterior

El paquete CocoaPod de macOS está disponible para descargarlo y usarlo con el entorno de desarrollo integrado (IDE) Xcode 9.4.1 o posterior.

  1. Vaya al directorio Xcode donde se encuentra el archivo del proyecto .xcodeproj.

  2. Ejecute pod init para crear un archivo de pod denominado Podfile.

  3. Reemplace el contenido de Podfile por el siguiente contenido. Actualice el nombre target de AppName al nombre de la aplicación. Actualice la versión de la plataforma o del pod según sea necesario.

    platform :osx, 10.14
    use_frameworks!
    
    target 'AppName' do
      pod 'MicrosoftCognitiveServicesSpeech-macOS', '~> 1.42.0'
    end
    
  4. Ejecute pod install para instalar el SDK de voz.

Como alternativa, descargue el CocoaPod binario y extraiga su contenido. En el proyecto de Xcode, agregue una referencia a la carpeta extraída MicrosoftCognitiveServicesSpeech.xcframework y su contenido.

Nota:

Los desarrolladores de .NET pueden compilar aplicaciones nativas de macOS mediante el marco de trabajo de la aplicación de Xamarin.Mac. Para más información, consulte Xamarin.Mac.

Documentación de referencia | Paquete (PyPi) | Ejemplos adicionales en GitHub

En este inicio rápido, instalará la SDK de voz para Python.

Requisitos de la plataforma

El SDK de Voz para Python es compatible con Windows, Linux y macOS.

En Windows debe usar la arquitectura de destino de 64 bits. Se requiere Windows 10 o posterior.

Instale el Microsoft Visual C++ Redistributable para Visual Studio 2015, 2017, 2019 y 2022 para su plataforma. Durante la primera instalación del paquete, es posible que deba reiniciar.

Importante

Asegúrese de que están instalados los paquetes de la misma arquitectura de destino. Por ejemplo, si instala el paquete redistribuible x64, instale el paquete de Python x64.

Instale una versión de Python desde la 3.8 en adelante.

  • Para comprobar la instalación, abra un terminal y ejecute el comando python --version. Si Python se instala correctamente, obtiene una respuesta como Python 3.8.10.

  • Si usa macOS o Linux, es posible que tenga que ejecutar el comando python3 --version en su lugar.

    Para habilitar el uso de python, en lugar de python3, ejecute alias python='python3' para configurar un alias. Los ejemplos de inicio rápido del SDK de Voz especifican el uso de python.

Instale el SDK de Voz para Python

Antes de instalar el SDK de voz para Python, asegúrese de satisfacer los requisitos de la plataforma.

Instalar desde PyPI

Para instalar el SDK de voz para Python, ejecute este comando en una ventana de consola:

pip install azure-cognitiveservices-speech

Actualice a la última versión del SDK de voz

Para actualizar al SDK de voz más reciente, ejecute este comando en una ventana de consola:

pip install --upgrade azure-cognitiveservices-speech

Puede comprobar qué versión del SDK de voz para Python está instalada actualmente mediante la inspección de la variable azure.cognitiveservices.speech.__version__. Por ejemplo, ejecute este comando en una ventana de consola:

pip list

Uso del SDK de Voz

Agregue la siguiente instrucción import para usar el SDK de voz en el proyecto de Python:

import azure.cognitiveservices.speech as speechsdk