Hola a todos. Kevin aquí. Hoy, veremos cómo puede tomar el habla y convertirla en texto usando IA. Y lo realmente loco es que hace un mejor trabajo que la mayoría de los humanos. Puede usarlo con inglés y otros 96 idiomas. Funciona incluso si tienes mucho ruido de fondo. Y también funciona si tienes un acento muy marcado. La mejor parte es que es completamente gratis y también de código abierto. Veamos cómo hacer esto. Vamos a usar una herramienta de IA llamada Whisper. Whisper está hecho por una compañía llamada OpenAI. Y es posible que hayas oído hablar de ellos antes. Esa es la misma compañía detrás del inmensamente popular ChatGPT, que le permite conversar con una computadora. También son la compañía detrás de Dalle2, donde puedes escribir un texto y luego generará una imagen basada en ese texto. Puede instalar Whisper directamente en su computadora.
Puede hacer clic en el enlace de arriba. Pero sí necesita una computadora algo capaz. Entonces, en su lugar, vamos a usar algo llamado Google Colaboratory. Esto le permite ejecutar código directamente en su navegador web. Así que realmente no importa qué tipo de PC tengas. Para usar Google Colaboratory, dirígete a Google Drive. Puede hacer clic en el enlace de arriba. Necesitarás una cuenta de Google y, si aún no tienes una, configurarla es totalmente gratuito. En Google Drive, en la esquina superior izquierda, hagamos clic en el botón Nuevo. Y en la parte inferior, hagamos clic en Más y luego vayamos a Conectar más aplicaciones. En la parte superior de este cuadro de diálogo, hagamos clic en el campo de búsqueda y, aquí, escriba Google Colaboratory y luego busque. Aquí, vemos este resultado para Colaboratory. Hagamos clic en eso, y aquí, hagamos clic en Instalar. A continuación, hagamos clic en Continuar. A continuación, debería ver un mensaje que dice que Google Colaboratory se conectó a Google Drive.
Hagamos clic en Aceptar. Y mira eso. Se ha instalado con éxito. Hagamos clic en Listo. Ahora, puede cerrar esta ventana. Volvamos ahora a la esquina superior izquierda. Haga clic en el botón Nuevo nuevamente. Luego baja a Más. Y aquí, ahora debería ver una opción para Google Colaboratory. Hagamos clic en este. Esto nos lleva al espacio de Google Colaboratory. Y a primera vista, puede parecer un poco intimidante. Pero confía en mí, esto va a ser muy fácil y los resultados van a ser muy buenos. En la esquina superior izquierda, en primer lugar, vamos a darle un nombre a nuestro archivo. De esta manera, podría encontrar el camino de regreso a esto en el futuro. Haré clic en Sin título. Hagamos doble clic en eso, y aquí, escribiré Transcribir audio. Aquí, haré clic y ese es ahora el nombre del archivo. A continuación, hagamos clic en el menú titulado Tiempo de ejecución, y justo aquí, está la opción Cambiar tipo de tiempo de ejecución. Hagamos clic en eso, y eso abre este cuadro de diálogo donde podemos elegir el acelerador de hardware.
Asegúrese de seleccionar GPU o una tarjeta gráfica. Resulta que las tarjetas gráficas ejecutan estos modelos extremadamente bien. A continuación, hagamos clic en Guardar. A continuación, necesitamos instalar Whisper AI. Así que vayamos a este campo justo arriba donde podemos ingresar el código. Y aquí, ingresaré esto. Encontrará esto en la descripción, así que simplemente puede copiarlo y pegarlo desde allí. Primero, vamos a instalar Whisper y lo obtenemos de GitHub. Aquí es donde se guarda y mantiene todo el código. Una vez que obtengamos eso, instalaremos algo llamado ffmpeg. Y esto nos permite trabajar con archivos de audio y video. Y aunque digo que lo vamos a instalar, no te preocupes, no vamos a instalar nada en tu computadora. Esto es instalarlo todo en Google Colaboratory. Una vez que esté todo listo, en el lado izquierdo, hagamos clic en este icono Ejecutar. Esto ahora pasará e instalará Whisper y también ffmpeg. Y parece que la instalación terminó en unos 23 segundos. No está mal. En el lado izquierdo, hagamos clic en este ícono de Carpeta. Y ahora puede arrastrar un archivo de audio o un archivo de video que le gustaría transcribir.
Aquí, tengo un archivo MP3, y simplemente lo colocaré. Aquí, dice que los archivos cargados se eliminarán cuando se recicle este tiempo de ejecución. Está bien, así que hagamos clic en Aceptar. Y ahora podemos ver que el archivo se ha subido con éxito. Ahora estoy listo para extraer texto de este archivo de audio. Volvamos a la parte superior y aquí, insertaré un código. Esto inserta otro campo abajo, y aquí escribiré Susurro. Aquí, esto está llamando a Whisper AI. Luego, debe escribir el nombre del archivo del que desea extraer el texto. El mío se llama cookies.mp3. Entonces aquí, me aseguraré de que diga cookies.mp3. Y por último, también puede especificar el modelo que le gustaría usar. Quiero usar el modelo mediano. Tienes cinco modelos diferentes entre los que puedes elegir. En el extremo inferior, tienes el modelo pequeño. Esto ocupa el mínimo espacio. También funciona más rápido, pero obtienes la peor precisión. En el otro extremo, tienes el modelo grande. Ocupa alrededor de un giga y medio. También toma el tiempo más largo para procesar.
Pero también obtienes el más alto nivel de calidad. Descubrí que un buen punto dulce va con el modelo mediano. Una vez que termine de ingresar esto, hagamos clic en el icono Ejecutar. Y mira eso. Ahora ha terminado de ejecutarse. Y aquí abajo, puedo ver una transcripción de todo lo que se dijo en este archivo de audio. Además, en el lado izquierdo, si no ve estos tres archivos nuevos , en la parte superior derecha, haga clic en el icono Actualizar y debería ver un archivo SRT, un archivo TXT y un archivo VTT.
Un archivo de texto es solo todo el texto del audio. SRT y VTT, estos son formatos de subtítulos que también incluyen marcas de tiempo, para que sepa qué se dijo cuándo. Para descargar cualquiera de estos archivos, en el lado derecho, haga clic en los puntos suspensivos o en los tres puntos, y aquí puede hacer clic en Descargar. Descargaré el archivo SRT y también el archivo TXT. Aquí, haré clic en Descargar. Aquí, podemos ver el archivo TXT. Y lo que me encanta de usar Whisper es, en primer lugar, al leer esto , parece que hizo un trabajo perfecto al transcribir. Además, mira todo esto, aplicó mayúsculas. También obtiene puntuación, por lo que esta es una transcripción de muy alta calidad.
Cuando abro el archivo SRT, aquí verá exactamente la misma transcripción, pero también incluye marcas de tiempo para cuando se dice todo. Para transcribir otro archivo , simplemente puede arrastrar otro archivo de audio o video, y luego simplemente actualizar el nombre aquí, y puede ejecutarlo nuevamente, y luego obtendrá otra transcripción para su próximo archivo. Para transcribir este archivo, solo usamos un comando muy básico. También tiene algunos parámetros adicionales que puede usar.
Justo arriba, agreguemos un poco más de código, y aquí abajo, escriba susurro -h. También encontrará esto en la descripción, y luego hagamos clic en Ejecutar. Esto abre todos los parámetros disponibles. Aquí, por ejemplo , puede especificar dónde desea guardar la salida. Aquí, también puede especificar si desea transcribir un archivo o si también desea traducir un archivo. Aquí, también puede especificar el idioma y tiene muchos otros parámetros. Si no está seguro de lo que hace un parámetro, si se desplaza un poco hacia abajo, aquí verá una explicación detallada de lo que hace cada parámetro. Una vez que salga de Google Colaboratory, su tiempo de ejecución finalizará y eliminará automáticamente todos sus archivos. Entonces, si ha transcrito algún audio , le recomiendo que lo descargue primero antes de irse. Esta es una tecnología increíble. Personalmente lo uso para todos mis subtítulos de videos de YouTube. Hace un mejor trabajo que los subtítulos generados automáticamente de Google porque tiene todas las palabras correctas.
Aplica mayúsculas. Se ocupa de la puntuación. Solo tengo que entrar y hacer algunos ajustes y refinamientos muy pequeños para que quede perfecto. Para ver más videos como este , considere suscribirse y nos vemos en el próximo video..