OpenAI y Microsoft implementan Vall-E

OpenAI y Microsoft continuar la batalla con Google en inteligencia artificial implementando Valle, el nuevo chatbot de voz. Este es un software de síntesis de voz que puede simular la voz humana después de solo tres segundos de escucha.

Es decir, se trata de la última pieza del sistema de inteligencia artificial generativa desarrollado por Microsoft y OpenAI, con el que desde 2019 el coloso de Bill Gates está vinculado por un plurianual, asociación multimillonaria.

Vall-E: todos los detalles del nuevo chatbot de OpenAI y Microsoft

Valle-E es una herramienta de AGI, Inteligencia Artificial General, es decir, una inteligencia artificial “general” o “fuerte” que pueda simular la inteligencia humana. Por lo tanto, a diferencia de lo que hemos conocido hasta ahora, que es una IA "estrecha" o "débil".

Este último es capaz de responder con acciones preestablecidas a tareas específicas, pero no de reaccionar ante una acción no planificada. En los últimos años, los chatbots de IA no han funcionado tan bien como esperaban sus creadores porque estaban limitados a tareas pequeñas y tenían una alta tasa de error.

Valle-E fue desarrollado para ser utilizado con alta calidad herramientas de síntesis de voz y para crear audio original a partir de una muestra de ejemplo. OpenAI define a Valle-E como un "modelo de lenguaje de códec natural" ya que su funcionamiento se basa en una tecnología denominada EnCodec.

La startup, financiada por Elon Musk y Sam Altman, entre otros, también cuenta con la creación de ChatGPT, un chatbot que puede sostener una conversación interactiva con los usuarios recordando y aprendiendo de acciones y precedentes anteriores.

Por lo tanto, al igual que ChatGPT es capaz de generar códigos de forma autónoma, Valle-E también está diseñado para crear códecs de audio discretos a partir de la escucha de una muestra de audio.

Comportarse precisamente como un ser humano.

Junto con el GPT-3 software para texto y Dall-E/difusión estable en imágenes, el sistema de audio Valle-E completa el tríptico ChatGPT y pretende revolucionar el campo de la IA generativa.

Indicación del orador, Ground Truth, Baseline y Vall-E.

La sofisticación de la nueva herramienta lanzada por OpenAI y Microsoft radica en la capacidad de Valle-E para reconocer la timbre, inflexión y tono emocional de la persona que está hablando y reprodúzcalo después de solo tres segundos de escuchar.

Las aplicaciones en edición de audio son muchas, al igual que las críticas sobre el potencial del software para la manipulación y el mal uso. No en vano, a diferencia de lo que sucedió con ChatGPT, Microsoft no proporcionó el código de Vall-E para que otros pudieran experimentar.

Las muestras de voz ya sintetizadas por el software también se pueden encontrar en el sitio de Valle-E. En particular, se pueden escuchar varias variantes de muestreo que incluyen: Indicación del orador, Ground Truth, Baseline y Vall-E. 

La primera opción es un clip de audio cuyas connotaciones de voz deben ser reproducidas por la IA; en el segundo, se pronuncia una frase para la que la IA tiene que proponer una comparación. El tercero, por otro lado, es un ejemplo generado con las tecnologías de síntesis de voz actualmente disponibles. Finalmente, Vall-E es el discurso original generado por el software de Microsoft.

Potencialidades y peligros de OpenAI y la IA de Microsoft.

Los investigadores de Microsoft y OpenAI parecen conscientes de los daños potenciales de esta tecnología. De hecho, comunicaron en un documento público lo siguiente:

“Dado que Vall-E podría sintetizar el habla que mantiene la identidad del hablante, dicha tecnología podría presentar riesgos potenciales relacionados con el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por alguien”.

Por lo tanto, agrega Microsoft, para mitigar tales riesgos, se puede construir un modelo de detección para distinguir si un clip de audio ha sido sintetizado por Vall-E. En este sentido, los dos gigantes también implementarán los principios de inteligencia artificial de Microsoft durante el desarrollo del modelo.

Sin embargo, el riesgo de emulación no es el único factor que genera escepticismo y miedo. Vall-E fue entrenado usando la librería de audio LibriLight hecha por Meta, que contiene 60 mil horas de discursos en inglés extraídos principalmente de audiolibros de dominio público, grabados y leídos por voluntarios.

En cualquier caso, para aumentar su capacidad de síntesis, Vall-E necesitará ampliar su pool de aprendizaje a todo Internet. Este próximo paso es lo que permitió a GPT-3, el predecesor de ChatGPT, lograr impresionante procesamiento de oraciones, escritura y capacidad de montaje.

A pesar de esto, el software también era propenso a formular contenidos violentos, sexistas y racistas precisamente porque funcionaba con ejemplos tomados indiscriminadamente de toda la Web. Esto es lo que también podría pasar con el nuevo Vall-E.

En este caso, las operaciones de filtrado requerirían el uso de una numerosa plantilla humana que, de momento, los grandes gigantes digitales no parecen prever dada la oleada de despidos que está afectando a las big tech.

Google presenta Bard para competir con OpenAI y Microsoft

Como se anticipó, compitiendo con Microsoft y OpenAI está Google, que está listo para presentar Bardo, el chatbot de Mente profunda, la empresa adquirida por Google Alphabet. Bard parece una copia exacta de ChatGPT, pero sin la falla en las actualizaciones.

Sundar Pichai, CEO de Google, presentó el nuevo software como una herramienta que extrae información de la web para brindar respuestas frescas y de alta calidad. Por "fresco", se refiere a la actualización continua, algo que la IA de Microsoft aún no logra hacer.

En pocas palabras, Bard tiene como objetivo generar respuestas detalladas a preguntas simples. Su funcionamiento se basa en LAMDA, el modelo de lenguaje para aplicaciones de diálogo, que uno de los propios ingenieros de Google había descrito previamente como "consciente".

No se puede negar que los entusiastas de la tecnología esperaban el anuncio de Google sobre el lanzamiento de Bard. Después de todo, según los informes del Wall Street Journal, Alphabet, la empresa matriz de Google, ha invertido más de 31 millones de dólares en inteligencia artificial en 2021, más que cualquier otro competidor.

Tras el éxito de ChatGPT, la empresa decidió convocar a los mejores: los fundadores Larry Page y Sergey Brin. En cualquier caso, no hay duda de que el software de inteligencia artificial es un recurso invaluable en el campo de la innovación.

De hecho, incluso Amazon, Meta y Apple ciertamente no van a sentarse y ver lo que otros están haciendo sin tomar medidas. Sin embargo, si bien la competencia es un gran acelerador en términos de investigación, existe el riesgo de que, en la carrera por la mejor inteligencia artificial, se utilicen sistemas defectuosos con errores, limitaciones y riesgos sin prestar demasiada atención al panorama general.

Fuente: https://en.cryptonomist.ch/2023/02/14/openai-microsoft-implement-vall-e/