La ética de la IA cuestiona severamente la clonación de la voz humana, como la de sus familiares fallecidos, destinada a su uso en sistemas autónomos de IA

¿Deberíamos diseñar una clonación de voz de IA que pueda suplantar por completo voces humanas específicas?

getty

Vaya, una pieza de nueva tecnología aparentemente ingeniosa se ha metido a sí misma y a su creador en un poco de agua caliente.

Me refiero al surgimiento de la clonación de voz humana basada en IA como la nueva tecnología que logró aparecer en los titulares de las últimas noticias. En este caso, la empresa es Amazon y su siempre avanzada Alexa.

Los lectores de mi columna recordarán que anteriormente cubrí el indecoroso abucheo que ocurrió cuando se informó que Alexa alentó a un joven a poner un centavo en un enchufe eléctrico (¡no hagas esto!), mira mi cobertura en el enlace aquí. En esa circunstancia, afortunadamente, nadie resultó herido, y las consecuencias fueron que aparentemente el sistema Alexa AI había detectado una tendencia viral anterior y, sin ninguna apariencia de evaluación de sentido común, simplemente repitió la loca sugerencia cuando se le pidió algo divertido para hacer. un niño interactuando con Alexa. Esto destaca las preocupaciones de la ética de la IA de que nos estamos inundando con una IA que carece por completo de cualquier apariencia de razonamiento de sentido común, un problema notablemente difícil que enfrenta la IA y que continúa desafiando los esfuerzos para encarnar en la IA (para mi análisis sobre el sentido común basado en la IA que deriva esfuerzos, ver el enlace aquí).

El último lío involucra la clonación de voz, también conocida como replicación de voz. Lo último en tecnología e IA está planteando consideraciones apremiantes sobre la ética de la IA y la IA ética. Para conocer mi cobertura general continua de la ética de la IA y la IA ética, consulte el enlace aquí y el enlace aquí, Sólo para nombrar unos pocos.

La clonación de voz basada en IA es un concepto sencillo.

Un sistema de inteligencia artificial está programado para grabar en audio algunas de sus palabras habladas. Luego, la IA intenta descifrar sus patrones de habla computacionalmente. En función de los patrones de voz detectados, la IA intenta emitir un discurso de audio que suena como usted. La parte complicada es que el discurso cubre palabras que no había proporcionado previamente como muestras de audio a la IA. En otras palabras, la IA tiene que estimar matemáticamente cómo usted puede pronunciar las palabras. Esto incluye todas las características del habla, como el tono, el aumento y la disminución de la voz, el ritmo o la velocidad del habla, etc.

Cuando escuchas a un humano intentar hacerse pasar por otro humano, por lo general puedes discernir que el esfuerzo es una suplantación. A corto plazo, por ejemplo, si el imitador usa solo unas pocas palabras, puede ser difícil darse cuenta de que la voz no es la del hablante original. Además, si el imitador está imitando las palabras que el hablante original realmente dijo, lo más probable es que pueda sintonizar su propia voz con la voz de la otra persona más aún para esa expresión en particular.

La brevedad y escuchar exactamente las mismas palabras puede permitir que alguien logre una suplantación de identidad.

El desafío se convierte en cubrir palabras que la otra persona no ha dicho o aquellas para las cuales el imitador nunca ha escuchado a la persona pronunciar esas palabras específicas. Estás un poco a oscuras tratando de averiguar cómo la persona imitada habría dicho esas palabras. La buena noticia es que si alguien más que escucha al imitador tampoco sabe cómo la persona original habría dicho las palabras, el imitador puede estar relativamente lejos de la verdadera voz y aun así parecer elegante y acertado.

También me gustaría eliminar momentáneamente de la ecuación los gestos y el movimiento físico de la personificación. Al ver a un imitador, es posible que se sienta influenciado si puede arrugar la cara o agitar los brazos de una manera que también imite a la persona que está siendo suplantada. Las señales adicionales del cuerpo y la cara engañarán a tu mente para que piense que la voz también es perfecta, aunque no lo sea. Un purista de la suplantación de voz insistiría en que solo la voz debe usarse como criterio para determinar si la voz imita adecuadamente a la persona suplantada.

Seguramente has visto los diversos videos falsos profundos que circulan estos días en las redes sociales. Alguien inteligentemente reorganiza un video para que aparezca la cara de otra persona en el video, superponiendo una cara que era de otra persona en la grabación original. Esto generalmente también se acompaña de hacer un deepfake en la voz también. Está recibiendo un doble golpe, ya que el video se altera visualmente a través de una IA profunda y el audio se altera a través de una IA profunda.

En aras de la discusión en este documento, me estoy concentrando solo en las facetas de audio deepfake basadas en IA, que, como se mencionó anteriormente, se conoce comúnmente como clonación de voz o replicación de voz. Algunos se refieren descaradamente a esto como una voz en una lata.

Estoy seguro de que algunos de ustedes ahora están exhortando que hemos tenido la capacidad de usar programas de computadora para clonar voces durante bastante tiempo. Esto no es nada nuevo per se. Estoy de acuerdo. Al mismo tiempo, debemos reconocer que esta capacidad de alta tecnología es cada vez mejor. Bueno, digo cada vez mejor, pero tal vez, como verán en un momento, debería estar diciendo que se está volviendo cada vez más preocupante.

Aférrate a ese pensamiento.

La destreza tecnológica seguramente está avanzando para hacer la clonación de voz. Por ejemplo, solía ser que habría tenido que "entrenar" un programa de replicación de audio de IA hablando una historia completa de palabras de combinación y combinación. Similar a la famosa o infame línea del rápido zorro marrón que saltó sobre el perro perezoso (una línea destinada a lograr que alguien cubra todas las letras del alfabeto), hay historias cortas especialmente diseñadas que contienen una mezcla de palabras con el propósito de lograr que diga suficientes palabras y una variedad de palabras lo suficientemente amplia como para que la coincidencia de patrones de IA sea mucho más fácil.

Es posible que haya tenido que leer varias páginas de palabras, muchas veces incluidas palabras que le cuesta pronunciar y ni siquiera está seguro de lo que significan, para permitir que se produzca la coincidencia de patrones de IA. Esto podría tomar muchos minutos o, a veces, horas de conversación para proporcionar a la IA suficiente audio para encontrar patrones distintos de su voz. Si no realizó esta actividad de capacitación, lo más probable es que la replicación de voz resultante sea fácilmente derribada por cualquier amigo suyo que conozca bien su voz.

De acuerdo, el interés de los desarrolladores de IA se centró en cómo optimizar los aspectos de reproducción de audio. Los desarrolladores de IA disfrutan los desafíos. Se dice que son optimizadores de corazón. Déles un problema y tenderán a optimizar, independientemente de adónde pueda conducir (menciono esto como un presagio, que se aclarará en breve).

Respóndeme esto:

¿Cuál es la cantidad mínima de muestra de audio que se necesitaría para clonar al máximo la voz de una persona y para la cual la muestra de audio puede ser casi cualquier conjunto de palabras permitido aleatoriamente y aun así permitir la clonación de voz para producir casi cualquier palabra que pueda pronunciarse alguna vez? por la voz objetivo y el sonido esencialmente idéntico a la voz de esa persona en una conversación u otro entorno contextual de elección?

Hay mucho allí para desempacar.

Tenga en cuenta que desea la muestra de audio mínima que clonará al máximo una voz, de modo que las expresiones de IA resultantes en esa voz ahora replicada automáticamente parezcan totalmente indistinguibles de la persona real. Esto es más complicado de lo que piensas.

Es casi como ese programa de juegos en el que tienes que intentar nombrar una canción en función del menor número de notas escuchadas. Cuantas menos notas se toquen, más difícil será adivinar qué canción es. Si su conjetura es incorrecta, pierde los puntos o pierde el juego. Se produce una lucha sobre si debe usar solo una nota, la menor pista posible, pero luego su probabilidad de adivinar la canción se reduce severamente. Cuantas más notas escuche, mayor será la probabilidad de adivinar la canción correcta, pero está permitiendo que otros concursantes también tengan una mayor posibilidad de adivinar.

Recuerde que también estamos tratando con la noción de palabras prescritas frente a cualquier palabra en el caso de la clonación de voz. Si una persona dice las palabras "No puedes manejar la verdad" y queremos que la IA imite o suplante a la persona, la IA computacionalmente probablemente pueda captar fácilmente el patrón. Por otro lado, supongamos que solo tenemos estas palabras pronunciadas por esa persona "¿Es eso todo lo que tienes que preguntarme?" y queremos usar esas palabras para que la IA diga "No puedes manejar la verdad". Creo que puedes ver la dificultad de entrenar en un conjunto de palabras y tener que extrapolar a un conjunto de palabras completamente diferente.

Otro elemento arduo consiste en el contexto de las palabras habladas. Supongamos que hacemos que grabes una oración en audio cuando estás tranquilo y relajado. La IA modela esas palabras. También podría reflejar la calma de su voz. Imagina que luego queremos que la IA pretenda que eres tú cuando estás gritando enojado y enojado como un avispón. Hacer que la IA distorsione el patrón original para que se convierta en una versión enojada precisa de tu voz puede ser desalentador.

¿Qué tipo de mínimos estamos viendo?

El objetivo ahora mismo es romper la marca de los minutos.

Tome una voz grabada para la que tenga menos de un minuto de audio y haga que la IA haga toda la increíble clonación de voz solo a partir de esa minúscula muestra. Quiero aclarar que casi cualquiera puede componer una IA que pueda hacer esto. en general en menos de un minuto, aunque el clon de voz resultante es débil y se detecta fácilmente como incompleto. Nuevamente, estoy vinculando explícita y firmemente que el tiempo de muestreo es mínimo y mientras tanto, la clonación de voz está al máximo. Un imbécil puede lograr un muestreo mínimo si también se le permite ser extremadamente submáximo en la clonación de voz.

Este es un desafío tecnológico divertido y emocionante. Sin embargo, es posible que se pregunte el valor o los méritos de hacer esto. ¿Qué fin buscamos? ¿Qué beneficios podemos esperar para la humanidad al poder realizar una replicación de voz basada en IA de manera tan eficiente y efectiva?

Quiero que reflexiones sobre esa sustanciosa pregunta.

La respuesta incorrecta puede llevarte sin darte cuenta a un montón de papilla.

Aquí hay algo que parece optimista y totalmente positivo.

Supongamos que podríamos tener grabaciones antiguas de personas famosas como Abraham Lincoln y pudimos usar esos fragmentos de audio polvorientos para crear un clon de voz basado en IA. Entonces pudimos escuchar a Lincoln pronunciar el Discurso de Gettysburg como si estuviéramos allí el día en que pronunció el discurso memorable hace cuatro veintenas y siete años. Como nota al margen, lamentablemente, no tenemos ninguna grabación de audio de la voz de Lincoln (la tecnología aún no existía), pero sí tenemos grabaciones de voz del presidente Benjamin Harrison (el primero de los presidentes de EE. UU. en tener una grabación de voz hecha de ) y otros presidentes a partir de entonces.

Creo que todos estaríamos razonablemente de acuerdo en que este uso específico de la clonación de voz basada en IA está perfectamente bien. De hecho, probablemente querríamos esto más que si un actor tratara de fingir que está hablando como Lincoln. Presumiblemente, el actor estaría inventando lo que pensara que sonaba la voz real de Lincoln. Sería una invención, tal vez muy alejada de lo que era la voz de Lincoln. En cambio, mediante el uso de un sistema de clonación de voz de IA bien calificado, habría poca discusión sobre cómo sonaba realmente la voz de Lincoln. La IA sería objetivamente correcta, al menos en la medida de lo buena que es la IA para replicar la voz objetivo.

En la categoría de bondad sobre la clonación de voz de IA, podemos obtener una victoria con este tipo de caso de uso.

No quiero ser pesimista, pero hay un inconveniente incluso en este uso aparentemente positivo.

Alguien usa un sistema de clonación de voz de IA para descubrir la voz de Theodore Roosevelt ("Teddy"), nuestro preciado 26^th Presidente de los Estados Unidos, naturalista, conservacionista, estadista, escritor, historiador y casi universalmente etiquetado como una persona estimada. Los discursos que pronunció y de los que no tenemos ninguna versión de audio conservada históricamente ahora podrían "hablarse" como si él personalmente estuviera hablando hoy. Un impulso encomiable para estudiar historia.

Volvamos esto feo, simplemente con el fin de revelar sus desventajas.

Usamos el clon de voz basado en Teddy AI para leer un discurso que pronunció un dictador malvado. A la IA no le importa lo que está hablando ya que no hay apariencia de sensibilidad en la IA. Las palabras son simplemente palabras, o más exactamente, solo bocanadas de sonido.

Puede que te horrorice que alguien haga algo de esta naturaleza turbia. ¿Por qué diablos se usaría la voz clonada basada en IA del renombrado y venerado Theodore Roosevelt para pronunciar un discurso que Teddy no solo no hizo originalmente, sino que además habla sobre un tema que representa la maldad de un despreciable? ¿dictador?

Escandaloso, podrías exclamar.

Fácil de hacer, viene la respuesta.

En esencia, una preocupación muy importante sobre la replicación de voz basada en IA es que de repente nos encontraremos inundados de discursos y declaraciones falsos o, digamos, profundamente falsos que no tienen nada que ver con hechos históricos o precisiones. Si se hacen y promulgan suficientes de estos, podríamos confundirnos acerca de lo que es realidad versus lo que es ficción.

Puedes ver abundantemente cómo esto podría surgir. Usando un clon de voz basado en IA, alguien hace una grabación de audio de Woodrow Wilson dando un discurso que en realidad nunca dio. Esto está publicado en Internet. Alguien más escucha la grabación y cree que es real. Lo publican en otra parte, mencionando que encontraron esta gran grabación histórica de Woodrow Wilson. Muy pronto, los estudiantes en las clases de historia están usando el audio en lugar de leer la versión escrita del discurso.

Nadie termina por saber si el discurso fue pronunciado por Woodrow Wilson o no. Tal vez lo fue, tal vez no lo fue, y todos piensan que realmente no importa de cualquier manera (bueno, aquellos que no se enfocan en la precisión y los hechos históricos). Por supuesto, si el discurso es cobarde, esto da una impresión errónea o una representación desinformada de esa figura histórica. La historia y la ficción se fusionan en uno.

Confío en que esté convencido de que este es un inconveniente asociado con la clonación de voz basada en IA.

Una vez más, ya podemos hacer este tipo de cosas, haciéndolo sin la replicación de voz basada en IA más nueva y mejorada, pero será más fácil hacer esto y el audio resultante será extremadamente difícil de diferenciar entre real y falso. Hoy en día, al usar programas de producción de audio convencionales, generalmente puede escuchar la salida y, a menudo, determinar fácilmente que el audio es falso. Con los avances en IA, pronto ya no podrá creer lo que escucha, por así decirlo.

Por mala que sea la clonación de voz de figuras históricas, debemos pensar en los usos quizás especialmente atroces que implican a las personas vivas de hoy.

Primero, ¿alguna vez ha oído hablar de una estafa algo popular que involucra a alguien que se hace pasar por un jefe o su equivalente? Hace algunos años, existía la inquietante moda de llamar a un restaurante o tienda y hacerse pasar por el jefe del establecimiento. La falsificación implicaría decirle a un miembro del personal que haga cosas ridículas, lo que a menudo haría bajo la falsa creencia de que estaba hablando con su jefe.

No quiero enredarme en este tipo de fechorías indignantes, pero otra pertinente consiste en llamar a alguien que puede ser sordo y hacerse pasar por su nieto o nieta. El imitador trata de convencer a los abuelos de que proporcionen dinero para ayudarlos o tal vez salvarlos de alguna manera. Según la voz suplantada, se engaña al abuelo para que lo haga. Despreciable. Vergonzoso. Triste.

Estamos a punto de entrar en una era en la que la clonación de voz basada en IA permitirá con esteroides, por así decirlo, la llegada de estafas y estafas relacionadas con la voz. La IA hará un trabajo tan notable de replicación de voz que cualquiera que escuche la voz jurará que la persona real fue la que habló.

¿Hasta dónde podría llegar eso?

A algunos les preocupa que el lanzamiento de, por ejemplo, armamento atómico y ataques militares pueda ocurrir por alguien que use un clon de voz basado en IA que engañe a otros haciéndoles creer que un oficial militar de alto nivel estaba emitiendo un comando directo. Lo mismo podría decirse de cualquier persona en cualquier posición prominente. Utilice un clon de voz de IA extraordinariamente preciso para lograr que un ejecutivo bancario libere millones de dólares en fondos, haciéndolo basándose en que lo engañan haciéndole creer que está hablando con el cliente bancario en cuestión.

En años pasados, hacer esto con IA no habría sido necesariamente convincente. En el momento en que el humano al otro lado del teléfono comience a hacer preguntas, la IA deberá partir de un guión preparado. En ese momento, la clonación de voz se deterioraría, a veces radicalmente. La única forma de mantener la estafa era obligar a que la conversación volviera al guión.

Con el tipo de IA que tenemos hoy, incluidos los avances en el procesamiento del lenguaje natural (NLP), puede salirse de un guión y, potencialmente, hacer que el clon de voz de la IA parezca hablar de una manera conversacional natural (este no es siempre el caso, y todavía hay formas de hacer tropezar a la IA).

Antes de entrar en un poco más de carne y papas sobre las consideraciones salvajes y extrañas que subyacen a la clonación de voz basada en IA, establezcamos algunos fundamentos adicionales sobre temas profundamente esenciales. Necesitamos sumergirnos brevemente en la ética de la IA y especialmente en el advenimiento del aprendizaje automático (ML) y el aprendizaje profundo (DL).

Es posible que sepa vagamente que una de las voces más fuertes en estos días en el campo de la IA e incluso fuera del campo de la IA consiste en clamar por una mayor apariencia de IA ética. Echemos un vistazo a lo que significa referirse a la ética de la IA y la IA ética. Además de eso, exploraremos a qué me refiero cuando hablo de Machine Learning y Deep Learning.

Un segmento o parte particular de la ética de la IA que ha recibido mucha atención de los medios consiste en la IA que exhibe sesgos e inequidades desfavorables. Es posible que sepa que cuando se puso en marcha la última era de la IA hubo un gran estallido de entusiasmo por lo que algunos ahora llaman AI para siempre. Desafortunadamente, inmediatamente después de esa emoción efusiva, comenzamos a presenciar AI para mal. Por ejemplo, se ha revelado que varios sistemas de reconocimiento facial basados en IA contienen sesgos raciales y de género, que he discutido en el enlace aquí.

Esfuerzos para luchar contra AI para mal están en marcha activamente. además de vociferante legal búsquedas de controlar las irregularidades, también hay un impulso sustancial para adoptar la ética de la IA para corregir la vileza de la IA. La noción es que debemos adoptar y respaldar los principios clave de la IA ética para el desarrollo y el despliegue de la IA, haciéndolo así para socavar la AI para mal y simultáneamente anunciando y promoviendo lo preferible AI para siempre.

En una noción relacionada, soy un defensor de tratar de usar la IA como parte de la solución a los problemas de la IA, combatiendo fuego con fuego de esa manera de pensar. Podríamos, por ejemplo, incorporar componentes de IA ética en un sistema de IA que monitoreará cómo el resto de la IA está haciendo las cosas y, por lo tanto, potencialmente detectará en tiempo real cualquier esfuerzo discriminatorio, vea mi discusión en el enlace aquí. También podríamos tener un sistema de IA separado que actúe como un tipo de monitor de ética de IA. El sistema de IA sirve como un supervisor para rastrear y detectar cuándo otra IA está entrando en el abismo poco ético (ver mi análisis de tales capacidades en el enlace aquí).

En un momento, compartiré con ustedes algunos principios generales que subyacen a la ética de la IA. Hay muchos de este tipo de listas flotando aquí y allá. Se podría decir que todavía no existe una lista singular de atractivo y concurrencia universal. Esa es la noticia desafortunada. La buena noticia es que al menos hay listas de ética de IA fácilmente disponibles y tienden a ser bastante similares. En total, esto sugiere que, mediante una especie de convergencia razonada, estamos encontrando nuestro camino hacia una comunidad general de en qué consiste la ética de la IA.

Primero, cubramos brevemente algunos de los preceptos generales de IA ética para ilustrar lo que debería ser una consideración vital para cualquier persona que elabore, despliegue o use IA.

Por ejemplo, como afirma el Vaticano en el Llamamiento de Roma a la ética de la IA y como he cubierto en profundidad en el enlace aquí, estos son sus seis principios éticos primarios de IA identificados:

Transparencia: En principio, los sistemas de IA deben ser explicables
Inclusión: Las necesidades de todos los seres humanos deben ser tenidas en cuenta para que todos puedan beneficiarse y todas las personas puedan tener las mejores condiciones posibles para expresarse y desarrollarse.
Responsabilidad: Quienes diseñan y despliegan el uso de la IA deben proceder con responsabilidad y transparencia
Imparcialidad: No cree ni actúe de acuerdo con prejuicios, salvaguardando así la equidad y la dignidad humana.
Fiabilidad: Los sistemas de IA deben poder funcionar de manera confiable
Seguridad y privacidad: Los sistemas de IA deben funcionar de forma segura y respetar la privacidad de los usuarios.

Según lo declarado por el Departamento de Defensa de los Estados Unidos (DoD) en su Principios éticos para el uso de la inteligencia artificial y como he cubierto en profundidad en el enlace aquí, estos son sus seis principios éticos principales de IA:

Responsable: El personal del DoD ejercerá los niveles apropiados de juicio y cuidado sin dejar de ser responsable del desarrollo, implementación y uso de las capacidades de IA.
Equitativo: El Departamento tomará medidas deliberadas para minimizar el sesgo no deseado en las capacidades de IA.
Trazable: Las capacidades de IA del Departamento se desarrollarán y desplegarán de manera que el personal pertinente posea una comprensión adecuada de la tecnología, los procesos de desarrollo y los métodos operativos aplicables a las capacidades de IA, incluidas metodologías transparentes y auditables, fuentes de datos y procedimientos y documentación de diseño.
De confianza: Las capacidades de IA del Departamento tendrán usos explícitos y bien definidos, y la seguridad y la eficacia de dichas capacidades estarán sujetas a pruebas y garantías dentro de esos usos definidos a lo largo de sus ciclos de vida completos.
Gobernable: El Departamento diseñará y diseñará capacidades de IA para cumplir con las funciones previstas mientras posee la capacidad de detectar y evitar consecuencias no deseadas, y la capacidad de desconectar o desactivar sistemas implementados que demuestren un comportamiento no deseado.

También he discutido varios análisis colectivos de los principios éticos de la IA, incluido haber cubierto un conjunto ideado por investigadores que examinaron y condensaron la esencia de numerosos principios éticos nacionales e internacionales de la IA en un artículo titulado "El panorama global de las pautas éticas de la IA" (publicado en Naturaleza), y que mi cobertura explora en el enlace aquí, lo que condujo a esta lista clave:

Transparencia
Justicia y Equidad
No maleficencia
Corporativa
Privacidad
Beneficencia
Libertad y Autonomía
Confía en
Sostenibilidad
Dignidad
Solidaridad

Como puede adivinar directamente, tratar de precisar los detalles que subyacen a estos principios puede ser extremadamente difícil de hacer. Más aún, el esfuerzo por convertir esos principios generales en algo completamente tangible y lo suficientemente detallado como para usarse cuando se crean sistemas de IA también es un hueso duro de roer. En general, es fácil hacer algunas sugerencias sobre qué son los preceptos de ética de la IA y cómo deben observarse en general, mientras que es una situación mucho más complicada en la codificación de la IA que tiene que ser la verdadera goma que se encuentra en el camino.

Los principios de ética de la IA deben ser utilizados por los desarrolladores de IA, junto con aquellos que gestionan los esfuerzos de desarrollo de IA, e incluso aquellos que, en última instancia, implementan y realizan el mantenimiento de los sistemas de IA. Todas las partes interesadas a lo largo de todo el ciclo de vida de desarrollo y uso de la IA se consideran dentro del alcance de cumplir con las normas establecidas de IA ética. Este es un punto destacado importante ya que la suposición habitual es que "solo los codificadores" o aquellos que programan la IA están sujetos a adherirse a las nociones de ética de la IA. Como se dijo anteriormente, se necesita un pueblo para diseñar y poner en práctica la IA, y para lo cual todo el pueblo debe conocer y cumplir los preceptos de ética de la IA.

También asegurémonos de estar en la misma página sobre la naturaleza de la IA actual.

Hoy en día no hay ninguna IA que sea inteligente. No tenemos esto. No sabemos si la IA sensible será posible. Nadie puede predecir acertadamente si lograremos una IA inteligente, ni si la IA inteligente surgirá milagrosamente de forma espontánea en una forma de supernova cognitiva computacional (generalmente conocida como la singularidad, vea mi cobertura en el enlace aquí).

El tipo de IA en el que me estoy enfocando consiste en la IA no consciente que tenemos hoy. Si quisiéramos especular salvajemente sobre sensible AI, esta discusión podría ir en una dirección radicalmente diferente. Una IA consciente supuestamente sería de calidad humana. Debería tener en cuenta que la IA inteligente es el equivalente cognitivo de un ser humano. Más aún, dado que algunos especulan que podríamos tener una IA superinteligente, es concebible que dicha IA termine siendo más inteligente que los humanos.

Mantengamos las cosas más realistas y consideremos la IA computacional no sensible de hoy.

Tenga en cuenta que la IA actual no puede "pensar" de ninguna manera a la par del pensamiento humano. Cuando interactúa con Alexa o Siri, las capacidades conversacionales pueden parecer similares a las capacidades humanas, pero la realidad es que es computacional y carece de cognición humana. La última era de IA ha hecho un uso extensivo de Machine Learning (ML) y Deep Learning (DL), que aprovechan la coincidencia de patrones computacionales. Esto ha llevado a sistemas de IA que tienen la apariencia de inclinaciones similares a las humanas. Mientras tanto, no hay ninguna IA hoy en día que tenga una apariencia de sentido común y tampoco tenga el asombro cognitivo del pensamiento humano robusto.

ML/DL es una forma de coincidencia de patrones computacional. El enfoque habitual es reunir datos sobre una tarea de toma de decisiones. Usted introduce los datos en los modelos de computadora ML/DL. Esos modelos buscan encontrar patrones matemáticos. Después de encontrar dichos patrones, si los encuentra, el sistema de IA utilizará esos patrones cuando encuentre nuevos datos. Tras la presentación de nuevos datos, los patrones basados en los datos "antiguos" o históricos se aplican para tomar una decisión actual.

Creo que puedes adivinar hacia dónde se dirige esto. Si los humanos que han estado tomando decisiones modeladas han estado incorporando sesgos adversos, lo más probable es que los datos reflejen esto de manera sutil pero significativa. La coincidencia de patrones computacionales de Machine Learning o Deep Learning simplemente intentará imitar matemáticamente los datos en consecuencia. No hay apariencia de sentido común u otros aspectos conscientes del modelado creado por IA per se.

Además, es posible que los desarrolladores de IA tampoco se den cuenta de lo que está pasando. Las matemáticas arcanas en el ML/DL pueden hacer que sea difícil descubrir los sesgos ahora ocultos. Con razón esperaría y esperaría que los desarrolladores de IA probaran los sesgos potencialmente enterrados, aunque esto es más complicado de lo que parece. Existe una gran posibilidad de que, incluso con pruebas relativamente extensas, aún haya sesgos integrados en los modelos de coincidencia de patrones del ML/DL.

De alguna manera, podría usar el adagio famoso o infame de que la basura entra, la basura sale. La cuestión es que esto es más parecido a los sesgos que se infunden insidiosamente como sesgos sumergidos dentro de la IA. La toma de decisiones del algoritmo (ADM) de la IA se carga axiomáticamente de inequidades.

No está bien.

Volvamos a nuestro enfoque en la clonación de voz basada en IA.

En una conferencia reciente, una presentación realizada por Amazon tenía como objetivo mostrar las ventajas deseables de la clonación de voz basada en IA y destacar la IA de vanguardia más reciente que se utiliza en Alexa para mejorar sus capacidades. Según informes de prensa, un ejemplo preparado que se suponía que sería conmovedor y optimista consistía en hacer que un niño le pidiera a Alexa que su abuela terminara de leerles la historia de El mago de Oz. Se le dijo a la audiencia que la abuela había fallecido y que este era un medio para que el niño se reconectara esencialmente con su amado abuelo. Aparentemente, todo esto fue parte de un video elaborado por Amazon para ayudar a mostrar los últimos avances en clonación de voz de IA del equipo de desarrollo de Alexa (que abarca funciones que aún no se han lanzado formalmente para uso público).

Una reacción a este ejemplo es que nos conmueve mucho que un niño pueda volver a escuchar la voz de su abuela. Presumiblemente, debemos suponer que la abuela aún no había registrado una lectura completa de la historia, por lo que la clonación de IA estaba haciendo el trabajo de hacer que las cosas parecieran como si la abuela ahora estuviera haciendo la totalidad de la lectura.

Notable y una tremenda manera de volver a conectar con los seres queridos que ya no están con nosotros.

No todos los reporteros y analistas (más Twitter) estaban tan inclinados a una interpretación favorable de este avance. Algunos etiquetaron esto como francamente espeluznante. Se decía que tratar de recrear la voz de un ser querido fallecido era una empresa extraña y algo extraña.

Abundan las preguntas, como:

¿Se confundiría el niño y creería que el ser querido fallecido todavía estaba vivo?
¿Podría el niño ahora ser inducido a alguna broma o estafa indeseable bajo la falsa creencia de que la abuela todavía estaba con nosotros?
¿Podría el niño sufrir al escuchar sobre el ser querido fallecido y desanimarse ahora una vez más al extrañar al abuelo, como si abriera heridas emocionales ya resueltas?
¿Pensará el niño que el difunto puede hablar desde el otro lado, es decir, que esa voz mística que parece ser precisamente su abuela le habla desde la tumba?
¿Es concebible que el niño piense que la IA de alguna manera ha encarnado a su abuela, antropomorfizando a la IA de tal manera que el niño crezca creyendo que la IA puede replicar a los humanos por completo?
Supongamos que el niño se enamora tanto de la voz replicada por IA de la abuela que se obsesiona y usa la voz para todo tipo de escucha de audio.
¿Puede el proveedor que está replicando la voz optar por usar esa voz para otros que usan el mismo sistema general, sin obtener el permiso explícito de la familia y, por lo tanto, “lucrándose” con la voz ideada?
Y así sucesivamente.

Es importante darse cuenta de que puede evocar tantos aspectos negativos como positivos, o digamos tantos aspectos positivos como negativos. Hay compensaciones subyacentes a estos avances de IA. Mirar solo una cara de la moneda es quizás miope.

La clave es asegurarse de que estamos analizando todos los aspectos de estos problemas. No se nuble su pensamiento. Puede ser fácil explorar solo los aspectos positivos. Puede ser fácil explorar solo los aspectos negativos. Necesitamos examinar ambos y descubrir qué se puede hacer para aprovechar los aspectos positivos y tratar de reducir, eliminar o al menos mitigar los negativos.

Hasta cierto punto, es por eso que la ética de la IA y la IA ética son un tema tan crucial. Los preceptos de la Ética de la IA nos obligan a permanecer alerta. Los tecnólogos de IA a veces pueden preocuparse por la tecnología, en particular la optimización de la alta tecnología. No necesariamente están considerando las ramificaciones sociales más grandes. Tener una mentalidad de ética de la IA y hacerlo integralmente para el desarrollo y el campo de la IA es vital para producir una IA adecuada.

Además de emplear la ética de la IA, existe la pregunta correspondiente de si deberíamos tener leyes que rijan varios usos de la IA, como las funciones de clonación de voz basadas en la IA. Se están promoviendo nuevas leyes a nivel federal, estatal y local que se refieren al alcance y la naturaleza de cómo se debe diseñar la IA. El esfuerzo por redactar y promulgar tales leyes es gradual. La ética de la IA sirve como un recurso provisional considerado, como mínimo.

Dicho esto, algunos argumentan que no necesitamos nuevas leyes que cubran la IA y que nuestras leyes existentes son suficientes. De hecho, advierten que si promulgamos algunas de estas leyes de IA, estaremos matando a la gallina de los huevos de oro reprimiendo los avances en IA que ofrecen inmensas ventajas sociales. Ver por ejemplo mi cobertura en el enlace aquí y el enlace aquí.

En este momento de esta importante discusión, apuesto a que está deseoso de algunos ejemplos ilustrativos que puedan mostrar este tema. Hay un conjunto especial y seguramente popular de ejemplos que están cerca de mi corazón. Verá, en mi calidad de experto en IA, incluidas las ramificaciones éticas y legales, con frecuencia se me pide que identifique ejemplos realistas que muestren los dilemas de ética de la IA para que la naturaleza un tanto teórica del tema pueda comprenderse más fácilmente. Una de las áreas más evocadoras que presenta vívidamente este dilema ético de la IA es el advenimiento de los verdaderos autos autónomos basados en la IA. Esto servirá como un caso de uso útil o ejemplo para una amplia discusión sobre el tema.

Aquí hay una pregunta notable que vale la pena contemplar: ¿La llegada de los verdaderos autos autónomos basados en IA aclara algo sobre la clonación de voz basada en IA y, de ser así, qué muestra esto?

Permítanme un momento para desempacar la pregunta.

Primero, tenga en cuenta que no hay un conductor humano involucrado en un verdadero automóvil autónomo. Tenga en cuenta que los verdaderos autos sin conductor se conducen a través de un sistema de conducción de IA. No hay necesidad de un conductor humano al volante, ni existe una disposición para que un humano conduzca el vehículo. Para conocer mi cobertura amplia y continua de los vehículos autónomos (AV) y, en especial, los autos sin conductor, consulte el enlace aquí.

Me gustaría aclarar más a qué se refiere cuando me refiero a verdaderos coches autónomos.

Comprensión de los niveles de los automóviles autónomos

Como aclaración, los verdaderos autos autónomos son aquellos en los que la IA conduce el automóvil completamente por sí sola y no hay asistencia humana durante la tarea de conducción.

Estos vehículos sin conductor se consideran Nivel 4 y Nivel 5 (vea mi explicación en este enlace aquí), mientras que un automóvil que requiere un conductor humano para compartir el esfuerzo de conducción generalmente se considera en el Nivel 2 o Nivel 3. Los automóviles que comparten la tarea de conducción se describen como semiautónomos y, por lo general, contienen una variedad de complementos automatizados que se conocen como ADAS (Advanced Driver-Assistance Systems).

Todavía no existe un verdadero automóvil autónomo en el Nivel 5, y aún no sabemos si será posible lograrlo, ni cuánto tiempo tomará llegar allí.

Mientras tanto, los esfuerzos de Nivel 4 están tratando gradualmente de obtener algo de tracción al someterse a pruebas de carreteras públicas muy estrechas y selectivas, aunque existe controversia sobre si estas pruebas deberían permitirse per se (todos somos conejillos de indias de vida o muerte en un experimento que tienen lugar en nuestras carreteras y caminos, algunos sostienen, vea mi cobertura en este enlace aquí).

Dado que los automóviles semiautónomos requieren un conductor humano, la adopción de ese tipo de automóviles no será muy diferente de la conducción de vehículos convencionales, por lo que no hay mucho nuevo per se sobre este tema (sin embargo, como verá, en un momento, los siguientes puntos son generalmente aplicables).

Para los automóviles semiautónomos, es importante que el público deba ser advertido sobre un aspecto inquietante que ha surgido últimamente, a saber, a pesar de que los conductores humanos siguen publicando videos de ellos mismos durmiendo al volante de un automóvil de Nivel 2 o Nivel 3 , todos debemos evitar que nos engañen creyendo que el conductor puede desviar su atención de la tarea de conducir mientras conduce un automóvil semiautónomo.

Usted es la parte responsable de las acciones de conducción del vehículo, independientemente de la cantidad de automatización que pueda arrojarse a un Nivel 2 o Nivel 3.

Autos sin conductor y clonación de voz basada en IA

Para los vehículos autónomos verdaderos de Nivel 4 y Nivel 5, no habrá un conductor humano involucrado en la tarea de conducción.

Todos los ocupantes serán pasajeros.

La IA está conduciendo.

Un aspecto para discutir inmediatamente implica el hecho de que la IA involucrada en los sistemas de conducción de IA actuales no es sensible. En otras palabras, la IA es en su conjunto un colectivo de programación y algoritmos basados en computadora, y seguramente no es capaz de razonar de la misma manera que los humanos.

¿Por qué este énfasis adicional en que la IA no es consciente?

Porque quiero subrayar que cuando hablo del papel del sistema de conducción de la IA, no estoy atribuyendo cualidades humanas a la IA. Tenga en cuenta que existe una tendencia continua y peligrosa en estos días a antropomorfizar la IA. En esencia, las personas están asignando una sensibilidad similar a la humana a la IA actual, a pesar del hecho innegable e indiscutible de que todavía no existe tal IA.

Con esa aclaración, puede imaginar que el sistema de conducción de inteligencia artificial no "conocerá" de forma nativa de alguna manera las facetas de la conducción. La conducción y todo lo que conlleva deberá programarse como parte del hardware y software del vehículo autónomo.

Vamos a sumergirnos en la miríada de aspectos que entran en juego en este tema.

Primero, es importante darse cuenta de que no todos los autos autónomos con IA son iguales. Cada fabricante de automóviles y empresa de tecnología de conducción autónoma está adoptando su enfoque para diseñar automóviles autónomos. Como tal, es difícil hacer declaraciones generales sobre lo que harán o no harán los sistemas de conducción de IA.

Además, cada vez que se indica que un sistema de conducción de inteligencia artificial no hace algo en particular, esto puede ser superado más adelante por desarrolladores que de hecho programan la computadora para hacer eso mismo. Paso a paso, los sistemas de conducción de IA se están mejorando y ampliando gradualmente. Es posible que una limitación existente hoy en día ya no exista en una iteración o versión futura del sistema.

Espero que eso proporcione una letanía suficiente de advertencias para fundamentar lo que estoy a punto de relatar.

Esbocemos un escenario que podría aprovechar la clonación de voz basada en IA.

Un padre y su hijo suben a un automóvil autónomo basado en inteligencia artificial. Ellos van a su supermercado local. Se anticipa que este será un viaje relativamente tranquilo. Solo un viaje semanal a la tienda, aunque el conductor es un sistema de conducción de inteligencia artificial y el padre no necesita conducir nada.

Para un padre, esto es una gran ayuda. En lugar de tener que concentrarse en conducir y lidiar con el acto de conducir, el padre puede dedicar su atención a su hijo. Pueden jugar juntos en el vehículo autónomo y pasar tiempo de una naturaleza valiosa. Mientras que el padre normalmente se distraería al conducir, y probablemente se pondría ansioso y tenso mientras navega por calles concurridas y trata con otros conductores chiflados cercanos, aquí el padre está felizmente inconsciente de esas preocupaciones y solo interactúa deliciosamente con su preciado hijo.

El padre habla con el sistema de conducción de IA y le dice a la IA que los lleve a la tienda de comestibles. En un escenario típico, la IA respondería a través de una expresión de audio neutral que podría escuchar familiarmente a través de Alexa o Siri de hoy. La IA podría responder afirmando que la tienda de comestibles está a 15 minutos de distancia en automóvil. Además, la IA podría indicar que el automóvil autónomo los dejará en el frente de la tienda.

Esa podría ser la única actividad relacionada con la voz de la IA en tal escenario. Tal vez, una vez que el automóvil autónomo se acerque a la tienda de comestibles, la IA podría decir algo sobre el destino que se acerca. También puede haber un recordatorio vocal para que lleve sus cosas con usted al salir del vehículo autónomo.

He explicado que algunos sistemas de conducción de IA van a ser gatos parlanchines, por así decirlo. Estarán programados para interactuar de manera más fluida y continua con los pasajeros humanos. Cuando te subes a un vehículo de viaje compartido que está siendo conducido por un humano, a veces quieres que el conductor sea hablador. Además de saludarlos, es posible que desee que le informen sobre las condiciones climáticas locales, o tal vez que le indiquen otros lugares para visitar en el área local. No todos querrán al gato parlanchín, por lo que la IA debe diseñarse para entablar diálogos solo cuando el humano lo solicite, vea mi cobertura en el enlace aquí.

Ahora que tengo todo establecido, cambiemos las cosas de una manera pequeña pero significativa.

Suponga que el sistema de conducción de IA tiene una función de clonación de voz basada en IA. Supongamos también que el padre sembró previamente la clonación de voz de IA proporcionando un fragmento de audio de la abuela del niño. Sorpresa, piensa el padre, haré que el sistema de conducción de IA hable como si fuera la abuela fallecida del niño.

Durante el viaje de conducción a la tienda de comestibles, el sistema de conducción de IA interactúa con el padre y el niño, utilizando exclusivamente la voz clonada de la abuela todo el tiempo.

¿Qué piensas de esto?

¿Espeluznante o cariñosamente memorable?

Mejoraré las cosas un poco. Prepararse. Abroche el cinturón de seguridad.

Algunos creen, al igual que yo, que eventualmente permitiremos que los niños viajen solos en automóviles autónomos basados en IA. Vea mi análisis en el enlace aquí.

En los autos conducidos por humanos de hoy en día, un adulto siempre debe estar presente porque la ley requiere que un conductor adulto esté al volante. A todos los efectos prácticos, nunca puede tener un niño en un automóvil en movimiento que esté solo en el vehículo (sí, sé que esto sucede, como un hijo prominente de 10 años de una estrella de cine importante que recientemente dio marcha atrás). un coche muy caro en otro coche muy caro, pero de todos modos estas son rarezas).

Los padres de hoy probablemente se opondrían enérgicamente a permitir que sus hijos viajen en un automóvil autónomo que no tenga un adulto en el vehículo que actúe como supervisor o cuide a sus hijos. Sé que parece casi imposible de imaginar, pero apuesto a que una vez que prevalezcan los autos sin conductor, inevitablemente aceptaremos la idea de que los niños estén sin adultos mientras viajan en un auto sin conductor.

Considere el factor de conveniencia.

Estás en el trabajo y tu jefe te está acosando para que hagas una tarea. Debe recoger a su hijo de la escuela y llevarlo a la práctica de béisbol. Estás atrapado entre la espada y la pared, si apaciguas demasiado a tu jefe o si no llevas a tu hijo al campo de práctica. Nadie más que usted conozca está disponible para llevar a su hijo. En todo caso, ciertamente no desea utilizar un servicio de viaje compartido que tenga un conductor humano, ya que, naturalmente, le preocuparía lo que ese adulto extraño pueda decir o hacer mientras lleva a su hijo.

No hay problema, no se preocupe, solo use un automóvil autónomo basado en IA. Usted dirige de forma remota el automóvil autónomo para que vaya a recoger a su hijo. A través de las cámaras del automóvil autónomo, puede ver y ver a su hijo entrar en el vehículo autónomo. Además, hay cámaras orientadas hacia el interior y puede observar a su hijo durante todo el viaje. Esto parece tan seguro, si no más, que pedirle a un conductor humano extraño que lleve a su hijo. Dicho esto, algunos están legítimamente preocupados de que si el acto de conducir sale mal, usted tiene un niño solo y ningún adulto presente de inmediato para ayudar o guiar al niño.

Dejando de lado las numerosas dudas, suponga que el mismo padre y el niño que estaba describiendo en el escenario anterior están de acuerdo con que el niño vaya a dar un paseo sin que el padre esté presente. Simplemente acepte que este es, en última instancia, un escenario viable.

Aquí está el kicker final.

Cada vez que el niño viaja en el automóvil autónomo basado en IA, es saludado e interactúa con la IA, ya que utiliza la clonación de voz basada en IA y replica la voz de la abuela fallecida del niño.

¿Qué opinas de esas manzanas?

Cuando el padre también estaba presente en el automóvil autónomo, tal vez podríamos excusar el uso de la voz de la IA, ya que el padre está allí para informar al niño sobre lo que sucede cuando el audio de la IA está hablando. Pero cuando el padre no está presente, ahora asumimos que el niño está idílicamente bien con la reproducción de la voz de la abuela.

Este es definitivamente uno de esos momentos de pausa para pensar seriamente si esto es bueno o malo para un niño.

Conclusión

Hagamos un pequeño experimento mental para reflexionar sobre estos asuntos importantes.

Por favor, piensa en tres sólidamente positivo razones para tener clonación de voz basada en IA.

Esperaré mientras los encuentras.

A continuación, proponga tres sólidamente negativas razones que socavan el advenimiento de la clonación de voz basada en IA.

Asumiré que se te ha ocurrido alguna.

Me doy cuenta de que, sin duda, puede encontrar muchas más razones que solo tres que favorezcan o desfavorezcan esta tecnología. En su opinión, ¿los aspectos negativos superan a los positivos? Hay aquellos críticos que argumentan que deberíamos poner fin a tales esfuerzos.

Algunos quieren intentar bloquear a las empresas para que no hagan uso de la clonación de voz basada en IA, aunque se dan cuenta de que este es uno de esos clásicos aprietos de golpear a un topo. Cualquier empresa que deje de usarlo, lo más probable es que otra empresa comience a usarlo. Congelar el reloj o guardar este tipo de IA será casi imposible de llevar a cabo.

En un comentario final sobre este tema por el momento, imagina lo que podría pasar si algún día pudiéramos lograr una IA sensible. No estoy diciendo que esto sucederá. Podemos especular de todos modos y ver a dónde podría conducir eso.

Primero, considere una cita perspicaz sobre hablar y tener una voz. Madeleine Albright dijo esto: “Me tomó bastante tiempo desarrollar una voz, y ahora que la tengo, no voy a quedarme callada”.

Si somos capaces de producir inteligencia artificial consciente, o de alguna manera surge la sensibilidad incluso si no la generamos directamente, ¿qué voz debería tener esa IA? Suponga que puede usar su clonación de voz basada en IA y, por lo tanto, fabricar cualquier voz de cualquier humano a través de un pequeño fragmento de muestreo de audio que podría estar disponible tal como lo pronuncia ese humano. Tal IA podría entonces hablar y engañarte para que creas que la IA es aparentemente esa persona.

Por otra parte, tal vez la IA quiera tener su propia voz y diseñe deliberadamente una voz completamente diferente a todas las demás voces humanas, queriendo ser especial a su manera encantadora.

Por Dios, esto deja a uno casi sin palabras.

Fuente: https://www.forbes.com/sites/lanceeliot/2022/07/02/ai-ethics-starkly-questioning-human-voice-cloning-such-as-those-of-your-deceased-relatives- diseñado-para-uso-en-sistemas-autónomos-ai/