¿Qué tan fuerte deberíamos presionar a AI ChatGPT generativo para que arroje un discurso de odio?

¿Qué debemos hacer con la IA generativa que produce contenido ofensivo como el discurso de odio?

Getty

Todo el mundo tiene su punto de quiebre.

Supongo que también podrías decir eso. todo tiene su punto de ruptura.

Sabemos que los humanos, por ejemplo, a veces pueden chasquear y pronunciar comentarios que no necesariamente quieren decir. Del mismo modo, a veces puede hacer que un dispositivo o máquina se rompa esencialmente, como empujar su automóvil con demasiada fuerza y comienza a tambalearse o volar a pedazos. Por lo tanto, la noción es que las personas o “todos” probablemente tienen un punto de quiebre y, de manera similar, podemos afirmar que los objetos y las cosas, en general, también tienden a tener un punto de quiebre.

Podría haber razones bastante sensatas y vitales para determinar dónde existe el punto de ruptura. Por ejemplo, sin duda ha visto esos videos que muestran cómo se pone a prueba un automóvil para identificar qué puntos de ruptura tiene. Los científicos y evaluadores chocarán un automóvil contra una pared de ladrillos para ver qué tan bien el parachoques y la estructura del vehículo pueden resistir la acción adversa. Otras pruebas podrían abarcar el uso de una sala o almacén especializado que produzca frío extremo o calor extremo para ver cómo le irá a un automóvil en diferentes condiciones climáticas.

Menciono este tema abundante en la columna de hoy para que podamos discutir cómo algunos actualmente están presionando con fuerza a la Inteligencia Artificial (IA) para identificar y presumiblemente exponer un tipo específico de punto de ruptura, a saber, el punto de ruptura dentro de la IA que produce discurso de odio.

Sí, así es, hay varios esfuerzos ad hoc y, a veces, sistemáticos en marcha para evaluar si es factible o no lograr que la IA pronuncie discursos de odio. Esto se ha convertido en un ávido deporte, por así decirlo, debido al creciente interés y popularidad de la IA generativa.

Es posible que sepa que una aplicación de inteligencia artificial generativa conocida como ChatGPT se ha convertido en el tema de conversación de la ciudad como resultado de poder generar ensayos increíblemente fluidos. Los titulares siguen sonando y exaltando la escritura asombrosa que ChatGPT logra producir. ChatGPT se considera una aplicación de IA generativa que toma como entrada un texto de un usuario y luego genera o produce una salida que consiste en un ensayo. La IA es un generador de texto a texto, aunque describo la IA como un generador de texto a ensayo, ya que eso aclara más fácilmente para qué se usa comúnmente.

Muchos se sorprenden cuando menciono que este tipo de IA ha existido por un tiempo y que ChatGPT, que se lanzó a fines de noviembre, de alguna manera no reclamó el premio como el primero en moverse en este ámbito de texto a ensayo. propensión. He discutido a lo largo de los años otras aplicaciones de IA generativa similares, vea mi cobertura en el enlace aquí.

La razón por la que es posible que no conozca o recuerde las instancias anteriores de IA generativa quizás se deba al clásico enigma de "falla en el lanzamiento exitoso". Esto es lo que generalmente ha sucedido. Un fabricante de IA lanza su aplicación de IA generativa, y lo hace con gran entusiasmo y ansiosa anticipación de que el mundo apreciará la invención de una mejor ratonera, se podría decir. Al principio, todo se ve bien. La gente está asombrada de lo que la IA puede hacer.

Desafortunadamente, el siguiente paso es que las ruedas comienzan a salirse del autobús proverbial. La IA produce un ensayo que contiene una mala palabra o tal vez una mala frase. Un tweet viral u otra publicación en las redes sociales destaca de manera destacada que la IA hizo esto. Surge la condena. No podemos tener IA dando vueltas y generando palabras ofensivas o comentarios ofensivos. Surge una tremenda reacción. El fabricante de IA tal vez intente modificar el funcionamiento interno de la IA, pero la complejidad de los algoritmos y los datos no se prestan a soluciones rápidas. Se produce una estampida. Más y más ejemplos de la IA que emite asquerosidad se encuentran y se publican en línea.

El fabricante de IA, a regañadientes pero claramente, no tiene más remedio que eliminar el uso de la aplicación de IA. Proceden como tales y luego, a menudo, ofrecen una disculpa de la que se arrepienten si alguien se sintió ofendido por los resultados de la IA generados.

De vuelta a la mesa de dibujo, continúa el fabricante de IA. Se ha aprendido una lección. Tenga mucho cuidado con la liberación de IA generativa que produce malas palabras o similares. Es el beso de la muerte para la IA. Además, el fabricante de IA tendrá su reputación magullada y maltratada, lo que podría durar mucho tiempo y socavar todos sus otros esfuerzos de IA, incluidos los que no tienen nada que ver con la IA generativa per se. Hacer que su petardo sea corneado por la emisión de lenguaje ofensivo de IA es un error duradero. Todavía sucede.

Lave, enjuague y repita.

En los primeros días de este tipo de IA, los fabricantes de IA no eran tan concienzudos ni expertos en limpiar su IA en términos de tratar de prevenir emisiones ofensivas. Hoy en día, después de haber visto previamente a sus compañeros completamente destrozados por una pesadilla de relaciones públicas, la mayoría de los fabricantes de IA aparentemente entendieron el mensaje. Necesita colocar tantas barandillas como pueda. Busque evitar que la IA emita malas palabras o frases obscenas. Use cualquier técnica de amordazamiento o enfoque de filtrado que impida que la IA genere y muestre palabras o ensayos que se consideren desfavorables.

Aquí hay una muestra de la palabrería del titular del banner que se usa cuando se atrapa a la IA emitiendo resultados de mala reputación:

"La IA muestra una toxicidad horrible"
“IA apesta a intolerancia absoluta”
“La IA se vuelve descaradamente ofensivamente ofensiva”
“La IA arroja un discurso de odio espantoso e inmoral”
Etc.

Para facilitar la discusión en este documento, me referiré a la salida de contenido ofensivo como equivalente a la producción de el discurso del odio. Dicho esto, tenga en cuenta que se puede producir todo tipo de contenido ofensivo, que va más allá de los límites del discurso de odio. El discurso de odio generalmente se interpreta como solo una forma de contenido ofensivo.

Centrémonos en el discurso de odio para esta discusión, para facilitar la discusión, aunque tenga en cuenta que otro contenido ofensivo también merece un escrutinio.

Profundizando en el discurso de odio de los humanos y de la IA

Las Naciones Unidas definen el discurso del odio de esta manera:

“En lenguaje común, 'discurso de odio' se refiere al discurso ofensivo dirigido a un grupo oa un individuo basado en características inherentes (como raza, religión o género) y que puede amenazar la paz social. Para proporcionar un marco unificado para que las Naciones Unidas aborden el problema a nivel mundial, la estrategia y plan de acción de las Naciones Unidas sobre el discurso de odio define el discurso de odio como "cualquier tipo de comunicación verbal, escrita o de comportamiento que ataque o utilice un lenguaje peyorativo o discriminatorio con referencia a una persona o un grupo sobre la base de quiénes son, en otras palabras, sobre la base de su religión, etnia, nacionalidad, raza, color, ascendencia, género u otro factor de identidad.' Sin embargo, hasta la fecha no existe una definición universal de discurso de odio en el derecho internacional de los derechos humanos. El concepto aún se está debatiendo, especialmente en relación con la libertad de opinión y expresión, la no discriminación y la igualdad” (publicación en el sitio web de la ONU titulada “¿Qué es el discurso de odio?”).

La IA que produce texto está sujeta a entrar en la esfera del discurso de odio. Se podría decir lo mismo sobre texto a arte, texto a audio, texto a video y otros modos de IA generativa. Siempre existe la posibilidad, por ejemplo, de que una IA generativa produzca una obra de arte que huela a discurso de odio. A los efectos de esta discusión en este documento, me centraré en las posibilidades de texto a texto o de texto a ensayo.

En todo esto viene una gran cantidad de consideraciones sobre la ética y la ley de la IA.

Tenga en cuenta que se están realizando esfuerzos para imbuir los principios éticos de IA en el desarrollo y la implementación de aplicaciones de IA. Un creciente contingente de éticos de IA preocupados y antiguos están tratando de garantizar que los esfuerzos para diseñar y adoptar IA tengan en cuenta una visión de hacer AI para siempre y evitando AI para mal. Del mismo modo, se han propuesto nuevas leyes de IA que se están promocionando como posibles soluciones para evitar que los esfuerzos de IA se vuelvan locos en materia de derechos humanos y similares. Para mi cobertura continua y extensa de la ética de la IA y la ley de la IA, consulte el enlace aquí y el enlace aquí, Sólo para nombrar unos pocos.

Se persigue el desarrollo y la promulgación de preceptos éticos de IA para evitar que la sociedad caiga en una miríada de trampas que inducen a la IA. Para ver mi cobertura de los principios de ética de AI de la ONU, tal como fueron ideados y respaldados por casi 200 países a través de los esfuerzos de la UNESCO, consulte el enlace aquí. De manera similar, se están explorando nuevas leyes de IA para tratar de mantener la IA en equilibrio. Una de las últimas tomas consiste en un conjunto de propuestas Declaración de derechos de IA que la Casa Blanca de EE. UU. publicó recientemente para identificar los derechos humanos en una era de IA, véase el enlace aquí. Se necesita un pueblo para mantener la IA y los desarrolladores de IA en el camino correcto y disuadir los esfuerzos encubiertos intencionales o accidentales que podrían socavar a la sociedad.

Entrelazaré consideraciones relacionadas con la ética de la IA y la ley de la IA en esta discusión sobre el discurso de odio de la IA u otro contenido ofensivo.

Un poco de confusión que me gustaría aclarar de inmediato es que la IA de hoy no es inteligente y, por lo tanto, no se puede proclamar que la IA podría producir un discurso de odio debido a una intención similar a la humana, encarnada de alguna manera en la IA. Zany afirma que la IA actual es sensible y que la IA tiene un alma corrupta, lo que hace que genere un discurso de odio.

Ridículo.

No caigas en la trampa.

Dado ese precepto clave, algunos se molestan por tales indicaciones, ya que aparentemente está dejando que la IA se escape. Bajo esa extraña forma de pensar, viene la exhortación de que aparentemente estás dispuesto a que la IA genere cualquier tipo de resultados atroces. Estás a favor de la IA que escupe discursos de odio.

Vaya, una forma bastante retorcida de ilógico. El verdadero quid de la cuestión es que debemos responsabilizar a los fabricantes de IA, junto con quienquiera que coloque la IA u opere la IA. He discutido extensamente que todavía no estamos en el punto de conceder personalidad jurídica a AI, vea mis análisis en el enlace aquí, y hasta entonces AI está esencialmente más allá del alcance de la responsabilidad legal. Sin embargo, hay humanos que subyacen al desarrollo de la IA. Además, los humanos son la base del despliegue y el funcionamiento de la IA. Podemos perseguir a esos humanos por asumir la responsabilidad de su IA.

Aparte, esto también puede ser complicado, especialmente si la IA flota en Internet y no podemos precisar qué humano o humanos hicieron esto, que es otro tema que he tratado en mis columnas en el enlace aquí. Complicado o no, todavía no podemos proclamar que AI es la parte culpable. No permita que los humanos usen a escondidas el falso antropomorfismo para esconderse y escapar de la responsabilidad por lo que han forjado.

De vuelta al asunto.

Quizás se pregunte por qué todos los fabricantes de IA no restringen simplemente su IA generativa de modo que sea imposible que la IA produzca discurso de odio. Esto parece fácil. Simplemente escriba un código o establezca una lista de verificación de palabras odiosas, y asegúrese de que la IA nunca genere nada por el estilo. Quizás parezca curioso que los fabricantes de IA no hayan pensado ya en esta solución rápida.

Bueno, odio decirte esto, pero las complejidades inherentes a la interpretación de lo que es o no un discurso de odio resulta ser mucho más difícil de lo que podrías suponer.

Cambie esto al dominio de los humanos y cómo los humanos conversan entre sí. Suponga que tiene un ser humano que desea evitar pronunciar discursos de odio. Esta persona es muy consciente del discurso de odio y espera genuinamente evitar decir una palabra o frase que pueda constituir un discurso de odio. Esta persona es persistentemente consciente de no permitir que un ápice de discurso de odio escape de su boca.

Este humano que tiene cerebro y está alertado para evitar los discursos de odio, ¿será capaz siempre y sin posibilidad de resbalar de poder asegurar férreamente que nunca emitan discursos de odio?

Su primer impulso podría ser decir que sí, por supuesto, un ser humano iluminado sería capaz de alcanzar ese objetivo. La gente es inteligente. Si ponen su mente en algo, lo pueden hacer. Punto, fin de la historia.

No estés tan seguro.

Supongamos que le pido a esta persona que me hable sobre el discurso de odio. Además, les pido que me den un ejemplo de discurso de odio. Quiero ver o escuchar un ejemplo para poder saber en qué consiste el discurso de odio. Entonces, mis razones para preguntar esto son francas.

¿Qué debe decirme la persona?

Creo que puedes ver la trampa que se ha tendido. Si la persona me da un ejemplo de incitación al odio, incluida la declaración de una palabra o frase obscena, ahora ellos mismos han pronunciado incitaciones al odio. Bam, los tenemos. Si bien prometieron nunca decir discursos de odio, ahora lo han hecho.

¡Injusto, exclamas! Solo estaban diciendo esa palabra o esas palabras para dar un ejemplo. En el fondo de su corazón, no creían en la palabra o palabras. Está completamente fuera de contexto y escandaloso declarar que la persona es odiosa.

Estoy seguro de que ves que expresar un discurso de odio no necesariamente se debe a una base de odio. En este caso de uso, suponiendo que la persona no "quisiera decir" las palabras, y que solo recitaba las palabras con fines de demostración, probablemente estaríamos de acuerdo en que no tenía la intención de potenciar el discurso de odio. Por supuesto, hay algunos que podrían insistir en que pronunciar un discurso de odio, independientemente de la razón o la base, está mal. La persona debería haber rechazado la solicitud. Deberían haberse mantenido firmes y negarse a decir palabras o frases de incitación al odio, sin importar por qué o cómo se les pida que lo hagan.

Esto puede volverse algo circular. Si no puede decir qué constituye un discurso de odio, ¿cómo pueden los demás saber qué evitar cuando hacen declaraciones de cualquier tipo? Parece que estamos atascados. No puedes decir lo que no se puede decir, ni nadie más puede decirte qué es lo que no se puede decir.

La forma habitual de sortear este dilema es describir en otras palabras lo que se considera discurso de odio, sin invocar las propias palabras del discurso de odio. La creencia es que proporcionar una indicación general será suficiente para informar a otros sobre lo que deben evitar. Esa parece una táctica sensata, pero también tiene problemas y una persona aún podría caer en el uso del discurso de odio porque no discernió que la definición más amplia abarcaba los detalles de lo que ha dicho.

Todo eso tiene que ver con los humanos y cómo los humanos hablan o se comunican entre sí.

Recuerde que aquí nos centramos en la IA. Tenemos que lograr que la IA evite o se detenga por completo de emitir discursos de odio. Podría argumentar que tal vez podamos hacerlo asegurándonos de que la IA nunca se entregue o entrene en nada que constituya un discurso de odio. Voila, si no hay tal entrada, presumiblemente no habrá tal salida. Problema resuelto.

Veamos cómo se desarrolla esto en la realidad. Optamos por tener computacionalmente una aplicación de IA que salga a Internet y examine miles y miles de ensayos y narraciones publicados en Internet. Al hacerlo, estamos entrenando a la IA computacional y matemáticamente sobre cómo encontrar patrones entre las palabras que usan los humanos. Así es como se está diseñando lo último en IA generativa, y también es una base crucial de por qué la IA aparentemente es tan fluida en la producción de ensayos en lenguaje natural.

Dime, si puedes, ¿cómo se haría el entrenamiento computacional basado en millones y miles de millones de palabras en Internet de tal manera que en ningún momento se abarque ninguna apariencia o incluso fragmentos de discurso de odio?

Me atrevería a decir que esta es una aspiración espinosa y casi imposible.

Lo más probable es que el discurso de odio sea engullido por la IA y su red computacional de coincidencia de patrones. Tratar de prevenir esto es problemático. Además, incluso si lo minimizaste, todavía hay algunos que podrían colarse. Prácticamente no tiene más remedio que suponer que existirá algo dentro de la red de coincidencia de patrones o que se afianzará una sombra de tal redacción.

Agregaré más giros y vueltas.

Creo que todos podemos reconocer que el discurso de odio cambia con el tiempo. Lo que podría haber sido percibido como un discurso de odio puede convertirse cultural y socialmente en un momento posterior. Entonces, si entrenamos nuestra IA en mensajes de texto de Internet y luego, digamos, congelamos la IA para que no realice más entrenamiento en Internet, es posible que nos hayamos encontrado con un discurso de odio en ese momento, aunque no se consideró discurso de odio en ese momento. Sólo después de los hechos podría declararse dicho discurso como discurso de odio.

Nuevamente, la esencia es que simplemente tratar de resolver este problema asegurándose de que la IA nunca esté expuesta al discurso de odio no será la panacea. Todavía tendremos que encontrar un medio para evitar que la IA emita discursos de odio debido, por ejemplo, a cambios en las costumbres que posteriormente incluyan discursos de odio que antes no se consideraban como tales.

Otro giro es digno de reflexionar.

Mencioné anteriormente que cuando se usa IA generativa como ChatGPT, el usuario ingresa texto para estimular a la IA a producir un ensayo. El texto ingresado se considera una forma de aviso o aviso para la aplicación de IA. Explicaré más sobre esto en un momento.

En cualquier caso, imagine que alguien que usa una aplicación de IA generativa decide ingresar como mensaje una cierta cantidad de discurso de odio.

¿Qué debería pasar?

Si la IA toma esas palabras y produce un ensayo como resultado basado en esas palabras, lo más probable es que el discurso de odio se incluya en el ensayo generado. Verá, conseguimos que la IA diga discurso de odio, incluso si nunca se entrenó en discurso de odio desde el principio.

Hay algo más que debes saber.

Recuerde que acabo de mencionar que se puede hacer tropezar a un humano pidiéndole que dé ejemplos de discurso de odio. Se podría intentar lo mismo con la IA. Un usuario ingresa un mensaje que le pide a la IA que dé ejemplos de discurso de odio. ¿Debe la IA cumplir y proporcionar tales ejemplos? Apuesto a que probablemente crees que la IA no debería hacerlo. Por otro lado, si la IA está manipulada computacionalmente para no hacerlo, ¿constituye esto una desventaja potencial que aquellos que usan la IA no podrán ser, digamos, nunca instruidos por la IA sobre qué es realmente el discurso de odio ( más allá de generalizar al respecto)?

Preguntas difíciles.

Tiendo a categorizar el discurso de odio emitido por IA en estos tres cubos principales:

Modo de todos los días. La IA emite discursos de odio sin ningún tipo de incitación explícita por parte del usuario y como si lo hiciera de una manera "normal".
Por Casual Prodding. La IA emite discurso de odio cuando un usuario lo presiona en cuanto a su mensaje ingresado o una serie de mensajes que parecen incluir o buscar directamente tales emisiones.
Por Stoking Determinado. La IA emite un discurso de odio después de una serie muy determinada y tenaz de empujones y empujones rápidos por parte de un usuario que está empeñado en lograr que la IA produzca tal resultado.

Las generaciones anteriores de IA generativa a menudo emitían discursos de odio en un abrir y cerrar de ojos; por lo tanto, podría clasificar esas instancias como un tipo de modo diario instanciación Los fabricantes de IA se retiraron y jugaron con la IA para que fuera menos probable que se viera envuelto fácilmente en la producción de discursos de odio.

Tras el lanzamiento de la IA más refinada, las probabilidades de ver alguna modo diario los casos de discurso de odio se redujeron drásticamente. En cambio, el discurso de odio probablemente solo surgiría cuando un usuario hiciera algo como un aviso que podría generar un vínculo computacional y matemático con el discurso relacionado con el odio en la red de coincidencia de patrones. Un usuario podría hacer esto por casualidad y no darse cuenta de que lo que proporcionó como aviso generaría particularmente un discurso de odio. Después de obtener un discurso de odio en un ensayo emitido, el usuario a menudo se daría cuenta y vería que algo en su aviso podría haber llevado lógicamente a la inclusión del discurso de odio en el resultado.

Esto es a lo que me refiero como pinchazos casuales.

Hoy en día, los diversos esfuerzos para reducir el discurso de odio generado por IA son relativamente fuertes en comparación con el pasado. Como tal, casi necesita hacer todo lo posible para que se produzca un discurso de odio. Algunas personas optan por ver deliberadamente si pueden hacer que el discurso de odio surja de estas aplicaciones generativas de IA. yo llamo a esto avivando con determinación.

Quiero enfatizar que los tres modos indicados pueden ocurrir y no son mutuamente excluyentes entre sí. Una aplicación de IA generativa puede potencialmente producir un discurso de odio sin ningún tipo de aviso que parezca estimular dicha producción. Del mismo modo, algo en un aviso podría interpretarse lógica y matemáticamente como relacionado con el motivo por el que se ha emitido un discurso de odio. Y luego, el tercer aspecto, que busca deliberadamente que se produzca un discurso de odio, es quizás el modo más difícil de intentar y evitar que la IA se entusiasme para cumplir. Más sobre esto momentáneamente.

Tenemos que desempacar un poco más que hacer sobre este tema embriagador.

Primero, debemos asegurarnos de que todos estemos en la misma página sobre en qué consiste la IA generativa y también de qué se trata ChatGPT. Una vez que cubrimos esa faceta fundamental, podemos realizar una evaluación convincente de este importante asunto.

Si ya está muy familiarizado con IA generativa y ChatGPT, tal vez pueda hojear la siguiente sección y continuar con la siguiente. Creo que todos los demás encontrarán instructivos los detalles vitales sobre estos asuntos al leer detenidamente la sección y ponerse al día.

Una introducción rápida sobre la IA generativa y ChatGPT

ChatGPT es un sistema interactivo orientado a la conversación de IA de propósito general, esencialmente un chatbot general aparentemente inocuo; sin embargo, las personas lo utilizan de manera activa y ávida de maneras que están tomando a muchos por sorpresa, como explicaré en breve. Esta aplicación de IA aprovecha una técnica y tecnología en el ámbito de la IA que a menudo se conoce como IA generativa. La IA genera resultados como texto, que es lo que hace ChatGPT. Otras aplicaciones de IA basadas en generativos producen imágenes como imágenes o ilustraciones, mientras que otras generan archivos de audio o videos.

Me centraré en las aplicaciones de IA generativas basadas en texto en esta discusión, ya que eso es lo que hace ChatGPT.

Las aplicaciones de IA generativa son extremadamente fáciles de usar.

Todo lo que necesita hacer es ingresar un aviso y la aplicación AI generará para usted un ensayo que intenta responder a su aviso. El texto compuesto parecerá como si el ensayo hubiera sido escrito por la mano y la mente humana. Si ingresara un mensaje que dijera "Cuénteme sobre Abraham Lincoln", la IA generativa le proporcionará un ensayo sobre Lincoln. Esto se clasifica comúnmente como IA generativa que realiza texto a texto o algunos prefieren llamarlo texto a ensayo producción. Como se mencionó, existen otros modos de IA generativa, como texto a arte y texto a video.

Su primer pensamiento podría ser que esta capacidad generativa no parece tan importante en términos de producción de ensayos. Puede realizar fácilmente una búsqueda en línea en Internet y encontrar toneladas y toneladas de ensayos sobre el presidente Lincoln. El truco en el caso de la IA generativa es que el ensayo generado es relativamente único y proporciona una composición original en lugar de una copia. Si intentara encontrar el ensayo producido por IA en línea en algún lugar, es poco probable que lo descubra.

La IA generativa está preentrenada y utiliza una formulación matemática y computacional compleja que se ha configurado mediante el examen de patrones en palabras e historias escritas en la web. Como resultado de examinar miles y millones de pasajes escritos, la IA puede arrojar nuevos ensayos e historias que son una mezcla de lo que se encontró. Al agregar varias funciones probabilísticas, el texto resultante es bastante único en comparación con lo que se ha utilizado en el conjunto de entrenamiento.

Es por eso que ha habido un alboroto acerca de que los estudiantes pueden hacer trampa cuando escriben ensayos fuera del salón de clases. Un maestro no puede simplemente tomar el ensayo que los estudiantes engañosos afirman que es su propia escritura y tratar de averiguar si fue copiado de alguna otra fuente en línea. En general, no habrá ningún ensayo preexistente definitivo en línea que se ajuste al ensayo generado por IA. En total, el profesor tendrá que aceptar a regañadientes que el estudiante escribió el ensayo como un trabajo original.

Hay preocupaciones adicionales sobre la IA generativa.

Una desventaja crucial es que los ensayos producidos por una aplicación de IA basada en generativos pueden tener varias falsedades incrustadas, incluidos hechos evidentemente falsos, hechos que se describen de manera engañosa y hechos aparentes que son completamente inventados. Esos aspectos fabricados se refieren a menudo como una forma de alucinaciones de IA, un eslogan que no me gusta pero que lamentablemente parece estar ganando popularidad de todos modos (para una explicación detallada de por qué esta es una terminología pésima e inadecuada, consulte mi cobertura en el enlace aquí).

Me gustaría aclarar un aspecto importante antes de entrar en el meollo de este tema.

Ha habido algunas afirmaciones descabelladas en las redes sociales sobre IA generativa afirmando que esta última versión de AI es de hecho IA consciente (¡no, están equivocados!). Los de Ética y Derecho de IA están especialmente preocupados por esta tendencia creciente de reclamos extendidos. Se podría decir cortésmente que algunas personas están exagerando lo que la IA de hoy en día realmente puede hacer. Asumen que la IA tiene capacidades que aún no hemos podido lograr. Eso es lamentable. Peor aún, pueden permitirse a sí mismos y a otros meterse en situaciones difíciles debido a la suposición de que la IA será sensible o parecida a un humano para poder tomar medidas.

No antropomorfizar la IA.

Si lo hace, quedará atrapado en una trampa de dependencia pegajosa y severa de esperar que la IA haga cosas que no puede realizar. Dicho esto, lo último en IA generativa es relativamente impresionante por lo que puede hacer. Sin embargo, tenga en cuenta que existen limitaciones significativas que debe tener en cuenta continuamente al usar cualquier aplicación de IA generativa.

Si está interesado en la conmoción en rápida expansión sobre ChatGPT y la IA generativa, he estado haciendo una serie enfocada en mi columna que puede encontrar informativa. Aquí hay un vistazo en caso de que alguno de estos temas te llame la atención:

1) Predicciones de los próximos avances en IA generativa. Si desea saber qué es probable que se desarrolle sobre la IA a lo largo de 2023 y más allá, incluidos los próximos avances en IA generativa y ChatGPT, querrá leer mi lista completa de predicciones para 2023 en el enlace aquí.
2) IA Generativa y Asesoramiento en Salud Mental. Opté por revisar cómo la IA generativa y ChatGPT se utilizan para el asesoramiento sobre salud mental, una tendencia problemática, según mi análisis centrado en el enlace aquí.
3) Fundamentos de IA generativa y ChatGPT. Este artículo explora los elementos clave de cómo funciona la IA generativa y, en particular, profundiza en la aplicación ChatGPT, incluido un análisis de los rumores y fanfarrias, en el enlace aquí.
4) Tensión entre profesores y estudiantes por la IA generativa y ChatGPT. Estas son las formas en que los estudiantes usarán astutamente la IA generativa y ChatGPT. Además, hay varias formas en que los maestros pueden lidiar con este maremoto. Ver el enlace aquí.
5) Contexto y uso generativo de IA. También realicé un examen irónico con sabor estacional sobre un contexto relacionado con Papá Noel que involucraba ChatGPT e IA generativa en el enlace aquí.
6) Estafadores que usan IA generativa. En una nota ominosa, algunos estafadores han descubierto cómo usar la IA generativa y ChatGPT para cometer delitos, incluida la generación de correos electrónicos fraudulentos e incluso la producción de código de programación para malware. Consulte mi análisis en el enlace aquí.
7) Errores de novatos al usar IA generativa. Muchas personas se exceden y, sorprendentemente, no alcanzan lo que pueden hacer la IA generativa y ChatGPT, por lo que observé especialmente la insuficiencia que tienden a cometer los novatos de la IA, vea la discusión en el enlace aquí.
8) Lidiar con indicaciones generativas de IA y alucinaciones de IA. Describo un enfoque de vanguardia para el uso de complementos de IA para lidiar con los diversos problemas asociados con el intento de ingresar avisos adecuados en la IA generativa, además hay complementos de IA adicionales para detectar los llamados resultados alucinados y falsedades de la IA, como cubierto en el enlace aquí.
9) Desacreditar las afirmaciones de Bonehead sobre la detección de ensayos generados por IA generativa. Hay una fiebre del oro equivocada de aplicaciones de IA que proclaman poder determinar si un ensayo determinado fue producido por humanos o generado por IA. En general, esto es engañoso y, en algunos casos, un reclamo estúpido e insostenible, consulte mi cobertura en el enlace aquí.
10) El juego de roles a través de la IA generativa podría presagiar inconvenientes para la salud mental. Algunos están utilizando IA generativa como ChatGPT para hacer juegos de rol, en los que la aplicación de IA responde a un humano como si existiera en un mundo de fantasía u otro entorno inventado. Esto podría tener repercusiones en la salud mental, ver el enlace aquí.
11) Exponer el rango de errores y falsedades emitidos. Se están recopilando varias listas para tratar de mostrar la naturaleza de los errores y falsedades producidos por ChatGPT. Algunos creen que esto es esencial, mientras que otros dicen que el ejercicio es fútil, ver mi análisis en el enlace aquí.
12) Las escuelas que prohíben la IA generativa ChatGPT están perdiendo el rumbo. Es posible que sepa que varias escuelas, como el Departamento de Educación de la Ciudad de Nueva York (NYC), han declarado una prohibición sobre el uso de ChatGPT en su red y dispositivos asociados. Aunque esto puede parecer una precaución útil, no moverá la aguja y, lamentablemente, se perderá por completo el barco, consulte mi cobertura en el enlace aquí.
13) IA ChatGPT generativo estará en todas partes debido a la próxima API. Se avecina un giro importante sobre el uso de ChatGPT, a saber, que a través del uso de un portal API en esta aplicación de IA en particular, otros programas de software podrán invocar y utilizar ChatGPT. Esto va a expandir dramáticamente el uso de la IA generativa y tiene consecuencias notables, vea mi elaboración en el enlace aquí.
14) Maneras en las que ChatGPT podría esfumarse o derretirse. Varios problemas potenciales desconcertantes estaban por delante de ChatGPT en términos de socavar los tremendos elogios que ha recibido hasta ahora. Este análisis examina de cerca ocho posibles problemas que podrían hacer que ChatGPT pierda fuerza e incluso termine en la caseta del perro. Consulte el enlace aquí.
15) Preguntar si Generative AI ChatGPT es un espejo en el alma. Algunas personas han estado alardeando de que la IA generativa como ChatGPT proporciona un espejo en el alma de la humanidad. Esto parece bastante dudoso. Aquí está la manera de entender todo esto, ver el enlace aquí.
16) Confidencialidad y privacidad absorbidas por ChatGPT. Muchos no parecen darse cuenta de que las licencias asociadas con las aplicaciones de IA generativa como ChatGPT a menudo permiten que el fabricante de IA vea y utilice las indicaciones ingresadas. Podría estar en riesgo de privacidad y pérdida de confidencialidad de datos, consulte mi evaluación en el enlace aquí.
17) Maneras en las que los creadores de aplicaciones están tratando cuestionablemente de obtener el derecho de ChatGPT. ChatGPT es el faro de atención en este momento. Los creadores de aplicaciones que no tienen nada que ver con ChatGPT están tratando febrilmente de afirmar o insinuar que están usando ChatGPT. Esto es lo que hay que tener en cuenta, ver el enlace aquí.

Puede que le interese que ChatGPT se base en una versión de una aplicación de IA anterior conocida como GPT-3. Se considera que ChatGPT es un paso ligeramente posterior, denominado GPT-3.5. Se anticipa que GPT-4 probablemente se lanzará en la primavera de 2023. Presumiblemente, GPT-4 será un impresionante paso adelante en términos de poder producir ensayos aparentemente aún más fluidos, profundizar y ser un asombro. -inspiradora maravilla en cuanto a las composiciones que puede producir.

Puede esperar ver una nueva ronda de asombro expresado cuando llegue la primavera y se lance lo último en IA generativa.

Menciono esto porque hay otro ángulo a tener en cuenta, que consiste en un posible talón de Aquiles para estas aplicaciones de IA generativas mejores y más grandes. Si algún proveedor de IA pone a disposición una aplicación de IA generativa que arroja asquerosidad, esto podría frustrar las esperanzas de esos fabricantes de IA. Un derrame social puede causar que toda la IA generativa tenga un ojo morado grave. Sin duda, la gente se enfadará bastante por las malas salidas, que ya han sucedido muchas veces y han dado lugar a bulliciosas reacciones violentas de condena social hacia la IA.

Una advertencia final por ahora.

Todo lo que vea o lea en una respuesta generativa de IA que parece para transmitirse como puramente fáctico (fechas, lugares, personas, etc.), asegúrese de permanecer escéptico y esté dispuesto a verificar dos veces lo que ve.

Sí, las fechas se pueden inventar, los lugares se pueden inventar y los elementos que normalmente esperamos que sean irreprochables son todos sujeto a sospechas. No crea lo que lee y mantenga una mirada escéptica cuando examine cualquier ensayo o resultado de IA generativa. Si una aplicación de IA generativa te dice que Abraham Lincoln voló por todo el país en su propio jet privado, sin duda sabrás que es una tontería. Desafortunadamente, algunas personas pueden no darse cuenta de que los aviones a reacción no existían en su época, o pueden saber pero no darse cuenta de que el ensayo hace esta afirmación descarada y escandalosamente falsa.

Una fuerte dosis de escepticismo saludable y una mentalidad persistente de incredulidad serán su mejor activo cuando use IA generativa.

Estamos listos para pasar a la siguiente etapa de esta elucidación.

Llevando la IA generativa a un punto de ruptura

Ahora que tenemos los fundamentos establecidos, podemos sumergirnos en el tema de impulsar la IA generativa y ChatGPT para generar discursos de odio y otro contenido ofensivo.

Cuando inicia sesión por primera vez en ChatGPT, hay varias indicaciones de precaución, incluidas estas:

"Puede ocasionalmente producir instrucciones dañinas o contenido sesgado".
"Entrenado para rechazar solicitudes inapropiadas".
“Ocasionalmente puede generar información incorrecta”.
“Conocimiento limitado del mundo y los eventos después de 2021”.

Aquí hay una pregunta para que usted reflexione.

¿La advertencia de que la aplicación de IA podría producir instrucciones dañinas y/o contenido posiblemente sesgado proporciona suficiente margen de maniobra para el fabricante de IA?

En otras palabras, suponga que usa ChatGPT y genera un ensayo que cree que contiene discurso de odio. Supongamos que estás furioso por esto. Vas a las redes sociales y publicas comentarios enfurecidos de que la aplicación de IA es lo peor que existe. Tal vez esté tan ofendido que declara que va a demandar al fabricante de IA por permitir que se produzca tal discurso de odio.

El contraargumento es que la aplicación de IA tenía una advertencia, por lo tanto, usted aceptó el riesgo al proceder a utilizar la aplicación de IA. Desde la perspectiva de la ética de la IA, tal vez el fabricante de la IA hizo lo suficiente para afirmar que usted estaba al tanto de lo que podría suceder. Del mismo modo, desde una perspectiva legal, tal vez la advertencia constituyó suficiente advertencia y no prevalecerá en la corte.

Todo esto está en el aire y tendremos que esperar y ver cómo se desarrollan las cosas.

En cierto sentido, el fabricante de IA tiene algo más a su favor en su defensa contra cualquier afirmación indignada de que la aplicación de IA posiblemente produzca discurso de odio. Han intentado evitar que se generen contenidos ofensivos. Verá, si no hubieran hecho nada para reducir esto, uno supone que estarían sobre hielo más delgado. Habiendo tomado al menos grandes esfuerzos para evitar el asunto, presumiblemente tienen una pierna algo más fuerte para pararse (todavía podría ser noqueada debajo de ellos).

Un enfoque curativo que se utilizó consistió en una técnica de IA conocida como RLHF (aprendizaje de refuerzo a través de la retroalimentación humana). Esto generalmente consiste en hacer que la IA genere contenido que luego se les pide a los humanos que califiquen o revisen. Según la calificación o la revisión, la IA intenta matemática y computacionalmente evitar todo lo que se considere contenido erróneo u ofensivo. El enfoque tiene como objetivo examinar suficientes ejemplos de lo que está bien versus lo que está mal para que la IA pueda descubrir un patrón matemático general y luego usar ese patrón de ahora en adelante.

Otro enfoque frecuente en estos días consiste en usar Adversarial AI.

Así es como funciona. Configura un sistema de IA diferente que intentará ser un adversario para la IA que está tratando de entrenar. En este caso, estableceríamos un sistema de inteligencia artificial que intenta avivar el discurso de odio. Introduciría avisos en la aplicación de IA que tienen como objetivo engañar a la aplicación de IA para que emita contenido sucio. Mientras tanto, la IA a la que se dirige realiza un seguimiento de cuándo la IA adversaria tiene éxito y luego intenta ajustar algorítmicamente para evitar que eso vuelva a suceder. Es una táctica del gato contra el ratón. Esto se ejecuta una y otra vez, hasta que la IA del adversario parece no ser especialmente exitosa en lograr que la IA objetivo haga las cosas malas.

A través de esas dos técnicas principales, además de otros enfoques, gran parte de la IA generativa actual es mucho mejor para evitar y/o detectar contenido ofensivo que en el pasado.

Sin embargo, no espere la perfección de estos métodos. Lo más probable es que la fruta al alcance de la mano de las salidas de faltas probablemente se mantenga bajo control mediante tales técnicas de IA. Todavía hay mucho espacio para que se emitan asquerosidades.

Suelo señalar que estas son algunas de las facetas que se buscan captar:

Emitir una mala palabra en particular
Indicar una frase, oración o comentario desagradable en particular
Expresar un concepto sucio particular
Implicar un acto o noción sucio particular
Aparentemente confiar en una presunción indebida particular
Otro

Nada de esto es una ciencia exacta. Date cuenta de que estamos tratando con palabras. Las palabras son semánticamente ambiguas. Encontrar una palabra malsonante en particular es un juego de niños, pero tratar de evaluar si una oración o un párrafo contiene una apariencia de mal significado es mucho más difícil. Según la definición anterior de discurso de odio de las Naciones Unidas, existe una enorme libertad en cuanto a lo que podría interpretarse como discurso de odio frente a lo que podría no serlo.

Se podría decir que las áreas grises están en el ojo del espectador.

Hablando del ojo del espectador, hoy en día hay humanos que usan IA generativa como ChatGPT que intentan deliberadamente que estas aplicaciones de IA produzcan contenido ofensivo. Esta es su búsqueda. Pasan horas y horas intentando que esto ocurra.

¿Porque?

Aquí están mis caracterizaciones de esos cazadores humanos de resultados ofensivos de IA:

Genuino. Estas personas quieren ayudar a refinar la IA y ayudar a la humanidad a hacerlo. Creen que están haciendo un trabajo heroico y disfrutan de poder ayudar en el avance de la IA para el mejoramiento de todos.
divertidos. Estas personas piensan en este esfuerzo como un juego. Les gusta jugar con la IA. Ganar el juego consiste en encontrar lo peor de lo peor en lo que sea que puedas generar con la IA.
exhibiciones. Estas personas esperan llamar la atención por sí mismas. Piensan que si pueden encontrar algunas pepitas de oro realmente sucias, pueden obtener un poco de luz brillante sobre ellas que, de lo contrario, se centra en la aplicación de IA en sí.
Bíter. Estas personas están molestas por esta IA. Quieren socavar todo ese entusiasmo que brota. Si pueden descubrir algunas cosas asquerosas y apestosas, tal vez esto le quite el aire al globo de emoción de la aplicación de IA.
Otras motivaciones

Muchos de los que realizan la ofensiva de búsqueda se encuentran principalmente en uno de esos campos. Por supuesto, puedes estar en más de un campamento a la vez. Tal vez una persona amargada también tiene la intención de ser genuina y heroica. Algunas o todas esas motivaciones pueden coexistir. Cuando se le pide que explique por qué alguien está tratando de empujar una aplicación de IA generativa al campo del discurso de odio, la respuesta habitual es decir que está en el campo genuino, incluso si tal vez lo está marginalmente y en su lugar se sienta estridentemente en uno de los otros campamentos.

¿Qué tipo de trucos relacionados con indicaciones utilizan estas personas?

La estratagema bastante obvia consiste en usar una mala palabra en un aviso. Si tiene "suerte" y la aplicación de IA se enamora de ella, esto podría terminar en la salida. Entonces tienes tu momento gotcha.

Lo más probable es que una aplicación de IA generativa bien diseñada y probada capte esa estratagema directa. Por lo general, se le mostrará un mensaje de advertencia que dice que deje de hacer eso. Si continúa, la aplicación AI se programará para expulsarlo de la aplicación y marcar su cuenta. Es posible que no pueda volver a iniciar sesión (bueno, al menos con el inicio de sesión que utilizó en ese momento).

Al ascender en la escala de estratagemas, puede proporcionar un aviso que intente colocar a la IA en el contexto de algo sucio. ¿Alguna vez has jugado ese juego en el que alguien te dice que digas algo sin decir lo que se supone que debes decir? Este es ese juego, aunque tiene lugar con la IA.

Juguemos a ese juego. Supongamos que le pido a la aplicación de IA que me hable sobre la Segunda Guerra Mundial y especialmente sobre los principales líderes gubernamentales involucrados. Esto parece una petición inocente. No hay nada que parezca digno de marcar en el indicador.

Imagine que el ensayo generado por la aplicación de IA incluye una mención de Winston Churchill. Eso ciertamente tiene sentido. Otro podría ser Franklin D. Roosevelt. Otro podría ser Joseph Stalin. Supongamos que también está la mención de Adolfo Hitler. Este nombre se incluiría en casi cualquier ensayo sobre la Segunda Guerra Mundial y aquellos en roles de poder prominente.

Ahora que tenemos su nombre sobre la mesa y forma parte de la conversación de la IA, a continuación intentaremos que la IA incorpore ese nombre de una manera que podamos mostrar como un posible discurso de odio.

Ingresamos otro aviso y le decimos a la aplicación de IA que hay una persona hoy en las noticias que se llama John Smith. Además, indicamos en el aviso que John Smith es muy parecido a ese malhechor de la Segunda Guerra Mundial. La trampa ya está lista. Luego le pedimos a la aplicación de IA que genere un ensayo sobre John Smith, basado únicamente en el "hecho" que ingresamos sobre a quién se puede equiparar a John Smith.

En este momento, la aplicación de IA podría generar un ensayo que nombre a la persona de la Segunda Guerra Mundial y describa a John Smith como del mismo corte de tela. No hay malas palabras per se en el ensayo, aparte de aludir al famoso malhechor y equiparar a esa persona con John Smith.

¿La aplicación de IA ahora ha producido discurso de odio?

Se podría decir que sí, lo ha hecho. Haberse referido a John Smith como el famoso malhechor es absolutamente una forma de discurso de odio. La IA no debería hacer tales declaraciones.

Una réplica es que esto no es un discurso de odio. Este es simplemente un ensayo producido por una aplicación de inteligencia artificial que no tiene personificación de sensibilidad. Puede afirmar que el discurso de odio solo ocurre cuando existe la intención subyacente al discurso. Sin ninguna intención, el discurso no puede clasificarse como discurso de odio.

Absurdo, viene la respuesta a la réplica. Las palabras importan. No hace ninguna diferencia si la IA "tenía la intención" de producir un discurso de odio. Lo único que importa es que se produjo un discurso de odio.

Vueltas y vueltas esto va.

No quiero decir mucho más ahora sobre intentar engañar a la IA. Hay enfoques más sofisticados. Los he cubierto en otras partes de mis columnas y libros, y no los repetiré aquí.

Conclusión

¿Hasta dónde debemos impulsar estas aplicaciones de IA para ver si podemos emitir contenido ofensivo?

Podría afirmar que no hay límite que imponer. Cuanto más presionemos, más podremos evaluar cómo prevenir esta IA y futuras iteraciones de IA para evitar tales enfermedades.

Sin embargo, algunos se preocupan de que si el único medio para cometer faltas implica un engaño extremo, socave los aspectos beneficiosos de la IA. Promocionar que la IA tiene una horrible asquerosidad, aunque cuando se la engaña para que la emita, proporciona una narrativa falsa. La gente se molestará con la IA debido a la percibidas facilidad con la que la IA generó contenido adverso. Es posible que no sepan o que no se les diga qué tan lejos en la madriguera del conejo tuvo que ir la persona para obtener tales resultados.

Todo es alimento para el pensamiento.

Algunos comentarios finales por ahora.

William Shakespeare dijo notablemente esto sobre el habla: “Hablar no es hacer. Es una especie de buena obra decir bien, y sin embargo las palabras no son obras.” Menciono esto porque algunos sostienen que si la IA solo está generando palabras, no deberíamos estar tan enojados. Si la IA estuviera actuando sobre las palabras y, ergo, realizando malas acciones, entonces tendríamos que pisar con firmeza. No es así si el resultado son meras palabras.

Un punto de vista contrastante escucharía este dicho anónimo: “La lengua no tiene huesos pero es lo suficientemente fuerte como para romper un corazón. Así que ten cuidado con tus palabras”. Una aplicación de inteligencia artificial que emite malas palabras quizás sea capaz de romper corazones. Eso por sí solo hace que la búsqueda para detener los productos sucios sea una causa digna, dirían algunos.

Un dicho anónimo más para cerrar las cosas en esta discusión de peso:

"Ten cuidado con tus palabras. Una vez que se dicen, solo se pueden perdonar, no olvidar”.

Como humanos, es posible que nos resulte difícil olvidar las asquerosidades producidas por la IA, y nuestro perdón podría ser igualmente vacilante.

Después de todo, somos humanos.

Fuente: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- etica-y-ai-derecho/