Juicio final legal para ChatGPT de IA generativa si se descubre plagiando o infringiendo, advierte la ética de la IA y la ley de la IA

Dar crédito a quien crédito merece.

Eso es un poco de sabia sabiduría en la que tal vez te criaron para creer firmemente. De hecho, uno supone o imagina que todos podemos razonablemente estar de acuerdo en que esta es una regla general justa y sensata en la vida. Cuando alguien hace algo que merece reconocimiento, asegúrese de que obtenga el reconocimiento que se merece.

El punto de vista contrario parecería mucho menos convincente.

Si alguien anduviera por ahí insistiendo en que el crédito debería no ser reconocido cuando el crédito es debido, bien, podría afirmar que tal creencia es descortés y posiblemente solapada. A menudo nos perturbamos a gritos cuando se defrauda a alguien que ha logrado algo notable. Me atrevo a decir que desaprobamos especialmente cuando otros se atribuyen falsamente el mérito del trabajo de otros. Eso es un doble golpe inquietante. A la persona que debería haber recibido el crédito se le niega su momento en el sol. Además, el embaucador está disfrutando de ser el centro de atención, aunque erróneamente nos están engañando para que se apropien indebidamente de nuestros afectos favorables.

¿Por qué todo este discurso sobre obtener crédito de la manera más correcta y evitar las formas incorrectas y despreciables?

Porque parece que nos enfrentamos a una situación similar cuando se trata de lo último en inteligencia artificial (IA).

Sí, las afirmaciones son que esto está sucediendo de manera demostrable a través de un tipo de IA conocido como IA generativa. Hay muchas dudas de que la IA generativa, la IA más popular en las noticias en estos días, ya se haya atribuido el mérito de lo que no merece. Y es probable que esto empeore a medida que la IA generativa se expanda y utilice cada vez más. Cada vez se otorga más crédito a la IA generativa, mientras que, lamentablemente, aquellos que merecen el verdadero crédito quedan en el polvo.

Mi manera ofrecida de denotar claramente este supuesto fenómeno es a través de dos eslóganes elegantes:

  • 1) Plagio a escala
  • 2) Infracción de derechos de autor a escala

Supongo que es posible que conozca la IA generativa debido a una aplicación de IA muy popular conocida como ChatGPT que OpenAI lanzó en noviembre. Hablaré más sobre la IA generativa y ChatGPT en un momento. Cuelga ahí.

Vayamos de inmediato al quid de lo que está poniendo las cabras de la gente, por así decirlo.

Algunos se han quejado ardientemente de que la IA generativa potencialmente está estafando a los humanos que han creado contenido. Verá, la mayoría de las aplicaciones de IA generativa son datos entrenados al examinar los datos que se encuentran en Internet. Con base en esos datos, los algoritmos pueden perfeccionar una vasta red interna de coincidencia de patrones dentro de la aplicación de IA que posteriormente puede producir contenido aparentemente nuevo que increíblemente parece haber sido diseñado por la mano humana en lugar de una pieza de automatización.

Esta notable hazaña se debe en gran medida al uso de contenido escaneado en Internet. Sin el volumen y la riqueza del contenido de Internet como fuente para el entrenamiento de datos, la IA generativa estaría prácticamente vacía y tendría poco o ningún interés para ser utilizada. Al hacer que la IA examine millones y millones de documentos y textos en línea, junto con todo tipo de contenido asociado, la coincidencia de patrones se deriva gradualmente para tratar de imitar el contenido producido por humanos.

Cuanto más contenido se examine, más probabilidades hay de que la coincidencia de patrones se perfeccione más y mejore aún más en el mimetismo, en igualdad de condiciones.

Aquí entonces está la pregunta del trillón de dólares:

  • Gran pregunta: Si usted u otras personas tienen contenido en Internet en el que se entrenó alguna aplicación de IA generativa, presumiblemente sin su permiso directo y tal vez completamente sin su conocimiento, en caso de que tenga derecho a una parte del pastel en cuanto al valor que surja de ese entrenamiento generativo de datos de IA?

Algunos argumentan con vehemencia que la única respuesta adecuada es , en particular, que esos creadores de contenido humano realmente merecen su parte de la acción. La cuestión es que sería difícil encontrar a alguien que haya recibido su parte justa y, lo que es peor, casi nadie ha recibido ninguna parte. A los creadores de contenido de Internet que contribuyeron de manera involuntaria y sin saberlo, se les niega esencialmente el crédito que les corresponde.

Esto podría calificarse de atroz e indignante. Acabamos de desempacar la sabia sabiduría de que se debe dar crédito donde se debe. En el caso de la IA generativa, aparentemente no es así. La antigua y virtuosa regla empírica sobre el crédito parece haber sido violada cruelmente.

Vaya, dice la réplica, estás exagerando por completo y tergiversando la situación. Claro, la IA generativa examinó el contenido en Internet. Claro, esto fue muy útil como parte del entrenamiento de datos de la IA generativa. Es cierto que las impresionantes aplicaciones de IA generativa de hoy no serían tan impresionantes sin este enfoque considerado. Pero ha ido demasiado lejos al decir que los creadores de contenido deberían recibir una apariencia particular de crédito.

La logica es como sigue. Los seres humanos van a Internet y aprenden cosas de Internet, haciéndolo de forma rutinaria y sin ningún problema en sí. Una persona que lee blogs sobre plomería y luego ve videos de reparación de plomería disponibles gratuitamente podría salir al día siguiente y conseguir trabajo como plomero. ¿Necesitan dar una parte de su remesa relacionada con la plomería al bloguero que escribió sobre cómo instalar una plomería en un fregadero? ¿Necesitan darle una tarifa al vlogger que hizo el video que muestra los pasos para arreglar una bañera que gotea?

Casi seguro que no.

El entrenamiento de datos de la IA generativa es simplemente un medio para desarrollar patrones. Siempre que los resultados de la IA generativa no sean una mera regurgitación de lo que se examinó con precisión, se podría argumentar de manera persuasiva que han "aprendido" y, por lo tanto, no están sujetos a otorgar ningún crédito específico a ninguna fuente específica. A menos que pueda atrapar la IA generativa al realizar una regurgitación exacta, las indicaciones son que la IA se ha generalizado más allá de cualquier fuente en particular.

Ningún crédito se debe a nadie. O, se supone, se podría decir que el mérito es de todos. El texto colectivo y otros contenidos de la humanidad que se encuentran en Internet se llevan el crédito. Todos tenemos el crédito. Tratar de señalar el crédito a una fuente en particular no tiene sentido. Siéntete feliz de que la IA esté avanzando y que la humanidad en general se beneficie. Esas publicaciones en Internet deberían sentirse honradas de haber contribuido a un futuro de avances en IA y cómo esto ayudará a la humanidad por la eternidad.

Tendré más que decir sobre estos dos puntos de vista contrastantes.

Mientras tanto, ¿se inclina hacia el campo que dice que el crédito es debido y tardío para aquellos que tienen sitios web en Internet, o encuentra que el lado opuesto que dice que los creadores de contenido de Internet son decididamente no ser estafado es una postura más convincente?

Un enigma y un acertijo, todo atascado.

Desempaquetemos esto.

En la columna de hoy, abordaré estas preocupaciones expresadas de que la IA generativa esencialmente está plagiando o posiblemente infringiendo los derechos de autor del contenido que se ha publicado en Internet (considerado un derecho de propiedad intelectual o un problema de propiedad intelectual). Veremos la base de estos escrúpulos. Ocasionalmente me referiré a ChatGPT durante esta discusión, ya que es el gorila de 600 libras de la IA generativa, aunque tenga en cuenta que hay muchas otras aplicaciones de IA generativa y, en general, se basan en los mismos principios generales.

Mientras tanto, es posible que se pregunte qué es la IA generativa.

Primero cubramos los fundamentos de la IA generativa y luego podemos echar un vistazo de cerca al asunto apremiante que nos ocupa.

En todo esto viene una gran cantidad de consideraciones sobre la ética y la ley de la IA.

Tenga en cuenta que se están realizando esfuerzos para imbuir los principios éticos de IA en el desarrollo y la implementación de aplicaciones de IA. Un creciente contingente de éticos de IA preocupados y antiguos están tratando de garantizar que los esfuerzos para diseñar y adoptar IA tengan en cuenta una visión de hacer AI para siempre y evitando AI para mal. Del mismo modo, se han propuesto nuevas leyes de IA que se están promocionando como posibles soluciones para evitar que los esfuerzos de IA se vuelvan locos en materia de derechos humanos y similares. Para mi cobertura continua y extensa de la ética de la IA y la ley de la IA, consulte el enlace aquí y el enlace aquí, Sólo para nombrar unos pocos.

Se persigue el desarrollo y la promulgación de preceptos éticos de IA para evitar que la sociedad caiga en una miríada de trampas que inducen a la IA. Para ver mi cobertura de los principios de ética de AI de la ONU, tal como fueron ideados y respaldados por casi 200 países a través de los esfuerzos de la UNESCO, consulte el enlace aquí. De manera similar, se están explorando nuevas leyes de IA para tratar de mantener la IA en equilibrio. Una de las últimas tomas consiste en un conjunto de propuestas Declaración de derechos de IA que la Casa Blanca de EE. UU. publicó recientemente para identificar los derechos humanos en una era de IA, véase el enlace aquí. Se necesita un pueblo para mantener la IA y los desarrolladores de IA en el camino correcto y disuadir los esfuerzos encubiertos intencionales o accidentales que podrían socavar a la sociedad.

Entrelazaré consideraciones relacionadas con la ética de la IA y la ley de la IA en esta discusión.

Fundamentos de la IA generativa

La instancia más conocida de IA generativa está representada por una aplicación de IA llamada ChatGPT. ChatGPT surgió en la conciencia pública en noviembre cuando fue lanzado por la firma de investigación de IA OpenAI. Desde entonces, ChatGPT ha obtenido titulares descomunales y ha superado asombrosamente los quince minutos de fama asignados.

Supongo que probablemente hayas oído hablar de ChatGPT o tal vez incluso conozcas a alguien que lo haya usado.

ChatGPT se considera una aplicación de IA generativa porque toma como entrada un texto de un usuario y luego genera o produce una salida que consiste en un ensayo. La IA es un generador de texto a texto, aunque describo la IA como un generador de texto a ensayo, ya que eso aclara más fácilmente para qué se usa comúnmente. Puede usar la IA generativa para componer composiciones largas o puede hacer que emita comentarios breves y concisos. Todo está a tu disposición.

Todo lo que necesita hacer es ingresar un aviso y la aplicación AI generará para usted un ensayo que intenta responder a su aviso. El texto compuesto parecerá como si el ensayo hubiera sido escrito por la mano y la mente humana. Si ingresara un mensaje que dijera "Cuénteme sobre Abraham Lincoln", la IA generativa le proporcionará un ensayo sobre Lincoln. Hay otros modos de IA generativa, como texto a arte y texto a video. Me centraré aquí en la variación de texto a texto.

Su primer pensamiento podría ser que esta capacidad generativa no parece tan importante en términos de producción de ensayos. Puede realizar fácilmente una búsqueda en línea en Internet y encontrar toneladas y toneladas de ensayos sobre el presidente Lincoln. El truco en el caso de la IA generativa es que el ensayo generado es relativamente único y proporciona una composición original en lugar de una copia. Si intentara encontrar el ensayo producido por IA en línea en algún lugar, es poco probable que lo descubra.

La IA generativa está preentrenada y utiliza una formulación matemática y computacional compleja que se ha configurado mediante el examen de patrones en palabras e historias escritas en la web. Como resultado de examinar miles y millones de pasajes escritos, la IA puede arrojar nuevos ensayos e historias que son una mezcla de lo que se encontró. Al agregar varias funciones probabilísticas, el texto resultante es bastante único en comparación con lo que se ha utilizado en el conjunto de entrenamiento.

Existen numerosas preocupaciones sobre la IA generativa.

Una desventaja crucial es que los ensayos producidos por una aplicación de IA basada en generativos pueden tener incrustadas varias falsedades, incluidos hechos manifiestamente falsos, hechos que se describen de manera engañosa y hechos aparentes que son completamente inventados. Esos aspectos fabricados se refieren a menudo como una forma de alucinaciones de IA, un eslogan que no me gusta pero que lamentablemente parece estar ganando popularidad de todos modos (para una explicación detallada de por qué esta es una terminología pésima e inadecuada, consulte mi cobertura en el enlace aquí).

Otra preocupación es que los humanos pueden atribuirse fácilmente el mérito de un ensayo generado por IA generativa, a pesar de no haberlo escrito ellos mismos. Es posible que haya escuchado que los maestros y las escuelas están bastante preocupados por la aparición de aplicaciones de inteligencia artificial generativa. Los estudiantes pueden potencialmente usar IA generativa para escribir sus ensayos asignados. Si un estudiante afirma que un ensayo fue escrito por su propia mano, hay pocas posibilidades de que el maestro pueda discernir si fue falsificado por IA generativa. Para mi análisis de esta faceta de confusión de estudiante y maestro, vea mi cobertura en el enlace aquí y el enlace aquí.

Ha habido algunas afirmaciones descabelladas y descomunales en las redes sociales sobre IA generativa afirmando que esta última versión de AI es de hecho IA consciente (¡no, están equivocados!). Los de Ética y Derecho de IA están especialmente preocupados por esta tendencia creciente de reclamos extendidos. Se podría decir cortésmente que algunas personas están exagerando lo que la IA de hoy en día realmente puede hacer. Asumen que la IA tiene capacidades que aún no hemos podido lograr. Eso es lamentable. Peor aún, pueden permitirse a sí mismos y a otros meterse en situaciones difíciles debido a la suposición de que la IA será sensible o parecida a un humano para poder tomar medidas.

No antropomorfizar la IA.

Si lo hace, quedará atrapado en una trampa de dependencia pegajosa y severa de esperar que la IA haga cosas que no puede realizar. Dicho esto, lo último en IA generativa es relativamente impresionante por lo que puede hacer. Sin embargo, tenga en cuenta que existen limitaciones significativas que debe tener en cuenta continuamente al usar cualquier aplicación de IA generativa.

Una advertencia final por ahora.

Todo lo que vea o lea en una respuesta generativa de IA que parece para transmitirse como puramente fáctico (fechas, lugares, personas, etc.), asegúrese de permanecer escéptico y esté dispuesto a verificar dos veces lo que ve.

Sí, las fechas se pueden inventar, los lugares se pueden inventar y los elementos que normalmente esperamos que sean irreprochables son todos sujeto a sospechas. No crea lo que lee y mantenga una mirada escéptica cuando examine cualquier ensayo o resultado de IA generativa. Si una aplicación de IA generativa te dice que Abraham Lincoln voló por todo el país en su jet privado, sin duda sabrás que esto es una tontería. Desafortunadamente, algunas personas pueden no darse cuenta de que los aviones a reacción no existían en su época, o pueden saber pero no darse cuenta de que el ensayo hace esta afirmación descarada y escandalosamente falsa.

Una fuerte dosis de escepticismo saludable y una mentalidad persistente de incredulidad serán su mejor activo cuando use IA generativa.

Estamos listos para pasar a la siguiente etapa de esta elucidación.

Internet y la IA generativa están juntas en esto

Ahora que tiene una idea de lo que es la IA generativa, podemos explorar la inquietante pregunta de si la IA generativa es justa o injustamente "apalancada", o algunos dirían descaradamente explotando contenido de internet

Aquí están mis cuatro temas vitales pertinentes a este asunto:

  • 1) Doble problema: plagio e infracción de derechos de autor
  • 2) Tratar de probar el plagio o la infracción de derechos de autor será un intento
  • 3) Argumentar el caso de plagio o infracción de derechos de autor
  • 4) Las minas terrestres legales esperan

Cubriré cada uno de estos temas importantes y propondré consideraciones perspicaces que todos deberíamos estar reflexionando atentamente. Cada uno de estos temas es una parte integral de un rompecabezas más grande. No se puede mirar una sola pieza. Tampoco puedes mirar ninguna pieza aisladamente de las otras piezas.

Este es un mosaico intrincado y todo el rompecabezas debe recibir una consideración armoniosa adecuada.

Doble problema: plagio e infracción de derechos de autor

El doble problema al que se enfrentan quienes fabrican y utilizan la IA generativa es que sus productos podrían estar haciendo dos cosas malas:

  • 1) Plagio. La IA generativa podría interpretarse como plagiar contenido que existe en Internet según el escaneo de Internet que tuvo lugar durante el entrenamiento de datos de la IA.
  • 2) Infracción de derechos de autor. La IA generativa podría ser reclamada como empresa infracción de derechos de autor asociado con el contenido de Internet que se escaneó durante el entrenamiento de datos.

Para aclarar, hay mucho más contenido en Internet del que normalmente se escanea para el entrenamiento de datos de la IA generativa. Por lo general, solo se emplea una pequeña fracción de Internet. Por lo tanto, presumiblemente podemos suponer que cualquier contenido que no se escaneó durante el entrenamiento de datos no tiene ningún problema particular con la IA generativa.

Sin embargo, esto es algo discutible, ya que podría trazar una línea que conecte otro contenido que se escaneó con el contenido que no se escaneó. Además, otra condición importante es que, incluso si hay contenido que no se escaneó, aún se podría argumentar que fue plagiado y/o infringido los derechos de autor si los resultados de la IA generativa caen en la misma palabrería. Mi punto es que hay mucho de blando en todo esto.

En pocas palabras, La IA generativa está plagada de posibles problemas legales relacionados con la ética de la IA y las leyes de la IA cuando se trata de plagio e infracción de derechos de autor. sustentando las prácticas predominantes de entrenamiento de datos.

Hasta ahora, los fabricantes de IA y los investigadores de IA han pasado por esto prácticamente sin problemas, a pesar de la espada que se avecina y que cuelga precariamente sobre ellos. Hasta la fecha, solo se han iniciado unas pocas demandas contra estas prácticas. Es posible que haya escuchado o visto artículos de noticias sobre tales acciones legales. Uno, por ejemplo, involucra a las firmas de texto a imagen de Midjourney y Stability AI por infringir contenido artístico publicado en Internet. Otro implica una infracción de texto a código contra GitHub, Microsoft y OpenAI debido a que el software Copilot produce aplicaciones de IA. Getty Images también ha estado tratando de perseguir a Stability AI por infracción de texto a imagen.

Puede anticipar que se presentarán más demandas de este tipo.

En este momento, es un poco arriesgado iniciar esas demandas ya que el resultado es relativamente desconocido. ¿Se pondrá el tribunal del lado de los creadores de IA o serán los vencedores aquellos que creen que su contenido fue explotado injustamente? Una batalla legal costosa es siempre un asunto serio. El gasto de los costos legales a gran escala debe sopesarse frente a las posibilidades de ganar o perder.

Los creadores de IA parecerían no tener más remedio que dar pelea. Si cedieran, aunque fuera un poco, lo más probable es que resultara en un torrente de demandas adicionales (esencialmente, abriendo la puerta a mayores posibilidades de que otros también prevalezcan). Una vez que haya sangre legal en el agua, los tiburones legales restantes se apresurarán a alcanzar el "puntaje fácil" considerado y seguramente ocurrirá un baño de sangre monetario de palizas y golpes.

Algunos creen que deberíamos aprobar nuevas leyes de IA que protejan a los fabricantes de IA. La protección podría incluso ser retroactiva. La base para esto es que si queremos ver avances generativos de IA, tenemos que darles a los fabricantes de IA alguna pista de zona segura. Una vez que las demandas comiencen a obtener victorias contra los fabricantes de IA, si eso ocurre (aún no lo sabemos), la preocupación es que la IA generativa se evaporará ya que nadie estará dispuesto a respaldar a las empresas de IA.

Como se señaló hábilmente en un artículo reciente de Bloomberg Law titulado "ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI" por la Dra. Ilia Kolochenko y Gordon Platt, Bloomberg Law, febrero de 2023, aquí hay dos extractos vitales que se hacen eco de estos puntos de vista:

  • “Ahora hay un acalorado debate entre los académicos legales y los profesores de derecho de propiedad intelectual de los EE. UU. acerca de si el raspado no autorizado y el uso posterior de datos protegidos por derechos de autor equivalen a una infracción de derechos de autor. Si prevalece la opinión de los profesionales legales que ven violaciones de derechos de autor en tales prácticas, los usuarios de tales sistemas de IA también pueden ser responsables de una infracción secundaria y potencialmente enfrentar ramificaciones legales”.
  • “Para abordar el desafío de manera integral, los legisladores deberían considerar no solo modernizar la legislación de derechos de autor existente, sino también implementar un conjunto de leyes y regulaciones específicas de IA”.

Recuerde que, como sociedad, establecimos protecciones legales para los expansión de Internet, como lo atestigua ahora la Corte Suprema que revisa la famosa o infame Sección 230. Por lo tanto, parece razonable y precedente que podríamos estar dispuestos a hacer algunas protecciones similares para el avance de la IA generativa. Tal vez las protecciones podrían configurarse temporalmente, expirando después de que la IA generativa haya alcanzado un nivel predeterminado de competencia. Podrían idearse otras disposiciones de salvaguardia.

Pronto publicaré mi análisis de cómo la evaluación de la Corte Suprema y el fallo final sobre la Sección 230 podrían afectar el advenimiento de la IA generativa. ¡Esté atento a la próxima publicación!

Volvamos a la opinión estridentemente expresada de que debemos dar margen de maniobra a la impresionante innovación tecnológica social conocida como IA generativa. Algunos dirían que incluso si la supuesta infracción de derechos de autor ha ocurrido o está ocurriendo, la sociedad en su conjunto debería estar dispuesta a permitir esto con el propósito específico de promover la IA generativa.

La esperanza es que las nuevas leyes de IA se elaboren cuidadosamente y se ajusten a los detalles asociados con el entrenamiento de datos para la IA generativa.

Hay muchos argumentos en contra de esta noción de diseñar nuevas leyes de IA para este propósito. Una preocupación es que cualquier nueva ley de IA de este tipo abrirá las compuertas para todo tipo de infracción de derechos de autor. Lamentaremos el día en que permitimos que tales nuevas leyes de IA aterricen en los libros. No importa cuánto intente limitar esto solo al entrenamiento de datos de IA, otros encontrarán de manera furtiva o inteligente lagunas que equivaldrán a una infracción de derechos de autor desenfrenada y sin restricciones.

Vueltas y vueltas van los argumentos.

Un argumento que no se sostiene particularmente tiene que ver con tratar de demandar a la propia IA. Tenga en cuenta que me he referido al fabricante de IA o a los investigadores de IA como partes interesadas culpables. Estas son personas y empresas. Algunos sugieren que deberíamos apuntar a AI como la parte a demandar. He discutido extensamente en mi columna que todavía no atribuimos personalidad jurídica a AI, ver el enlace aquí por ejemplo, y por lo tanto tales demandas dirigidas a la IA per se se considerarían sin sentido en este momento.

Como complemento a la pregunta de quién o qué debe ser demandado, esto trae a colación otro tema jugoso.

Supongamos que una aplicación de IA generativa en particular es ideada por algún fabricante de IA que llamaremos Widget Company. Widget Company es relativamente pequeña en tamaño y no tiene muchos ingresos ni muchos activos. Demandarlos no es probable que obtenga las grandes riquezas que uno podría estar buscando. A lo sumo, simplemente tendría la satisfacción de corregir lo que percibe como incorrecto.

Quieres ir tras el pez gordo.

Así es como va a surgir. Un fabricante de IA opta por poner su IA generativa a disposición de Big Time Company, un importante conglomerado con toneladas de masa y toneladas de activos. Una demanda que nombre a Widget Company ahora tendría un mejor objetivo a la vista, a saber, también nombrar a Big Time Company. Esta es una pelea de David y Goliat que los abogados disfrutarían. Por supuesto, Big Time Company, sin duda, intentará zafarse del anzuelo. Si pueden hacerlo es una vez más una cuestión legal que es incierta, y podrían quedar atrapados en el lodo sin remedio.

Antes de avanzar mucho más en esto, me gustaría poner algo crucial sobre la mesa sobre las supuestas invasiones de la IA generativa debido al entrenamiento de datos. Estoy seguro de que intuitivamente te das cuenta de que el plagio y la infracción de derechos de autor son dos bestias algo diferentes. Tienen mucho en común, aunque también difieren significativamente.

Aquí hay una descripción sucinta de la Universidad de Duke que explica los dos:

  • “El plagio se define mejor como el uso no reconocido del trabajo de otra persona. Es una cuestión ética que involucra un reclamo de crédito por trabajo que el reclamante no creó. Uno puede plagiar el trabajo de otra persona sin importar el estado de los derechos de autor de ese trabajo. Por ejemplo, no obstante, es plagio copiar de un libro o artículo que es demasiado antiguo para estar protegido por derechos de autor. También es plagio usar datos tomados de una fuente no reconocida, aunque el material fáctico, como los datos, no esté protegido por derechos de autor. El plagio, sin embargo, se cura fácilmente: cita adecuada a la fuente original del material”.
  • “La infracción de los derechos de autor, por otro lado, es el uso no autorizado del trabajo de otra persona. Esta es una cuestión legal que depende de si la obra está o no protegida por derechos de autor en primer lugar, así como de detalles específicos como cuánto se usa y el propósito del uso. Si se copia demasiado de una obra protegida, o se copia para un propósito no autorizado, el simple reconocimiento de la fuente original no resolverá el problema. Solo al solicitar el permiso previo del titular de los derechos de autor se evita el riesgo de un cargo por infracción”.

Señalo la importancia de estas dos preocupaciones para que se dé cuenta de que los remedios pueden diferir en consecuencia. Además, ambos están enredados en consideraciones que impregnan la ética de la IA y la ley de la IA, por lo que vale la pena examinarlos por igual.

Exploremos un remedio o solución reclamada. Verá que podría ayudar a uno de los problemas de problemas dobles, pero no al otro.

Algunos han insistido en que todo lo que tienen que hacer los fabricantes de IA es citar sus fuentes. Cuando la IA generativa produce un ensayo, simplemente incluya citas específicas para lo que se indique en el ensayo. Proporcione varias URL y otras indicaciones de qué contenido de Internet se utilizó. Esto parecería liberarlos de las dudas sobre el plagio. El ensayo resultante presumiblemente identificaría claramente qué fuentes se utilizaron para la redacción que se está produciendo.

Hay algunas objeciones en esa supuesta solución, pero en un nivel de 30,000 pies digamos que sirve como una cura semi-satisfactoria para el dilema del plagio. Como se indicó anteriormente en la explicación de la infracción de derechos de autor, la cita del material fuente no necesariamente lo saca de la caseta del perro. Suponiendo que el contenido tuviera derechos de autor, y dependiendo de otros factores, como la cantidad de material que se utilizó, la amenaza de la infracción de los derechos de autor puede descender bruscamente y con carácter definitivo.

Doble problema es la consigna aquí.

Tratar de probar el plagio o la infracción de derechos de autor será un intento

¡Pruébalo!

Ese es el refrán muy usado que todos hemos escuchado en varios momentos de nuestras vidas.

Tu sabes como va. Puede afirmar que algo está sucediendo o ha sucedido. Es posible que sepas en el fondo de tu corazón que esto ha sucedido. Pero cuando se trata de empujar contra empujar, tienes que tener la prueba.

En el lenguaje actual, debe mostrar el recibos, como ellos dicen.

Mi pregunta para ti es esta: ¿Cómo vamos a demostrar de manera demostrable que la IA generativa ha explotado de manera inapropiada el contenido de Internet?

Se supone que la respuesta debería ser fácil. Le pides o le dices a la IA generativa que produzca un ensayo de salida. Luego toma el ensayo y lo compara con lo que se puede encontrar en Internet. Si encuentras el ensayo, bam, tienes la IA generativa clavada en la pared proverbial.

La vida parece nunca ser tan fácil.

Imagine que obtenemos IA generativa para producir un ensayo que contiene alrededor de 100 palabras. Damos vueltas e intentamos llegar a todos los rincones y rincones de Internet, buscando esas 100 palabras. Si encontramos las 100 palabras, mostradas en el mismo orden exacto y de la misma manera, parece que nos hemos pillado una buena.

Sin embargo, supongamos que encontramos en Internet un ensayo aparentemente "comparable", aunque solo coincide con 80 de las 100 palabras. Esto todavía parece suficiente, tal vez. Pero imagina que encontramos solo una instancia de 10 palabras de las 100 que coinciden. ¿Es eso suficiente para clamar que se ha producido plagio o que se ha producido una infracción de derechos de autor?

El gris existe.

El texto es divertido de esa manera.

Compare esto con las circunstancias de texto a imagen o de texto a arte. Cuando la IA generativa proporciona una capacidad de texto a imagen o de texto a arte, ingresa un mensaje de texto y la aplicación AI produce una imagen basada en cierto modo en el mensaje que proporcionó. La imagen puede ser diferente a cualquier imagen que se haya visto en este o en cualquier otro planeta.

Por otro lado, la imagen puede recordar a otras imágenes que existen. Podemos mirar la imagen generativa producida por IA y, de alguna manera, por instinto, decir que seguramente se parece a alguna otra imagen que hayamos visto antes. Generalmente, el visual los aspectos de comparación y contraste se emprenden un poco más fácilmente. Dicho esto, tenga en cuenta que los grandes debates legales aseguran lo que constituye la superposición o reproducción de una imagen de otra.

Otra situación similar existe con la música. Hay aplicaciones generativas de IA que le permiten ingresar un mensaje de texto y la salida producida por la IA es música de audio. Estas capacidades de IA de texto a audio o de texto a música apenas están comenzando a surgir. Una cosa en la que puede apostar su mejor dólar es que la música producida por IA generativa será muy analizada por infracción. Parece que sabemos cuándo escuchamos una infracción musical, aunque nuevamente este es un tema legal complejo que no se basa solo en cómo nos sentimos acerca de la réplica percibida.

Permítanme un ejemplo más.

La IA generativa de texto a código le brinda la capacidad de ingresar un mensaje de texto y la IA producirá un código de programación para usted. Luego puede usar este código para preparar un programa de computadora. Puede usar el código exactamente como se generó, o puede optar por editar y ajustar el código para que se ajuste a sus necesidades. También es necesario asegurarse de que el código sea apto y viable, ya que es posible que surjan errores y falsedades en el código generado.

Su primera suposición podría ser que el código de programación no es diferente al texto. Es solo texto. Claro, es un texto que proporciona un propósito particular, pero sigue siendo texto.

Bueno no exactamente. La mayoría de los lenguajes de programación tienen un formato y una estructura estrictos según la naturaleza de las declaraciones de codificación de ese lenguaje. Esto, en cierto sentido, es mucho más limitado que el lenguaje natural fluido. Está algo encasillado en cuanto a cómo se formulan las declaraciones de codificación. Del mismo modo, la secuencia y la forma en que se utilizan y organizan las declaraciones están algo encuadradas.

Con todo, la posibilidad de mostrar que el código de programación fue plagiado o infringido es casi más fácil que el lenguaje natural en total. Por lo tanto, cuando una IA generativa escanea código de programación en Internet y luego genera código de programación, las posibilidades de argumentar que el código fue replicado descaradamente serán relativamente más convincentes. No es una volcada, así que espera que se libren batallas amargas en esto.

Mi punto general es que vamos a tener los mismos problemas de ética y leyes de IA que confrontan todos los modos de IA generativa.

El plagio y la infracción de derechos de autor serán problemáticos para:

  • Texto a texto o texto a ensayo
  • Texto a imagen o texto a arte
  • Texto a audio o texto a música
  • Texto a video
  • Texto a código
  • Etc.

Todos están sujetos a las mismas preocupaciones. Algunos pueden ser un poco más fáciles de "probar" que otros. Todos ellos van a tener su propia variedad de pesadillas basadas en la ética de la IA y la ley de la IA.

Argumentando el caso de plagio o infracción de derechos de autor

Para fines de discusión, centrémonos en la IA generativa de texto a texto o de texto a ensayo. Lo hago en parte debido a la tremenda popularidad de ChatGPT, que es el tipo de IA generativa de texto a texto. Hay muchas personas que usan ChatGPT, junto con muchas otras que usan varias aplicaciones similares de IA generativa de texto a texto.

¿Aquellas personas que usan aplicaciones de IA generativa saben que potencialmente están confiando en el plagio o la infracción de derechos de autor?

Parece dudoso que lo hagan.

Me atrevería a decir que la suposición predominante es que si la aplicación de IA generativa está disponible para su uso, el fabricante de IA o la empresa que ha presentado la IA deben saber o estar seguros de que no hay nada malo en los productos que ofrecen para su uso. Si puede usarlo, debe ser honesto.

Repasemos mi comentario anterior sobre cómo vamos a probar y probar que una IA generativa en particular está funcionando de manera incorrecta en cuanto al entrenamiento de datos.

También podría agregar que si podemos atrapar a una IA generativa haciéndolo, es probable que aumenten las posibilidades de atrapar a los demás. No estoy diciendo que todas las aplicaciones de IA generativa estarían en el mismo barco. Pero se encontrarán en mares bastante duros una vez que uno de ellos quede clavado en la pared.

Es por eso que también valdrá la pena estar atento a las demandas existentes. El primero que gane en cuanto a la infracción reclamada, si esto ocurre, posiblemente significará pesimismo para las otras aplicaciones de IA generativa, a menos que alguna estrechez escape a los problemas más amplios en cuestión. Los que pierden en cuanto a la infracción reclamada no significan necesariamente que las aplicaciones generativas de IA puedan hacer sonar las campanas y celebrar. Podría ser que la pérdida se atribuya a otros factores que no son tan relevantes para las otras aplicaciones de IA generativa, y así sucesivamente.

Mencioné que si tomamos un ensayo de 100 palabras y tratamos de encontrar esas palabras exactas en la misma secuencia exacta en Internet, podríamos tener un caso relativamente sólido de plagio o infracción de derechos de autor, en igualdad de condiciones. Pero si el número de palabras que coincidieron es bajo, parecería que estamos sobre hielo delgado.

Me gustaría profundizar en eso.

Un aspecto obvio de hacer una comparación consiste en exactamente las mismas palabras en exactamente la misma secuencia. Esto podría ocurrir para pasajes completos. Esto sería conveniente de detectar, casi como si nos lo entregaran en bandeja de plata.

También podríamos sospechar si solo coincidiera un fragmento de palabras. La idea sería ver si son palabras cruciales o tal vez palabras de relleno que podamos eliminar o ignorar fácilmente. Tampoco queremos ser engañados por el uso de palabras en su tiempo pasado o futuro, u otra tontería. Esas variaciones en las palabras también deben ser consideradas.

Otro nivel de comparación sería cuando las palabras no son particularmente las mismas palabras en gran medida, pero las palabras, incluso en un estado variado, todavía parecen estar expresando los mismos puntos. Por ejemplo, un resumen a menudo usará palabras bastante similares a las de una fuente original, pero podemos discernir que el resumen parece basarse en la fuente original.

El nivel más difícil de comparación se basaría en conceptos o ideas. Supongamos que vemos un ensayo que no tiene palabras iguales o similares como base de comparación, pero la esencia o las ideas son las mismas. Es cierto que estamos adentrándonos en un territorio difícil. Si dijéramos fácilmente que las ideas están estrechamente protegidas, pondríamos un límite a casi todas las formas de conocimiento y ampliación del conocimiento.

Una vez más, podemos referirnos a una explicación útil de la Universidad de Duke:

  • “Los derechos de autor no protegen las ideas, solo la expresión específica de una idea. Por ejemplo, un tribunal decidió que Dan Brown no infringió los derechos de autor de un libro anterior cuando escribió El Código Da Vinci porque todo lo que tomó prestado del trabajo anterior fueron las ideas básicas, no los detalles de la trama o el diálogo. Dado que los derechos de autor están destinados a fomentar la producción creativa, usar las ideas de otra persona para crear un trabajo nuevo y original mantiene el propósito de los derechos de autor, no los viola. Solo si uno copia la expresión de otro sin permiso, se infringen potencialmente los derechos de autor”.
  • “Para evitar el plagio, por otro lado, uno debe reconocer la fuente incluso de las ideas que se toman prestadas de otra persona, independientemente de si la expresión de esas ideas se toma prestada con ellos. Por lo tanto, una paráfrasis requiere una cita, aunque rara vez plantea problemas de derechos de autor”.

Tenga en cuenta, como se identificó anteriormente, las diferencias entre las facetas de problemas dobles.

Ahora bien, poner en práctica los enfoques de comparación es algo que se viene haciendo desde hace muchos años. Piénsalo de esta manera. Los estudiantes que escriben ensayos para su trabajo escolar pueden verse tentados a obtener contenido de Internet y fingir que son los autores de las palabras ganadoras del Premio Pulitzer de grado A.

Los maestros han estado usando programas de verificación de plagio durante mucho tiempo para lidiar con esto. Un maestro toma el ensayo de un estudiante y lo introduce en el verificador de plagio. En algunos casos, toda una escuela autorizará el uso de un programa de verificación de plagio. Siempre que los estudiantes entreguen un ensayo, primero deben enviar el ensayo al programa de verificación de plagio. El profesor es informado de lo que informa el programa.

Desafortunadamente, debe ser extremadamente cauteloso con lo que estos programas de verificación de plagio tienen que decir. Es importante evaluar atentamente si las indicaciones notificadas son válidas. Como ya se mencionó, la capacidad de determinar si una obra fue copiada puede ser confusa. Si acepta sin pensar el resultado del programa de verificación, puede acusar falsamente a un estudiante de copiar cuando no lo hizo. Esto puede ser desgarrador.

Continuando, podemos intentar usar programas de verificación de plagio en el ámbito de la prueba de salidas generativas de IA. Trate los ensayos generados desde una aplicación de IA generativa como si los hubiera escrito un estudiante. Luego evaluamos lo que dice el verificador de plagio. Esto se hace con un grano de sal.

Hay un estudio de investigación reciente que intentó operacionalizar este tipo de comparaciones en el contexto de la IA generativa de esta misma manera. Me gustaría repasar algunos hallazgos interesantes con usted.

Primero, se requiere algo de fondo adicional. La IA generativa a veces se denomina LLM (modelos de lenguaje grande) o simplemente LM (modelos de lenguaje). En segundo lugar, ChatGPT se basa en una versión de otro paquete de IA generativa de OpenAI llamado GPT-3.5. Antes de GPT-3.5, existía GPT-3, y antes de eso, GPT-2. Hoy en día, GPT-2 se considera bastante primitivo en comparación con la serie posterior, y todos estamos esperando ansiosamente la próxima presentación de GPT-4, vea mi discusión en el enlace aquí.

El estudio de investigación que quiero explorar brevemente consistió en examinar GPT-2. Es importante darse cuenta de eso, ya que ahora estamos más allá de las capacidades de GPT-2. No saque conclusiones precipitadas sobre los resultados de este análisis de GPT-2. No obstante, podemos aprender mucho de la evaluación de GPT-2. El estudio se titula “¿Los modelos de lenguaje plagian?” por Jooyoung Lee, Thai Le, Jinghui Chen y Dongwon Lee, que aparece en ACM WWW '23, del 1 al 5 de mayo de 2023, Austin, TX, EE. UU.

Esta es su principal pregunta de investigación:

  • "¿Hasta qué punto (sin limitarse a la memorización) los LM explotan frases u oraciones de sus muestras de entrenamiento?"

Utilizaron estos tres niveles o categorías de plagio potencial:

  • “Plagio textual: Copias exactas de palabras o frases sin transformación.”
  • “Plagio de paráfrasis: sustitución de sinónimos, reordenación de palabras y/o traducción inversa”.
  • "Plagio de ideas: representación del contenido central en una forma alargada".

De hecho, GPT-2 se entrenó con datos de Internet y, por lo tanto, es un candidato adecuado para este tipo de análisis:

  • “GPT-2 está preentrenado en WebText y contiene más de 8 millones de documentos recuperados de 45 millones de enlaces de Reddit. Dado que OpenAI no ha lanzado públicamente WebText, usamos OpenWebText, que es una recreación de código abierto del corpus de WebText. Ha sido utilizado de forma fiable por la literatura anterior.”

Los hallazgos clave selectivos extraídos del estudio consisten en:

  • "Descubrimos que las familias de GPT-2 previamente entrenadas plagian OpenWebText".
  • "Nuestros hallazgos muestran que el ajuste fino reduce significativamente los casos de plagio textual de OpenWebText".
  • “De acuerdo con Carlini et al. y Carlini et al., encontramos que los modelos GPT-2 más grandes (grandes y xl) generalmente generan secuencias plagiadas con más frecuencia que los más pequeños”.
  • "Sin embargo, diferentes LM pueden demostrar diferentes patrones de plagio y, por lo tanto, es posible que nuestros resultados no se generalicen directamente a otros LM, incluidos los LM más recientes como GPT-3 o BLOOM".
  • “Además, se sabe que los detectores automáticos de plagio tienen muchos modos de falla (tanto en falsos negativos como en falsos positivos).
  • “Dado que la mayoría de los datos de capacitación de los LM se extraen de la Web sin informar a los propietarios del contenido, su reiteración de palabras, frases e incluso ideas centrales de conjuntos de capacitación en textos generados tiene implicaciones éticas”.

Definitivamente necesitamos muchos más estudios de este tipo.

Si tiene curiosidad acerca de cómo GPT-2 se compara con GPT-3 con respecto al entrenamiento de datos, hay un contraste bastante marcado.

Según las indicaciones informadas, el entrenamiento de datos para GPT-3 fue mucho más extenso:

  • “El modelo fue entrenado utilizando bases de datos de texto de Internet. Esto incluyó la friolera de 570 GB de datos obtenidos de libros, textos web, Wikipedia, artículos y otros escritos en Internet. Para ser aún más exactos, se introdujeron 300 mil millones de palabras en el sistema” (Enfoque científico de la BBC revista, "ChatGPT: Todo lo que necesita saber sobre la herramienta GPT-3 de OpenAI" por Alex Hughes, febrero de 2023).

Para aquellos de ustedes interesados ​​en descripciones más detalladas del entrenamiento de datos para GPT-3, aquí hay un extracto de la tarjeta modelo GPT-3 oficial publicada en GitHub (la fecha de última actualización es septiembre de 2020):

  • “El conjunto de datos de entrenamiento GPT-3 se compone de texto publicado en Internet o de texto cargado en Internet (por ejemplo, libros). Los datos de Internet con los que se ha entrenado y evaluado hasta la fecha incluyen: (1) una versión del conjunto de datos CommonCrawl, filtrado en función de la similitud con corpus de referencia de alta calidad, (2) una versión ampliada del conjunto de datos Webtext, (3 ) dos corpus de libros basados ​​en Internet y (4) Wikipedia en inglés”.
  • “Dados sus datos de capacitación, los resultados y el rendimiento de GPT-3 son más representativos de las poblaciones conectadas a Internet que aquellas inmersas en una cultura verbal no digital. La población conectada a Internet es más representativa de los países desarrollados, ricos, jóvenes y masculinos, y en su mayoría está centrada en los EE. UU. Las naciones más ricas y las poblaciones de los países desarrollados muestran una mayor penetración de Internet. La brecha digital de género también muestra menos mujeres representadas en línea en todo el mundo. Además, debido a que diferentes partes del mundo tienen diferentes niveles de penetración y acceso a Internet, el conjunto de datos subrepresenta a las comunidades menos conectadas”.

Una conclusión de la indicación anterior sobre GPT-3 es que una regla general entre los que hacen IA generativa es que cuantos más datos de Internet pueda escanear, las probabilidades de mejorar o avanzar en la IA generativa aumentan.

Puedes ver esto de dos maneras.

  • 1) IA mejorada. Vamos a tener IA generativa que rastrea la mayor parte de Internet posible. El emocionante resultado es que la IA generativa será mejor de lo que ya es. Eso es algo que esperar.
  • 2) Copiar potencial en abundancia. Esta ampliación del escaneo de Internet está haciendo que el problema del plagio y la infracción de los derechos de autor sea cada vez más grande de manera desagradable y atractiva. Mientras que antes no había tantos creadores de contenido afectados, el tamaño va a florecer. Si eres un abogado del lado de los creadores de contenido, esto te hace llorar (tal vez lágrimas de consternación o lágrimas de alegría por las perspectivas que esto trae en términos de juicios).

¿El vaso esta medio lleno o medio vacío?

Tú decides.

Las minas terrestres legales esperan

Una pregunta que podría estar reflexionando es si su contenido de Internet publicado se considera un juego justo para ser escaneado. Si su contenido está detrás de un muro de pago, presumiblemente no es un objetivo para escanear porque no se puede acceder fácilmente, dependiendo de la fuerza del muro de pago.

Supongo que la mayoría de la gente común no tiene su contenido escondido detrás de un muro de pago. Quieren que su contenido esté disponible públicamente. Suponen que la gente le echará un vistazo.

¿Tener su contenido disponible públicamente también significa axiomáticamente que está aprobando que sea escaneado para su uso por IA generativa que está siendo entrenada con datos?

Tal vez sí tal vez no.

Es uno de esos asuntos legales que ponen los ojos en blanco.

Volviendo a lo citado anteriormente Ley Bloomberg artículo, los autores mencionan la importancia de los Términos y Condiciones (T&C) asociados con muchos sitios web:

  • “La mina terrestre legal, ampliamente ignorada por empresas de inteligencia artificial involuntarias que operan bots en línea para el raspado de datos, está oculta en los Términos y condiciones comúnmente disponibles en sitios web públicos de todo tipo. En contraste con la ley de propiedad intelectual actualmente sin resolver y el dilema de la infracción de derechos de autor, los Términos y condiciones de un sitio web están respaldados por una ley contractual bien establecida y, por lo general, se pueden hacer cumplir en los tribunales basándose en una cantidad suficiente de precedentes”.

Indican que, suponiendo que su sitio web tenga una página relacionada con las licencias, lo más probable es que, si utilizó una plantilla moderna estandarizada, podría contener una cláusula crucial:

  • “En consecuencia, la mayoría de los términos y condiciones repetitivos de los sitios web, abundantemente disponibles en acceso gratuito, contienen una cláusula que prohíbe el raspado automático de datos. Irónicamente, estas plantillas disponibles gratuitamente posiblemente se hayan utilizado para la capacitación de ChatGPT. Por lo tanto, es posible que los propietarios de contenido deseen revisar sus Términos y condiciones e insertar una cláusula separada que prohíba rotundamente todo uso de cualquier contenido de los sitios web para capacitación de IA o cualquier propósito relacionado, ya sea recopilado de forma manual o automática, sin el permiso previo por escrito del propietario del sitio web. .”

Se incluye un truco adicional en su análisis de las posibles acciones que los creadores de contenido pueden tomar sobre sus sitios web:

  • “Por lo tanto, insertar una disposición exigible de daños liquidados por cada violación de la cláusula de no raspado, mejorada con una disposición de interdicto sin fianza, puede ser una solución sostenible para aquellos autores de contenido creativo que no están dispuestos a proporcionar los frutos de su trabajo. trabajo intelectual con fines de capacitación en IA sin que se les pague por ello o, al menos, sin recibir el crédito adecuado por su trabajo”.

Es posible que desee consultar a su abogado acerca de esto.

Algunos dicen que esta es una forma vital de tratar de decirles a los creadores de IA que los creadores de contenido se toman muy en serio la protección de su contenido. Asegurarse de que su licencia tenga la redacción adecuada, parece advertir a los fabricantes de IA.

Otros, sin embargo, son un poco pesimistas. Dicen abatidos que puede proceder a poner el lenguaje legal más duro y letal en su sitio web, pero al final, los creadores de IA lo escanearán. No sabrás que lo hicieron. Tendrás un demonio de tiempo demostrando que lo hicieron. Es poco probable que descubra que sus resultados reflejan su contenido. Es una batalla cuesta arriba que no vas a ganar.

El contraargumento es que estás rindiendo la batalla incluso antes de que se haya librado. Si al menos no tiene suficiente lenguaje legal, y si alguna vez los atrapa, se moverán y se abrirán camino para escapar de cualquier responsabilidad. Todo porque no publicaste el tipo correcto de jerga legal.

Mientras tanto, otro enfoque que busca ganar terreno consistiría en marcado su sitio web con algo que diga que el sitio no debe ser escaneado por IA generativa. La idea es que se idee un marcador estandarizado. Los sitios web presumiblemente podrían agregar el marcador a su sitio. A los fabricantes de IA se les diría que deberían modificar su escaneo de datos para omitir los sitios web marcados.

¿Puede un enfoque de marcador tener éxito? Las preocupaciones incluyen los costos para obtener y publicar los marcadores. Además de si los fabricantes de IA cumplirán con los marcadores y se asegurarán de evitar escanear los sitios marcados. Otra perspectiva es que incluso si los creadores de IA no están de acuerdo con las marcas, esto proporciona otra pista reveladora para ir a la corte y argumentar que el creador de contenido hizo todo lo posible para intentar advertir sobre el escaneo de IA.

Vaya, todo te da vueltas la cabeza.

Conclusión

Algunas observaciones finales sobre este espinoso tema.

¿Estás listo para una perspectiva alucinante sobre todo este dilema de la IA como plagiador e infractor de derechos de autor?

Gran parte de la suposición acerca de "atrapar" la IA generativa en el acto de plagio o infracción de derechos de autor depende de descubrir resultados que muy parecido trabajos anteriores, como el contenido en Internet que potencialmente se escaneó durante el entrenamiento de datos.

Supongamos, sin embargo, que aquí está en juego una estratagema de divide y vencerás.

Esto es lo que quiero decir.

Si la IA generativa toma prestado un poquito de aquí y un poquito de allá, mezclándolos en última instancia para producir un resultado en particular, las posibilidades de poder tener un momento gotcha se reducen enormemente. Aparentemente, cualquier salida no alcanzará un umbral suficiente para que pueda decir con certeza que se copió de un elemento fuente en particular. El ensayo resultante u otros modos de salida solo podrán emparejarse de manera fraccionada. Y con el enfoque habitual de tratar de argumentar que se ha producido un plagio o una infracción de derechos de autor, por lo general tiene que mostrar más de lo que está en juego, especialmente si el bocado no se destaca y se puede encontrar ampliamente en Internet (socavando cualquier carga adecuada de la prueba de apropiación indebida).

¿Todavía puede declarar de manera persuasiva que el entrenamiento de datos por parte de la IA generativa ha estafado a los sitios web y a los creadores de contenido, incluso si la prueba sugerida es una proporción aparentemente inmaterial?

Piénsalo.

Si nos enfrentamos potencialmente a un plagio a escala y a una infracción de derechos de autor a gran escala, es posible que debamos modificar nuestro enfoque para definir qué constituye plagio y/o infracción de derechos de autor. Tal vez haya un caso de plagio o infracción de derechos de autor en general o en general. Se podría interpretar que un mosaico que consiste en miles o millones de fragmentos minúsculos comete tales violaciones. Sin embargo, el problema aparente es que esto puede hacer que todo tipo de contenido de repente quede bajo un paraguas de infracciones. Esto podría ser una pendiente resbaladiza.

Pensamientos pesados.

Hablando de pensamientos importantes, León Tolstoi, el legendario escritor, dijo: “El único significado de la vida es servir a la humanidad”.

Si su sitio web y los sitios web de otros están siendo escaneados para mejorar la IA, y aunque no recibe ni un centavo por ello, ¿podría tener un consuelo solemne en la creencia ardiente de que está contribuyendo al futuro de la humanidad? Parece un pequeño precio a pagar.

Bueno, a menos que la IA resulte ser el temido riesgo existencial que borra a todos los humanos de la existencia. No deberías tomar el crédito por eso. Asumo que preferirías no estar contribuyendo a ese terrible resultado. Dejando a un lado esa predicción calamitosa, podrías estar pensando que si los fabricantes de IA están ganando dinero con su IA generativa, y parecen estar disfrutando de la especulación, tú también deberías obtener una parte del pastel. Por partes iguales. Los fabricantes de IA deben solicitar permiso para escanear cualquier sitio web y luego también negociar un precio a pagar por haber sido autorizados a realizar el escaneo.

Dar crédito a quien crédito merece.

Démosle a Sir Walter Scott la última palabra por ahora: “Oh, qué red tan enredada tejemos. Cuando primero practicamos para engañar.”

Esto tal vez se aplique si cree que se está tramando un engaño, o quizás no se aplique si cree que todo está bien y es perfectamente franco y legítimo. Por favor, generosamente dése crédito por pensar en esto. Te lo mereces.

Fuente: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- y-ai-ley/