La inteligencia artificial (IA) ha revolucionado diversos sectores de la sociedad, pero su desarrollo no está exento de controversias. Recientemente, una investigación de Proof News ha revelado que algunas de las empresas más poderosas del mundo han utilizado videos de YouTube sin autorización para entrenar sus modelos de IA, lo que plantea preguntas éticas y legales sobre la obtención y el uso de datos.
Recolección de datos sin permiso
Según Proof News, las empresas Anthropic, Nvidia, Apple y Salesforce utilizaron transcripciones de 173,536 videos de más de 48,000 canales de YouTube para entrenar sus modelos de IA. Esto se realizó a pesar de las normas explícitas de YouTube que prohíben la extracción de material sin autorización. El conjunto de datos en cuestión, denominado YouTube Subtitles, incluye transcripciones de canales educativos y de aprendizaje en línea como Khan Academy, MIT y Harvard, así como contenidos de medios de comunicación influyentes como The Wall Street Journal, NPR y BBC.
No solo fueron utilizados videos educativos y periodísticos; también se encontraron registros de material de programas de entretenimiento y de creadores individuales de gran popularidad, como Mr. Beast, Marques Brownlee, Jacksepticeye y PewDiePie. Además, algunas transcripciones contenían teorías conspirativas, como la «teoría de la Tierra plana», lo que podría comprometer la fiabilidad de los modelos de IA entrenados con estos datos.
El impacto en los creadores de contenido
El uso de estos videos sin permiso ha generado un fuerte rechazo por parte de los creadores de contenido. David Pakman, presentador de ‘The David Pakman Show’, cuya cadena ha sido utilizada en el entrenamiento de estos modelos, expresó su inconformidad, afirmando que no recibió ninguna notificación ni compensación por la utilización de sus videos. Pakman enfatizó que su contenido es su medio de vida y que invertir tiempo, recursos y personal en su creación amerita una retribución justa si terceros lucran con ello.
Otros creadores han calificado esta situación como un «robo» y una «falta de respeto». Dave Wiskus, director general de Nebula, un servicio de streaming alternativo a YouTube, criticó duramente el hecho de que las productoras tecnológicas usen IA generativa para reemplazar a los artistas y creadores sin su consentimiento ni compensación.
Las empresas involucradas y sus argumentos
EleutherAI, la organización responsable de la creación de Pile, un extenso conjunto de datos utilizado para entrenar IA, ha sido señalada como una de las principales responsables de la inclusión de los subtítulos de YouTube en los datos de entrenamiento. Sin embargo, la organización ha defendido su acción argumentando que su objetivo es democratizar el acceso a tecnologías avanzadas de IA.
Empresas como Apple, Nvidia, Salesforce y Anthropic han admitido el uso de Pile en el entrenamiento de sus modelos de IA. Apple, por ejemplo, utilizó estos datos para desarrollar OpenELM, un modelo de IA que fue anunciado poco antes de la incorporación de nuevas funcionalidades de IA en los iPhones y MacBooks. Salesforce también reconoció haber empleado estos datos para fines de investigación académica, aunque su modelo ha sido descargado al menos 86,000 veces desde su publicación en 2022.
Por su parte, Anthropic, respaldada por una inversión de 4,000 millones de dólares de Amazon, utilizó Pile para entrenar su asistente de IA generativa, Claude. Sin embargo, su portavoz, Jennifer Martínez, señaló que las condiciones de uso de YouTube aplican solo al uso directo de su plataforma, dejando entrever una posible área gris en la legalidad del aprovechamiento de estos datos.
Cuestiones éticas y legales
El descubrimiento de esta práctica ha reavivado el debate sobre los límites de la utilización de datos en la IA. El hecho de que grandes compañías tecnológicas se beneficien del trabajo de creadores de contenido sin su consentimiento plantea preguntas sobre la regulación de la IA y la protección de los derechos de propiedad intelectual.
Muchos creadores de contenido consideran que estas acciones constituyen una explotación de su trabajo, ya que su producción está siendo utilizada para entrenar sistemas que podrían eventualmente reemplazarlos o reducir su relevancia en el mercado. Además, se ha identificado que los modelos de IA entrenados con estos datos pueden reproducir prejuicios y sesgos presentes en los contenidos originales, lo que podría llevar a la propagación de información errónea o discriminatoria.
El uso de videos de YouTube para entrenar inteligencia artificial sin autorización representa un desafío tanto ético como legal. Mientras las empresas tecnológicas defienden su accionar bajo el argumento de la innovación y el acceso abierto a los datos, los creadores de contenido ven en esto una amenaza a su sustento y una violación de sus derechos.
La creciente influencia de la IA en distintos sectores hace urgente una regulación más estricta sobre la recopilación y uso de datos. Es fundamental que las plataformas y los creadores de contenido tengan voz en la discusión sobre cómo se utilizan sus datos y se establezcan mecanismos de compensación justos. De lo contrario, el avance de la IA podría convertirse en una herramienta que, en lugar de democratizar el acceso a la información, termine beneficiando solo a unos pocos en detrimento del resto.