Google acusó la semana pasada a OpenAI de usar vídeos de YouTube para entrenar a Sora. Ahora una investigación del medio The New York Times asegura que OpenAI también uso más de un millón de horas de vídeos de YouTube para entrenar a Whisper, su IA que convierte audio en texto.
Como era de esperar, a Google no le ha sentado nada bien, porque no solo son sus datos, sino que además OpenAI es su más directo rival en el campo de la inteligencia artificial.
Veremos si este caso llega a los tribunales, o se produce un acuerdo entre compañías, para que las dos salgan ganando.
OpenAI usó vídeos de YouTube para entrenar a sus IA
La inteligencia artificial necesita datos del mundo real para mejorar. Y como más perfecta es esta IA, más datos necesita.
Según informa el periódico The New York Times, vía The Verge, las principales compañías de IA ya han consumido todos los datos públicos disponibles para entrenar a la IA, así como las colecciones privadas con las que han llegado a un acuerdo.
Según la investigación, OpenAI se quedó sin datos en 2021. Así que sus ejecutivos discutieron sobre la posibilidad de usar vídeos de YouTube, podcast y audiolibros, aun sabiendo que estaban en «una zona gris» de la ley.
Finalmente, tomaron la decisión de usar cerca de un millón de horas de vídeos de YouTube para extraer el audio y entrenar a Whisper, su IA que convierte voz en texto. Se acogerían al término «uso razonable», al emplear solo una parte de los cientos de miles de millones de horas de vídeos que hay en YouTube.
Supuestamente, el propio presidente de OpenAI, Greg Brockman, estuvo involucrado en la obtención de esos videos.
El portavoz de Google, Matt Bryant, confirma en The Verge que la compañía ha «visto informes no confirmados» de la actividad de OpenAI, y asegura que «tanto nuestros archivos robots.txt como las condiciones del servicio prohíben el scraping o la descarga no autorizada de contenido de YouTube».
La investigación de The New York Times también asegura que Meta se quedó sin datos hace tiempo, y barajó la posibilidad de licenciar libros, e incluso comprar una gran editorial.
Según algunos expertos, las compañías de IA necesitarán más datos de los que se puedan generar, en 2028.
La solución pasa por crear datos sintéticos, es decir, diseñados artificialmente para usar con la IA, o utilizar otros modelos de entrenamiento que no requieran tantos datos. Pero de momento nada de esto ha funcionado.
Las compañías de IA compiten en una carrera desenfrenada por dominar un mercado que generará mucho dinero, y no dudan en saltarse el copyright, con tal de entrenar a sus IA más rápido que sus rivales. Una carrera suicida que siembra dudas sobre la supuesta seguridad de esa IA, a la hora de que no nos aniquile, o nos convierta en sus esclavos…