¿Qué pasa si te quedas sin datos de entrenamiento del modelo de IA?

El rápido progreso en inteligencia artificial depende principalmente de la disponibilidad de datos de entrenamiento precisos y a gran escala. A medida que el uso de la inteligencia artificial se expande en diversos sectores, muchas empresas están comenzando a enfrentar desafíos relacionados con la falta de datos de entrenamiento disponibles, lo que puede afectar la calidad y la eficacia de los modelos inteligentes que desarrollan. Entonces, ¿cómo podemos seguir entrenando y desarrollando sistemas de IA a pesar de esta deficiencia?

Puede parecer que Internet está lleno de datos disponibles, pero la IA ya ha consumido la mayoría de las fuentes abiertas. Sin embargo, esto no significa que el progreso se detendrá. Existen nuevas estrategias que pueden utilizarse para reducir la brecha de datos, como generar datos sintéticos, recopilar datos personalizados y utilizar datos no estructurados de formas innovadoras. En este artículo, exploraremos estas soluciones innovadoras y cómo pueden respaldar el desarrollo de la IA, garantizando que continúe ofreciendo un mejor rendimiento y mayor valor a los usuarios.

¿Qué pasa si te quedas sin datos de entrenamiento del modelo de IA?

1. Además, los datos siempre se agregan en línea.

En resumen, dice el Instituto de Investigación en Inteligencia Artificial Epoch Los datos de alta calidad con los que entrenar la IA podrían agotarse en 2026.

La palabra clave allí es "puede". La cantidad de datos agregados a Internet aumenta cada año, por lo que algo drástico puede cambiar antes de 2026. Sin embargo, esta sigue siendo una estimación justa: de cualquier manera, los sistemas de inteligencia artificial se quedarán sin buenos datos en algún momento.

Sin embargo, debemos recordar que cada año se añaden online unos 147 zettabytes de datos (según... Temas explosivos). Sólo un zettabyte equivale a 1,000,000,000,000,000,000,000 bits de datos. En términos reales, son más de 30 mil millones de películas 4K (reales, pero insondables). Es una cantidad asombrosa de información que la IA debe examinar.

Sin embargo, la inteligencia artificial está consumiendo datos más rápido de lo que la humanidad puede producirlos...

2. La IA puede olvidar datos de baja calidad

Por supuesto, no todos los 147 zettabytes de datos son buenos datos. Hay más en esto de lo que parece. Pero se estima que la IA también consumirá datos lingüísticos de baja calidad en 2050.

reportado Reuters Photobucket, que alguna vez fue uno de los repositorios de fotografías más grandes del mundo, está en conversaciones para otorgar licencias de su vasta biblioteca a empresas de capacitación en inteligencia artificial. Las fotos tienen datos para entrenar modelos como DALL-E y Midjourney, pero incluso eso podría agotarse en 2060. Aquí también hay un problema mayor: Photobucket ha incluido fotos de plataformas de redes sociales de la década de XNUMX como Myspace, lo que significa que no son de tan alto nivel como las actuales. fotografía. Esto conduce a datos de baja calidad.

Photobucket no está solo. En febrero de 2024, Google llegó a un acuerdo con Reddit, que permitía al gigante de las búsquedas utilizar los datos de los usuarios de la plataforma de redes sociales para entrenar inteligencia artificial. Otras plataformas de redes sociales también proporcionan datos de los usuarios con fines de formación en IA; Algunos lo usan para entrenar modelos internos de IA, como Meta's Llama.

Sin embargo, si bien se puede extraer cierta información de datos de baja calidad, se informa que Microsoft está desarrollando una forma para que la IA "ignore" los datos de forma selectiva. Principalmente, esta solución se utilizará para cuestiones de propiedad intelectual, pero también puede significar que las herramientas puedan olvidar lo que han aprendido de conjuntos de datos de baja calidad.

Podemos alimentar a la IA con más datos sin ser demasiado selectivos; Estos sistemas de IA pueden luego elegir qué es más útil para aprender.

3. El reconocimiento de voz desbloquea datos disponibles en vídeos y podcasts

Hasta ahora, los datos alimentados por las herramientas de IA han consistido en gran medida en texto y, en menor medida, imágenes. Sin duda, esto cambiará, y probablemente ya lo haya hecho, porque el software de reconocimiento de voz significará que la abundancia de vídeos y podcasts disponibles también podrá entrenar la inteligencia artificial.

Vale la pena señalar que OpenAI desarrolló la red neuronal de código abierto para el reconocimiento automático de voz (ASR). Susurro, utilizando 680.000 horas de datos multilingües y multitarea. Luego, OpenAI introdujo más de un millón de horas de información de videos de YouTube en su modelo de lenguaje grande, GPT-4.

Este es un modelo ideal para otros sistemas de IA, que utilizan el reconocimiento de voz para transcribir vídeo y audio de muchas fuentes y ejecutan esos datos a través de sus propios modelos de IA.

de acuerdo a Statista, cada minuto se suben a YouTube más de 500 horas de vídeo, una cifra que se ha mantenido bastante constante desde 2019. Y eso sin mencionar otras plataformas de vídeo y audio como Dailymotion y Podbean. Si la IA puede centrar su atención en nuevos conjuntos de datos como estos, todavía quedará una enorme cantidad de información por extraer.

4. La IA se ha apegado en gran medida al idioma inglés.

Eso no es todo lo que podemos aprender de Whisper. OpenAI entrenó el modelo utilizando 117000 horas de datos de audio en idiomas distintos del inglés. Esto es especialmente interesante porque muchos sistemas de IA se han entrenado principalmente utilizando el idioma inglés o viendo otras culturas a través de una lente occidental.

En esencia, la mayoría de las herramientas están sujetas a la cultura de sus creadores.

Tomemos ChatGPT como ejemplo. Poco después de su lanzamiento en 2022,... Jill Walker Rettberg, profesor de cultura digital en la Universidad de Bergen, Noruega, experimentó con ChatGPT y concluyó lo siguiente:

“ChatGPT no sabe mucho sobre la cultura noruega. O mejor dicho, se supone que todo lo que sabe sobre la cultura noruega lo aprendió principalmente de fuentes inglesas… ChatGPT es claramente compatible con los valores y las leyes estadounidenses. En muchos casos estos valores se aproximan a los valores noruegos y europeos, pero no siempre es así.

Por lo tanto, los sistemas de IA podrían desarrollarse para que más personas multinacionales interactúen con ellos, o utilizar idiomas y culturas más diversas para entrenar dichos sistemas. Actualmente, muchos modelos de IA están limitados a una única biblioteca; Podría crecer si se le dieran las llaves de las bibliotecas de todo el mundo.

5. Las editoriales pueden ayudar a desarrollar la inteligencia artificial.

La propiedad intelectual es obviamente un gran problema, pero algunos editores pueden ayudar a avanzar en la IA celebrando acuerdos de licencia. Esto significa proporcionar a las herramientas datos de alta calidad, es decir, fiables, extraídos de libros, en lugar de información de baja calidad procedente de fuentes en línea.

De hecho, se dice que Meta, propietaria de Facebook, Instagram y Whatsapp, ha considerado comprar Simon & Schuster, una de las editoriales de las “Cinco Grandes”. La idea era utilizar la literatura publicada por la empresa para entrenar la IA de Meta. El acuerdo finalmente fracasó, quizás debido a la zona gris ética de la empresa que procesa IP sin el consentimiento previo de los escritores.

Otra opción que se está considerando parece ser la compra de derechos de licencia individuales para nuevos títulos. Esto debería provocar preocupaciones importantes para los creadores, pero seguirá siendo una forma interesante de desarrollar herramientas de IA si nos quedamos sin datos utilizables.

6. Los datos sintéticos son el futuro

Todas las demás soluciones aún son limitadas, pero hay una opción que podría hacer que la IA prospere en el futuro: los datos sintéticos. El asunto ya se está investigando como una posibilidad muy real.

Entonces, ¿qué son los datos sintéticos? Son datos generados por inteligencia artificial; Así como los humanos crean datos, este método hará que la IA cree datos con fines de entrenamiento.

De hecho, la IA puede crear vídeos deepfake convincentes. Este video deepfake se puede enviar a la IA para que pueda aprender de lo que es esencialmente un escenario ficticio. Después de todo, esta es una de las principales formas en que los humanos aprendemos: leemos o miramos algo para comprender el mundo que nos rodea.

Es probable que los sistemas de inteligencia artificial ya hayan consumido información artificial. Los deepfakes han difundido información engañosa y falsa en línea, por lo que cuando los sistemas de inteligencia artificial escanean contenido en línea, es lógico que algunas personas hayan estado expuestas a contenido falso.

Sí, hay un lado siniestro en esto. También puede dañar o limitar los sistemas de IA, reforzando y propagando los errores cometidos por esas herramientas. Las empresas están trabajando para eliminar el problema; Sin embargo, la frase “las IA aprenden unas de otras y cometen errores” es un punto clave en la trama de muchos escenarios de pesadilla de ciencia ficción.

7. Hacer un mejor uso de la inteligencia artificial

Las herramientas de inteligencia artificial son controvertidas. Tiene muchas desventajas, pero los críticos ignoran sus beneficios. Por ejemplo, Red de Auditoría y Consultoría PwC [PDF] La inteligencia artificial podría aportar hasta 15.7 billones de dólares a la economía mundial para 2030.

Además, la IA ya se utiliza en todo el mundo. Probablemente lo hayas usado hoy de una forma u otra, quizás sin siquiera darte cuenta. Ahora que el genio está fuera de la botella, la clave es definitivamente entrenarlo con datos confiables y de alta calidad para que podamos aprovecharlos adecuadamente.

La inteligencia artificial tiene sus pros y sus contras. Definitivamente hay que encontrar un equilibrio.

Las herramientas de IA enfrentan un desafío cada vez mayor debido a la falta de datos de entrenamiento disponibles, lo que amenaza con socavar su progreso y desarrollo. Para superar este desafío, se están adoptando soluciones innovadoras como el uso de datos sintéticos, el aprovechamiento del aprendizaje no supervisado y el fomento de la colaboración entre instituciones para compartir datos. Estas soluciones ayudan a proporcionar nuevas fuentes de datos, garantizando que los modelos inteligentes continúen mejorándose y desarrollándose de manera eficiente y eficaz.