Visión IA

Tantos problemas de salud se sufre desde que comenzamos a vivir, que es difícil encontrar a una persona que no sufra de alguna enfermedad. La falta de visión es una de las enfermedades que mas padecen las personas en los últimos 20 años. Nuestra visión puede mejorar gracias a la tecnología y la Inteligencia Artificial (IA) para tener oportunidad de vencer estos problemas en algunos casos.

Antes de que un modelo de aprendizaje automático pueda completar una tarea, como la identificación de cáncer en imágenes médicas, el modelo debe ser entrenado. El entrenamiento de los modelos de clasificación de imágenes suele consistir en mostrar al modelo millones de imágenes de ejemplo reunidas en un conjunto de datos masivo. Un trabajo que las computadoras hacen sin quejarse.

Sin embargo, el uso de datos de imágenes reales puede plantear problemas prácticos y éticos: Las imágenes podrían infringir las leyes de derechos de autor, violar la privacidad de las personas o estar sesgadas contra un determinado grupo racial o étnico.

Para evitar estos problemas, los investigadores suelen utilizar programas de generación de imágenes para crear datos sintéticos para el entrenamiento del modelo. Pero estas técnicas son limitadas porque a menudo se necesita el conocimiento de un experto para diseñar a mano un programa de generación de imágenes que puedan crear datos de entrenamiento eficaces.

Investigadores del MIT, el laboratorio de IA del MIT-IBM Watson y otros organismos adoptaron un enfoque muy diferente. En lugar de diseñar programas de generación de imágenes personalizados para una tarea de entrenamiento concreta, reunieron un conjunto de datos de 21.000 programas disponibles públicamente en Internet. Luego, utilizaron esta gran colección de programas básicos de generación de imágenes para entrenar un modelo de visión por computador.

Estos maravillosos pero públicos programas en la red producen diversas imágenes que muestran colores y texturas simples. Los investigadores no seleccionaron ni modificaron los programas, cada uno de los cuales constaba de unas pocas líneas de código. Es un punto interesante.

Leer  Modelos IA Matemáticos - ¿Son confiables?

Los modelos que entrenaron con este gran conjunto de datos de programas clasificaron las imágenes con más precisión que otros modelos entrenados sintéticamente. Y, aunque sus modelos obtuvieron resultados inferiores a los entrenados con datos reales, los investigadores demostraron que al aumentar el número de programas de imágenes en el conjunto de datos también se incrementaba el rendimiento del modelo, lo que revelaba un camino para alcanzar una mayor precisión.

“Resulta que utilizar muchos programas sin curar es en realidad mejor que utilizar un pequeño conjunto de programas que la gente necesita manipular. Los datos son importantes, pero hemos demostrado que se puede llegar muy lejos sin datos reales”

afirma Manel Baradad, estudiante de postgrado de Ingeniería Eléctrica e Informática (EECS) que trabaja en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y autor principal del artículo que describe esta técnica.

Entre los coautores se encuentran Tongzhou Wang, estudiante de posgrado de EECS en el CSAIL; Rogerio Feris, científico principal y director del Laboratorio de Inteligencia Artificial del MIT-IBM Watson; Antonio Torralba, profesor de Ingeniería Eléctrica e Informática de Delta Electronics y miembro del CSAIL; y el autor principal Phillip Isola, profesor asociado del EECS y CSAIL; junto con otras personas de JPMorgan Chase Bank y Xyla, Inc. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural que comienza el próximo 28 de noviembre y culmina el 9 de diciembre.

Repensar el pre-entrenamiento

Los modelos de aprendizaje automático suelen pre-entrenarse, lo que significa que se entrenan primero en un conjunto de datos para ayudarles a crear parámetros que puedan utilizarse para abordar una tarea diferente. Un modelo para clasificar radiografías puede pre-entrenarse con un enorme conjunto de datos de imágenes generadas sintéticamente antes de entrenarlo para su tarea real con un conjunto de datos mucho más pequeño de radiografías reales.

Estos investigadores demostraron anteriormente que podían utilizar un puñado de programas de generación de imágenes para crear datos sintéticos para el pre-entrenamiento del modelo, pero los programas debían diseñarse cuidadosamente para que las imágenes sintéticas coincidieran con ciertas propiedades de las imágenes reales. Esto hacía que la técnica fuera difícil de ampliar.

En el nuevo trabajo, utilizaron un enorme conjunto de datos de programas de generación de imágenes sin curar.

Empezaron por reunir una colección de 21.000 programas de generación de imágenes de Internet. Todos los programas están escritos en un lenguaje de programación sencillo y constan de unos pocos fragmentos de código, por lo que generan imágenes rápidamente.

“Estos programas han sido diseñados por desarrolladores de todo el mundo para producir imágenes que tienen algunas de las propiedades que nos interesan. Producen imágenes que parecen arte abstracto”.

explica Baradad

Estos sencillos programas pueden ejecutarse tan rápidamente que los investigadores no necesitaron producir imágenes de antemano para entrenar el modelo. Los investigadores descubrieron que podían generar imágenes y entrenar el modelo simultáneamente, lo que agiliza el proceso.

Utilizaron su enorme conjunto de datos de programas de generación de imágenes para pre-entrenar modelos de visión por ordenador para tareas de clasificación de imágenes supervisadas y no supervisadas. En el aprendizaje supervisado, los datos de las imágenes están etiquetados, mientras que en el aprendizaje no supervisado el modelo aprende a clasificar las imágenes sin etiquetas.

Mejora de la precisión

Cuando compararon sus modelos pre-entrenados con los modelos de visión por ordenador más avanzados que habían sido pre-entrenados con datos sintéticos, sus modelos eran más precisos, es decir, clasificaban las imágenes en las categorías correctas con más frecuencia. Aunque los niveles de precisión seguían siendo inferiores a los de los modelos entrenados con datos reales, su técnica redujo en un 38% la diferencia de rendimiento entre los modelos entrenados con datos reales y los entrenados con datos sintéticos.

“Es importante destacar que demostramos que, para el número de programas que se recogen, el rendimiento escala logarítmicamente. No saturamos el rendimiento, de modo que si recogemos más programas, el modelo funcionará aún mejor. Por tanto, hay una forma de ampliar nuestro enfoque”,

afirma Manel.

Los investigadores también utilizaron cada programa individual de generación de imágenes para el pre-entrenamiento, en un esfuerzo por descubrir los factores que contribuyen a la precisión del modelo. Descubrieron que cuando un programa genera un conjunto de imágenes más diverso, el modelo rinde más. También descubrieron que las imágenes coloridas con escenas que llenan todo el lienzo son las que más mejoran el rendimiento del modelo.

Ahora que han demostrado el éxito de este enfoque de pre-entrenamiento, los investigadores quieren ampliar su técnica a otros tipos de datos, como los multimodales que incluyen texto e imágenes. También quieren seguir explorando formas de mejorar el rendimiento de la clasificación de imágenes.

“Todavía hay una brecha que cerrar con modelos entrenados con datos reales. Esto da a nuestra investigación una dirección que esperamos que otros sigan”

afirman

Referencia

Researchers used a large collection of simple, un-curated synthetic image generation programs to pretrain a computer vision model

Por Hilmer Palomares

Cinéfilo, Informático y enamorado de los viajes. Además, de programador de computadoras, ingeniero de sistemas y profesor universitario.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto: