Por Karen Hao y Ana Milutinovic
Ya existen empresas que crean datos sintéticos para entrenar modelos de aprendizaje profundo y así evitar las dificultades para obtener datos reales. Por el momento hay pocas pruebas de que este tipo de datos reduzcan los tan criticados sesgos.
Se puede notar un poco de barba incipiente encima de su labio superior, las arrugas en su frente, las manchas en su piel. No es una persona real, sino que está diseñada para imitar a una, al igual que cientos de miles más que crea la empresa Datagen, que vende imágenes de seres humanos falsos y simulados.
Estos humanos no son avatares de juegos ni personajes animados para películas. Son datos sintéticos diseñados para alimentar el creciente apetito de los algoritmos de aprendizaje profundo. Las empresas como Datagen ofrecen una alternativa convincente al costoso y lento proceso de recopilación de datos del mundo real. Lo crearán cómo y cuándo lo desee y por un precio relativamente asequible.
Para generar sus humanos sintéticos, Datagen primero escanea a los humanos reales. Se asocia con los proveedores que pagan a las personas para que entren en escáneres gigantes de cuerpo completo que capturan cada detalle, desde el iris hasta la textura de la piel y la curvatura de los dedos. Luego, la start-up toma esos datos sin procesar y los introduce a una serie de algoritmos, que desarrollan las representaciones en 3D del cuerpo, la cara, los ojos y las manos de una persona.
La empresa, que tiene su sede en Israel, asegura que ya trabaja con cuatro grandes gigantes tecnológicos de EE. UU., aunque no quiere revelar oficialmente cuáles son. Su mayor rival, Synthesis AI, también ofrece a humanos digitales bajo demanda. Otras empresas generan datos para su uso en finanzas, seguros y atención médica. Hay casi tantas empresas de datos sintéticos como los tipos de datos.
Antes se valoraban menos que los datos reales, pero actualmente algunos ven los datos sintéticos como una panacea. Los datos reales son confusos y están plagados de sesgo. Las nuevas regulaciones de privacidad de datos dificultan su recopilación. En cambio, los sintéticos son impecables y se pueden usar para construir conjuntos más diversos. Se pueden generar rostros perfectamente etiquetados, por ejemplo, de diferentes edades, formas y etnias para construir un sistema de detección de rostros que funcione en todas las poblaciones.
Pero los datos sintéticos tienen sus limitaciones. Si no reflejan la realidad, podrían terminar creando una inteligencia artificial (IA) aún peor que los datos desordenados y sesgados del mundo real, o simplemente podrían heredar los mismos problemas. La científica de datos y fundadora de la empresa de auditoría algorítmica ORCAA, Cathy O’Neil, señala: “Lo que no quiero hacer es aceptar este paradigma y decir: ‘Oh, esto resolverá tantos problemas’, porque también ignorará muchas cosas”.
Realistas, no reales
El aprendizaje profundo siempre se ha centrado en los datos. Pero, en los últimos años, la comunidad de IA ha aprendido que los datos buenos son más importantes que el big data. Incluso pequeñas cantidades de los datos correctos y claramente etiquetados pueden hacer más para mejorar el rendimiento de un sistema de inteligencia artificial que diez veces la cantidad de datos no revisados, o incluso un algoritmo más avanzado.
Eso cambia la forma en la que las empresas deberían abordar el desarrollo de sus modelos de IA, según el director ejecutivo y cofundador de Datagen, Ofir Chakon. Actualmente, empiezan adquiriendo la mayor cantidad de datos posible y luego modifican y ajustan sus algoritmos para un mejor rendimiento. En cambio, deberían hacer lo contrario: usar el mismo algoritmo mientras mejoran la composición de sus datos.
Para visualizar nuestro portafolio de cursos
ingresa dando click acá
Pero recopilar datos del mundo real para realizar este tipo de experimentación repetitiva es demasiado costoso y requiere mucho tiempo. Aquí es donde entra Datagen. Con un generador de datos sintéticos, los equipos pueden crear y probar decenas de nuevos conjuntos de datos al día para identificar cuál maximiza el rendimiento de un modelo.
Para garantizar el realismo de sus datos, Datagen ofrece a sus proveedores instrucciones detalladas sobre cuántas personas deben escanear en cada grupo de edad, rango de IMC y etnia, así como una lista establecida de acciones que deben realizar, como caminar por una sala o beber un refresco. Los proveedores envían imágenes estáticas de alta fidelidad y datos de captura de movimiento de esas acciones. Los algoritmos de Datagen luego expanden estos datos en cientos de miles de combinaciones. A veces, los datos sintetizados se vuelven a comprobar. Las caras falsas se comparan con las caras reales, por ejemplo, para ver si parecen realistas.
Actualmente, Datagen genera expresiones faciales para monitorear el estado de alerta del conductor en los coches inteligentes, los movimientos corporales para rastrear a los clientes en las tiendas sin cajeros, y el movimiento de iris y de manos para mejorar las capacidades de seguir los ojos y manos en los cascos de realidad virtual. La empresa asegura que sus datos ya se han utilizado con el fin de desarrollar sistemas de visión artificial para decenas de millones de usuarios.
No son solo los humanos sintéticos los que se fabrican en masa. Click-Ins es una start-up que utiliza la IA sintética para realizar inspecciones automáticas de vehículos. Usa software de diseño y recrea todas las marcas y modelos de coches que su IA debería reconocer, y luego los representa con diferentes colores, daños y deformaciones bajo distintas condiciones de iluminación, con variación de fondos. Esto le permite a la empresa actualizar su IA cuando los fabricantes de coches lanzan nuevos modelos y le ayuda a evitar violaciones de la privacidad de los datos en los países donde las matrículas se consideran información privada y, por lo tanto, no pueden aparecer en las fotos utilizadas para entrenar a la IA.
Most.ai trabaja con compañías financieras, de telecomunicaciones y de seguros para proporcionar hojas de cálculo de datos de clientes falsos que permiten a las empresas compartir su base de datos de compradores con sus proveedores externos de manera legal. La anonimización puede reducir la riqueza de un conjunto de datos y aun así no proteger adecuadamente la privacidad de las personas. Pero los datos sintéticos se pueden utilizar para generar conjuntos falsos detallados que comparten las mismas propiedades estadísticas que los datos reales de una empresa, y también para simular los que la empresa aún no tiene, como un grupo más diverso de clientes o escenarios como la actividad fraudulenta.
Los defensores de los datos sintéticos afirman que también pueden ayudar a evaluar la IA. En un artículo recientemente publicado en una conferencia de IA, la profesora asociada de aprendizaje automático y atención médica de la Universidad Johns Hopkins (EE. UU.), Suchi Saria, y sus coautores demostraron cómo las técnicas de generación de datos se podrían usar para extrapolar diferentes grupos de pacientes a partir de un solo conjunto. Esto podría ser útil si, por ejemplo, una empresa solo tuviera datos de la población más joven de la ciudad de Nueva York (EE. UU.), pero quisiera comprender cómo funciona su IA en una población madura con una mayor prevalencia de diabetes. Saria ha lanzado su propia empresa, Bayesian Health, que utilizará esta técnica para ayudar a probar los sistemas médicos de IA.
Los límites de lo falso
Pero ¿acaso se sobrevaloran los datos sintéticos? En lo que respecta a la privacidad, “el que los datos sean ‘sintéticos’ y no se correspondan directamente con los datos reales del usuario no significa que no contengan información confidencial sobre personas reales”, resalta el profesor de informática y ciencias de la información de la Universidad de Pensilvania (EE. UU.) Aaron Roth. Se ha demostrado que algunas técnicas de generación de datos reproducen bastante bien las imágenes o el texto que se encuentran en los datos de entrenamiento, por ejemplo, mientras que otras son vulnerables a ataques que los hacen reproducir por completo esos datos.
Esto podría estar bien para una empresa como Datagen, cuyos datos sintéticos no están pensados para ocultar la identidad de las personas que dieron su consentimiento para ser escaneadas. Pero sería una mala noticia para las empresas que ofrecen su solución como una forma de proteger la información confidencial financiera o de los pacientes, por ejemplo.
La investigación sugiere que la combinación de dos técnicas de datos sintéticos en concreto —la privacidad diferencial y las redes generativas antagónicas— puede producir las protecciones de privacidad más sólidas, según la científica de datos del Instituto de eScience de la Universidad de Washington (EE.UU.) Bernease Herman. Pero a los escépticos les preocupa que este matiz pueda perderse en la jerga de marketing de los proveedores de datos sintéticos, que no siempre quieren hablar sobre las técnicas que utilizan.
Mientras tanto, hay poca evidencia de que los datos sintéticos puedan mitigar el sesgo de los sistemas de IA. Por un lado, extrapolar nuevos datos de un conjunto existente y sesgado no produce necesariamente más representatividad. Los datos sin procesar de Datagen, por ejemplo, contienen proporcionalmente menos minorías étnicas, lo que significa que utiliza menos puntos de datos reales para generar humanos falsos a partir de esos grupos. Si bien el proceso de generación no es del todo una aproximación, es más probable que esos humanos falsos se desvíen de la realidad. “Si sus rostros de tono de piel más oscuro no son muy buenas representaciones de rostros, entonces no se está resolviendo el problema”, opina O’Neil.
Por otro lado, los conjuntos de datos perfectamente equilibrados no se traducen automáticamente en sistemas de IA perfectamente justos, asegura el profesor asociado de informática de la Universidad Northeastern (EE.UU.) Christo Wilson. Si un prestamista de tarjetas de crédito estuviera intentando desarrollar un algoritmo de inteligencia artificial para calificar a los posibles prestatarios, no eliminaría toda la discriminación posible simplemente representando a personas blancas y negras en sus datos. La discriminación aún podría infiltrarse a través de las diferencias entre los solicitantes blancos y negros.
Para complicar aún más las cosas, las primeras investigaciones muestran que, en algunos casos, puede que ni siquiera sea posible lograr una IA privada y justa con los datos sintéticos. En un artículo reciente publicado en una conferencia de IA, los investigadores de la Universidad de Toronto y el Vector Institute (ambos en Canadá) intentaron conseguirlo con radiografías de tórax. Descubrieron que no podían crear un sistema preciso de inteligencia artificial médica cuando intentaron generar un conjunto diverso de datos sintéticos mediante la combinación de la privacidad diferencial y las redes generativas antagónicas.
Nada de esto significa que no se deben utilizar los datos sintéticos. De hecho, eso se podría convertir en una necesidad. A medida que los reguladores se enfrentan más a la obligación de probar los sistemas de inteligencia artificial para el cumplimiento legal, podría ser el único enfoque que les brinde la flexibilidad necesaria para generar datos de prueba específicos y bajo demanda, destaca O’Neil. Pero eso hace que sea aún más importante estudiar y responder cuanto antes a las preguntas sobre sus limitaciones. “Es probable que los datos sintéticos mejoren con el tiempo”, concluye, “pero no por casualidad”.