Artificial generation of survey data on the expected bitterness of beer

África Ruiz-Gándara, Vicente Casales-García, Luis González-Abril

Palabras clave: GAN, Survey, ANOVA

En la actualidad, nos encontramos ante un continuo avance tecnológico, que obliga a grandes cambios sociales. Ante esta nueva estructura social, los datos masivos cobran un interés especial. Sin embargo, estos volúmenes de datos han sobrepasado la capacidad humana de recolectar, almacenar y analizar, es por ello, que, para desempeñar estas tareas, el hombre necesita de herramientas adecuadas como son la estadística, la inteligencia artificial y el machine learning. Es en 2014 cuando Goodfellow et al, presentan una novedosa y potente herramienta las GANs (Generative Adversarial Netwoks), consiste en un modelo generativo, lo que significa que es capaz de generar y/o producir contenido nuevo. No imita, ni replica. Se inspiran en la teoría de juegos concretamente de los juegos no cooperativos de suma cero donde dos partes opuestas entre sí, compiten en un juego minimax, cuyo objetivo es encontrar el equilibrio de Nash.

 

La arquitectura GAN está formada por dos redes neuronales: Discriminador (D) y Generador (G), donde G se encarga de generar nuevas instancias del mismo dominio del conjunto de datos de origen y D se encarga de discriminar si los datos son reales o ficticios. Ambas se entrenan de manera conjunta de forma que G maximice sus posibilidades de no ser detectada por D y de forma que haga cada vez más sofisticados sus métodos de detección.  El propósito del generador es generar datos sintéticos que sean indistinguibles de los datos reales para el discriminador. La importancia de las redes generativas antagónicas (GAN) en economía es creciente, impulsada por los éxitos en otros campos donde su aplicación está más extendida. Muchos problemas económicos podrían beneficiarse de las GAN, aunque existen pocos estudios y se necesita avanzar. Este artículo aboga por el uso de las GAN como una herramienta novedosa y eficaz en economía. Un aspecto importante es la necesidad de grandes conjuntos de datos, donde las técnicas tradicionales resultan insuficientes debido a la multiplicidad de problemas, lo que hace que el uso de las GAN sea muy útil en esta tarea. La necesidad de disponer de un gran volumen de datos puede verse afectado por diversos motivos; datos restringidos, desbalanceo de clases o datos limitados, problemas todos, que comprometerían cualquier estudio estadístico que se quiera desarrollar. Estos problemas, pueden resolverse a través del uso de las GANs, adaptando su estructura a cada situación concreta.

 

La recolecta de datos a través de encuestas presentan un grave problema dado que en muchas ocasiones su tamaño es insuficiente, lo que implica que el proceso de inferencia es inadecuado para llevar a cabo la generalización a la población. En este trabajo se considera una encuesta con 195 participantes y 42 variables medidas en escala Likert de 7 puntos sobre el amargor esperado en la cerveza en función de la forma del vaso y el color de la cerveza. Para aumentar el tamaño de la encuesta se utiliza una GAN generando más de tres mil datos sintéticos, y se presenta un estudio de validación de la citada herramienta. Para evaluar la calidad de los datos sintéticos, se proporciona un índice de la bondad de ajuste de los datos sintéticos en relación con los datos reales utilizando los valores 𝑝 de la prueba de Kolmogorov-Smirnov. También se lleva a cabo un análisis comparativo con una herramienta estadística de generación de datos, y el índice propuesto junto con la prueba ANOVA que compara el conjunto real frente al conjunto sintético. Hay que tener en cuenta que, aunque las GANs se basan en el aprendizaje profundo donde normalmente se requiere un gran conjunto de datos para llevar a cabo una implementación, este trabajo proporciona resultados muy prometedores con sólo un pequeño conjunto de datos.

 

Los resultados de este estudio, basado en una encuesta, respaldan el uso de GAN para aumentar el tamaño de la muestra y, por tanto, mejorar la solidez de los procesos de inferencia estadística posteriores. Los datos generados han mantenido con éxito la estructura y el comportamiento estadístico de los datos originales, lo que demuestra la eficacia del uso de las GAN en este ámbito. Además, un aspecto importante en la generación de datos de encuestas es la privacidad. Dado que los datos se generan artificialmente, no existe ningún problema de privacidad y, por tanto, la información sensible queda protegida.

Ruiz-Gándara, A., Casales-García, V., & González-Abril, L. (2025). Artificial generation of survey data on the expected bitterness of beer. Expert Systems with Applications, 275, 126950. https://doi.org/10.1016/J.ESWA.2025.126950