Resumen: Los productos alimenticios inducen reacciones psicológicas y fisiológicas en los consumidores que influencian sus preferencias y decisiones de compra. En particular, las reacciones fisiológicas hacia los alimentos han cobrado reciente interés en el campo de estudio del comportamiento del consumidor. Para incrementar las oportunidades de éxito en el mercado, las evaluaciones preventa de los productos alimenticios deben incorporar las respuestas fisiológicas de los consumidores. Este artículo presenta un sistema novedoso de análisis sensorial que comprende la medición de diversos parámetros fisiológicos como el reconocimiento de emociones faciales, la respuesta galvánica de la piel y la frecuencia cardiaca o pulso. La fusión de datos y su análisis con métodos de aprendizaje automático permiten predecir la aceptación de los alimentos por parte de los consumidores. Experimentos realizados con un gran número de participantes (120) sugieren que las expresiones faciales por sí solas no son suficientes para determinar la aceptación del consumidor. Sin embargo, cuando se considera también la respuesta galvánica de la piel y el pulso, la predicción de la aceptación mejora significativamente. Este trabajo tiene como objetivo contribuir al entendimiento de las reacciones fisiológicas humanas cuando se interactúa con alimentos y pretende aplicar este conocimiento en la industria de alimentos.
Palabras-clave: Aprendizaje automático; fusión de datos; industria de alimentos; mediciones fisiológicas; redes neuronales convolucionales.
Abstract: Food products elicit both psychological and physiological reactions in consumers that influence their liking and buying decisions. In particular, the physiological reactions toward food products have recently become of interest to better understand consumer behavior. To increase the chances of success in the market, pre-sale food product assessments must incorporate the consumers' physiological responses. This paper presents a novel sensory analysis system encompassing the measurement of several physiological parameters such as facial emotion recognition, galvanic skin response (GSR), and heart rate or pulse. Data fusion and machine learning methods allow predicting consumer acceptance of food samples. Experiments conducted with a large cohort of participants (120) suggest that facial expressions alone are not sufficient to determine consumer acceptance. However, when GSR and pulse signals are also considered, acceptance prediction is significantly improved. This work aims to contribute to the understanding of the human physiological reactions when interacting with food and to apply this knowledge to the food industry.
Keywords: Convolutional neural networks; data fusion; food industry; machine learning; physiological measurements.
(ProQuest: ... denotes formulae omitted.)
1.Introducción
Las respuestas de los consumidores y sus decisiones de compra son siempre inciertas y cambiantes. Aun así, existe consenso en afirmar que el comportamiento del consumidor tiene componentes tanto psicológicos como fisiológicos y ambos impactan en las decisiones de compra (Bredie et al., 2014).
Dentro de la gran variedad de aspectos psicológicos que afectan el comportamiento del consumidor se encuentran la respuesta afectiva o los sentimientos que un producto induce en quien lo compra: exclusividad, orgullo asociado con un estatus social, entusiasmo, confianza, etc. La respuesta social o el modo en que los diversos grupos sociales (familia, amigos y sociedad en general) influyen en la conducta y determinan la elección de compra, también forma parte de los aspectos psicológicos del consumidor.
Recientemente las reacciones fisiológicas provocadas por un producto han cobrado interés dentro del campo de estudio de comportamiento del consumidor. Se han realizado varios intentos de medir con precisión las reacciones fisiológicas con el fin de predecir el desempeño de un producto en el mercado: ritmo cardiaco, temperatura corporal, respuesta galvánica de la piel (GSR por sus siglas en inglés), electroencefalografía (EEG), atención visual y expresiones faciales. Por ahora, todas ellas se consideran pistas potenciales a seguir para determinar la preferencia del consumidor hacia un producto.
En particular el entendimiento de las reacciones fisiológicas suscitadas por productos alimenticios es una disciplina nueva y los algoritmos necesarios para interpretar correctamente dichas reacciones todavía están en proceso de desarrollo.
En este contexto, (Viejo et al., 2019) examinaron el EEG, el ritmo cardiaco, la temperatura y las expresiones faciales de consumidores de cerveza. (Leitch et al., 2015) midieron la respuesta producida por endulzantes de té a través de cuestionarios sensoriales y expresiones faciales. (Danner et al., 2014) reportaron los cambios en el nivel de conductancia epidérmica, temperatura de la piel, ritmo cardiaco y expresiones faciales de personas mientras probaban distintas muestras de jugo. De manera similar, otros autores han llevado a cabo estudios con jamón ahumado (Kostyra, 2016) y soluciones amargas (Crist et al., 2018). Una característica común entre los proyectos mencionados es que todos emplean el FaceReader (Noldus, 2020), un software para reconocimiento de emociones faciales (REF) comercialmente disponible y de propósito general.
El REF ha ido cobrando interés en el campo del análisis sensorial. Dentro de su estudio, se pueden identificar dos enfoques: el modelo continuo y el modelo categórico. Mientras que el primero postula un amplio espectro de emociones diferentes, el segundo se aboca a un conjunto discreto de emociones básicas.
En particular, el modelo categórico propuesto por Paul Ekman en (Ekman & Friesen, 1971), sigue siendo el más utilizado. A través de un entrenamiento especializado, el método de Ekman permite identificar emociones mediante el análisis de la activación de los músculos faciales. Muchos trabajos de investigación se han enfocado a diseñar algoritmos computacionales capaces de automatizar el método de Ekman. Las redes neuronales convolucionales (CNNs por sus siglas en inglés) han obtenido buenos resultados en aplicaciones de REF.
Dentro de los diferentes trabajos basados en CNNs para REF están los de (Zhao et al., 2018) quienes implementaron una CNN de arquitectura tridimensional para aprender rasgos de imágenes faciales. (Li et al., 2018) utilizaron un mecanismo de atención en CNNs para clasificar expresiones faciales aún en rostros parcialmente ocultos enfocándose en diferentes regiones de una imagen facial y ponderándolas de acuerdo con el nivel de oclusión que presentan. (Liong et al., 2019) diseñaron una CNN tridimensional capaz de extraer características de alto nivel, así como micro expresiones.
En cuanto al análisis sensorial, se pueden distinguir dos tipos de análisis: los explícitos y los implícitos.
Los análisis explícitos se basan en cuestionarios que utilizan términos descriptivos verbales y no verbales. Dichos análisis presentan algunas ventajas: son fáciles de entender por parte del consumidor y su interpretación es relativamente rápida. Entre sus inconvenientes se encuentran el hecho de que suelen tener un sesgo cognitivo y el no registrar la experiencia del consumidor en el preciso momento en que se prueba el producto. Por otro lado, los métodos implícitos miden el REF y otros cambios fisiológicos como ritmo cardiaco, conductancia de la piel, temperatura y dilatación de la pupila, entre otros, así como respuestas del sistema nervioso autónomo (Mahieu et al., 2019), (Samant & Seo, 2019).
A pesar de que comúnmente se acepta que la percepción de sabores básicos está vinculada a movimientos faciales específicos (por ejemplo; los labios reaccionan a la acidez, los ojos y la frente al sabor amargo), muchas variables distintas pueden afectar las expresiones faciales y las reacciones fisiológicas: qué tanta hambre tiene el consumidor, el tipo de comida que prueba y el tiempo transcurrido desde el inicio de la prueba. Incluso en pruebas de duración tan corta como 10 s, un consumidor puede mostrar varias expresiones faciales distintas (He et al., 2017). Más aún, los cambios en la expresión facial resultan más difíciles de determinar cuándo se prueban productos alimenticios, en comparación con oler un perfume o ver un video (Mahieu et al., 2019), dado que los movimientos de la mandíbula al masticar y las obstrucciones visuales del rostro cuando la mano lleva la comida a la boca, son frecuentemente causa de lecturas incorrectas en los algoritmos de REF. Éstas pueden ser algunas de las razones por las que estudios similares no parecen ofrecer resultados concluyentes (Viejo et al., 2019), (Le Goff & Delarue, 2017).
El presente trabajo busca contribuir a este campo proponiendo una predicción más confiable de la aceptación del consumidor por medio de CNNs y otros algoritmos de aprendizaje automático que sean capaces de interpretar expresiones faciales y encontrar posibles correlaciones entre las mediciones de sensores biométricos, el análisis facial y las preferencias reportadas por el consumidor.
El resto del documento está organizado de la siguiente manera: La Sección 2 describe los materiales y métodos utilizados para la implementación del prototipo de sistema de evaluación sensorial. La Sección 3 presenta los resultados obtenidos. La Sección 4 plantea la discusión de dichos resultados. Finalmente, la Sección 5 concluye resumiendo las principales contribuciones del artículo y plantea las perspectivas de trabajo futuro.
2.Materiales y métodos
2.1.Descripción de muestras
Para los experimentos, se utilizaron los siguientes ingredientes y porcentajes para preparar gomas de cinco sabores diferentes: glucosa (36.5%), azúcar (33.21%), agua (23.38%), gelatina sin sabor (5.3%), ácido cítrico (1.28%), sabor (0.3%) y color rojo (0.03%). Para dos sabores (almeja y queso), se sustituyó el azúcar por maltodextrina.
El procedimiento de elaboración de las gomas se describe a continuación y puede apreciarse en la Figura 1:
1. Se disuelve gelatina sin sabor en agua (10.6 g/L) por 30 min.
2. Se mezcla azúcar y agua (11.5 g/L) y se calienta a 70 °C. Se añade glucosa y se incrementa la temperatura hasta 100 °C.
3. A 100 °C, se añade la solución de gelatina, color y sabor a la mezcla, así como el ácido cítrico diluido (1.28 g/L).
4. Finalmente, se moldea la mezcla en una cama de almidón y se deja reposar por 18 h.
Para evitar que se pudiera adivinar el sabor de las gomas, se procuró que todas presentaran un aspecto similar (ver Figura 1a.6). Las gomas liberaban su sabor al tiempo que se probaban, de este modo la expresión facial podía registrarse en el momento preciso.
Los sabores fueron seleccionados para ofrecer cinco estímulos sensoriales distintos. Se utilizaron tres sabores normalmente considerados agradables: menta, piña, fresa y otros dos considerados desagradables: almeja y queso Gouda.
Adicionalmente, se preparó un conjunto de muestras de olor mojando trozos de algodón en diferentes soluciones y colocándolos dentro de contenedores de plástico sellados. Los participantes utilizaban un palillo de madera para llevar la sustancia hasta su nariz (Figura 1b). Los olores empleados fueron: piña, menta, vinagre, queso Gouda y humo.
2.2.Participantes y plataforma experimental
Un grupo de 120 estudiantes, profesores y administrativos de la Universidad Panamericana (México) accedieron participar voluntariamente en los experimentos. El rango de edades del grupo es amplio: entre 19 y 55 años. Ningún participante manifestó presentar algún padecimiento o disminución (conocida) en sus sentidos del gusto y el olfato.
Los experimentos se llevaron a cabo en el Laboratorio Sensorial de la Escuela de Negocios Gastronómicos de la universidad equipado con una cabina de iluminación controlada. En la cabina se contaba con un dispositivo Kinect, el cual registraba imágenes frontales del rostro de los participantes. Durante la prueba, un sensor Neulog NUL-217 se colocó en los dedos medio y anular del participante. A la vez, un Neulog NUL-208 se colocó en el dedo índice, para medir la respuesta galvánica de la piel (GSR) y el pulso, respectivamente (ver Figura 2).
Un pequeño semáforo indicaba al participante en qué momento debía probar la muestra. Esto permitió una mejor sincronización entre el inicio de la grabación y las reacciones del usuario. Se solicitó a todos los participantes probar la muestra en el momento señalado por el semáforo mientras eran grabados por el Kinect. Después de cada prueba, los participantes tomaron agua y galletas saladas para neutralizar los sabores. Finalmente, se pidió a cada participante responder un cuestionario sensorial por escrito.
2.3.Cuestionario
Se diseñó un cuestionario con una escala hedónica de siete puntos para evaluar cada una de las cinco muestras de olor y de sabor. Este tipo de cuestionarios se utilizan comúnmente en ciencia sensorial para estimar la aceptación de distintos tipos de productos alimenticios. Los resultados de los cuestionarios fueron comparados con aquellos obtenidos de la evaluación de expresiones faciales utilizando métodos de aprendizaje automático.
2.4.Arquitectura del sistema
La Figura 3 muestra la arquitectura del sistema y sus módulos principales. El sistema propuesto utiliza tres entradas: imágenes faciales, señal de GSR y señal de pulso. Como se mencionó anteriormente, las imágenes faciales se capturan con el Kinect, mientras que las señales biométricas con los sensores Neulog.
Una red neuronal convolucional (CNN) previamente entrenada analiza las imágenes faciales para determinar las emociones del consumidor. Las emociones detectadas, junto con las señales de GSR y de pulso siguen un proceso de fusión de datos basado en herramientas estadísticas. El resultado se alimenta a un modelo de aprendizaje automático encargado de predecir la aceptación del consumidor.
El modelo de aprendizaje automático está basado en el método de clasificación por bosques aleatorios (Random Forest). Las escalas hedónicas reportadas por el consumidor a través de los cuestionarios y los valores resultantes de la fase de fusión de datos sirven para entrenar el modelo. Una vez terminado el entrenamiento, los cuestionarios ya no son necesarios. En este trabajo se busca eliminar su uso para predecir la aceptación del consumidor y utilizar solamente un método implícito para calibrar la aceptación de modo que se reduzca la influencia de factores externos en los resultados.
2.5. Conjunto de datos de expresiones faciales
Para entrenar y probar la red neuronal se utilizaron dos conjuntos de datos de expresiones faciales: AffectNet y CK+, respectivamente. AffectNet contiene más de 420,000 imágenes faciales clasificadas en 11 etiquetas distintas. Sin embargo, para balancear el proceso de entrenamiento, solamente se emplearon 3800 imágenes para cada una de las siguientes etiquetas: neutral, felicidad, tristeza, sorpresa, miedo, disgusto, enojo, desaprobación, ninguna e incierta. Las imágenes que no contienen rostros fueron descartadas.
Para evaluar el desempeño de la red, se seleccionó CK+ debido a que es un conjunto de datos bien conocido en el medio y comprende un menor número de imágenes.
2.6.Pre-procesamiento de imágenes
Las imágenes del conjunto de datos para entrenamiento tienen algunas características irregulares que la red neuronal no puede procesar. Por ello, fue necesario someterlas a cierto pre-procesamiento para asegurar que la red reciba solo información consistente. En concreto:
1. Se descarta la información de color, convirtiendo imágenes RGB a imágenes en escala de grises.
2. Se detectan todos los rostros en la imagen junto con sus rectángulos delimitadores correspondientes aplicando un algoritmo basado en histograma de gradientes (HoG).
3. Se localizan 68 puntos de interés en el primer rostro detectado por medio del algoritmo de Kazemi (Kazemi & Sullivan, 2014).
4. Se gira la imagen junto con los puntos de interés para hacer horizontal la línea que une los puntos 40 y 43 procurando que todas las imágenes procesadas tengan la misma alineación (ver Figura 4a).
5. Se divide la imagen facial en cuatro secciones, específicamente secciones derecha e izquierda para ojos y nariz-boca.
6. Se reflejan las secciones derechas en sentido horizontal para poder alimentar las secciones derecha e izquierda a la misma red.
7. Se ecualiza cada sección con ecualización de histograma adaptativo limitada por contraste (CLAHE).
8. Se normalizan los valores de cada píxel del rango (0,255) a (0,1).
Estas operaciones fueron realizadas por medio de las librerías Dlib y OpenCV en el lenguaje de programación Python, mientras que las correspondientes a la red neuronal se apoyan en la librería de aprendizaje profundo Keras sobre TensorFlow. Proyectos previos en aprendizaje profundo (Calabrese et al., 2020), (Pissaloux et al., 2013) han demostrado la eficiencia de las herramientas antes mencionadas.
2.7. Configuración de la red
La primera fase está compuesta por dos redes que fueron entrenadas de distinta manera pero que comparten la configuración mostrada en la Figura 4b: cada sección de la imagen (64 x 64 pixeles) alimenta a tres capas convolucionales y otra de reducción de muestreo (max-pooling). Posteriormente, otros dos bloques de filtros similares reducen la información 2D para introducirla a otras cuatro capas densas, la última de las cuales produce una clasificación parcial en una de las 10 posibles etiquetas por medio de la función de transferencia softmax. Todas las funciones de transferencia anteriores son unidades lineales rectificadas (ReLUs).
La red A produce un vector de 10 números para las secciones correspondientes al ojo izquierdo y al ojo derecho reflejado, mientras que la red B hace lo propio para las secciones correspondientes a la boca y la nariz.
2.8.Entrenamiento de la red
Un total de 40,366 caras del subconjunto seleccionado resultaron aptas para el entrenamiento. Después de reflejar las secciones derechas, se obtuvieron un total de 80,672 imágenes faciales para entrenar las redes A y B. Ambas redes fueron entrenadas durante 50 iteraciones (epochs) con un tamaño de lote de 128. Se usó el 20% del conjunto de entrenamiento para validación y un índice de deserción de 0.4 en algunas de las capas para reducir el riesgo de sobreajuste.
A continuación, las redes procesaron todas las imágenes faciales disponibles para obtener 80,672 vectores de 40 elementos, mismos que se utilizaron como conjunto de entrenamiento para la segunda fase.
2.9.Reconocimiento de emociones
Después del entrenamiento, la red fue alimentada con todas las imágenes pre-procesadas correspondientes a los 120 participantes, generando igual número de archivos CSV con las siguientes columnas: índice de la imagen, número de caras detectadas (o -1 si ninguna fue detectada), nombre del archivo y la probabilidad de clasificación para todas las etiquetas de emociones mencionadas en la Sección 2.5.
2.10.Fusión de datos
Cada experimento obtuvo información de tres fuentes distintas: (1) clasificación de las emociones de cada rostro en una de nueve expresiones faciales en el rango (0,1), (2) lecturas de GSR y (3) pulso. Como se puede apreciar en la Figura 5, las mediciones de los sensores están repartidas a lo largo de una serie temporal (medida en cuadros, a razón de 30 fps).
Para representar las mediciones obtenidas por los sensores, se utilizaron cuatro métricas estadísticas: el promedio (avr), la desviación estándar (std), el mínimo (min) y el máximo (max). En resumen, por cada experimento se obtuvieron 44 características a partir de las cuatro métricas estadísticas de nueve expresiones faciales y las señales de GSR y pulso.
2.11. Predicción de la aceptación
El sistema propuesto emplea técnicas de regresión de aprendizaje automático para predecir la aceptación que los consumidores asignaron a cada muestra. Cada participante evaluó las 10 muestras disponibles (cinco de sabor y cinco de olor).
El modelo de aprendizaje automático que se seleccionó para predecir la aceptación de los participantes fue el de bosques aleatorios. El bosque se compone de un conjunto de árboles aleatorios de decisión (30 en este caso), cada uno creado a partir de un subconjunto aleatorio de muestras y características del conjunto de entrenamiento.
Un árbol de decisión es un modelo de predicción basado en una serie de preguntas sobre los valores de las características. En un árbol de decisión, los datos se separan en un espacio multidimensional por medio de hiperplanos, mismos que se determinan a partir de las preguntas. La idea central es que las muestras con valores similares tiendan a concentrarse en la misma región. Los bosques aleatorios miden y muestran qué tanto contribuye cada característica al modelo final. Los árboles de decisión establecen criterios de selección mientras tratan de minimizar la impureza de la información en cada nodo. En este caso, la impureza se puede calcular como el error medio cuadrático (MSE) definido en la Ecuación (1):
... (1)
donde y e y son las salidas reales y estimadas, respectivamente y n es el número de muestras. Cuando se define una regla de clasificación, los datos del nodo se dividen en dos regiones. Normalmente se hacen pruebas con varias características y valores. El par característica-valor que minimiza la impureza se selecciona como regla de clasificación.
La importancia de cada característica es proporcional a la reducción de la impureza de todos los nodos relacionados con esa característica. La reducción de impureza IR en cada nodo j que representa una regla puede calcularse mediante la Ecuación (2):
... (2)
donde izq y der representan los nodos hijos del nodo j, I representa la impureza de cada nodo y los pesos w son la proporción de cada muestra en los nodos. Éstos se calculan como el número de muestras en el nodo dividido entre el total de muestras. Una vez que se conoce la reducción de impureza en todos los nodos, la importancia FIk de la característica к se calcula por medio de la ecuación (3):
... (3)
Donde Nk representa el conjunto de todos los nodos que se dividen utilizando la variable j. N representa todos los nodos en el árbol de decisión.
Con el fin de validar los resultados, se utilizó una validación cruzada de 10 iteraciones. Posteriormente se entrenó el modelo 10 veces utilizando nueve bloques para entrenamiento y uno para pruebas. El valor medio absoluto (MAE) se usó para calcular el error del modelo (Ecuación (4)):
... (4)
Los resultados finales son el promedio de todas las corridas. Se optó por presentar estos resultados con MAE en lugar de con el MSE utilizado para entrenar el modelo pues facilita la interpretación.
3.Resultados
En las Figuras 6a y 6b se presentan los resultados acumulados para las escalas hedónicas en las evaluaciones de sabor y olor, respectivamente. Las barras, centradas en cero, representan cuántos participantes calificaron cada olor o sabor. Los resultados se presentan con base en la escala de Likert que va desde -3 (el estímulo menos agradable) hasta 3 (el más agradable).
El sabor mejor calificado fue el de fresa, mientras que el de queso parece producir el mayor desagrado, ya que su calificación más común fue -3 y casi toda la barra se encuentra en el lado izquierdo de la gráfica.
El sabor de almeja también tuvo una calificación general negativa. En lo que respecta a las pruebas de olor, piña y menta tuvieron buena aceptación, al contrario de vinagre, queso Gouda y humo. En lo que se refiere a la aceptación reportada en los cuestionarios, se observa un contraste evidente entre las muestras agradables y las desagradables.
En la Figura 7 se pueden apreciar las emociones reconocidas durante las pruebas de sabor (Figura 7a) y olor (Figura 7b). Las gráficas de caja representan el valor de probabilidad promedio para cada emoción medida entre todos los participantes durante los cinco experimentos. Puede observarse que la emoción que aparece con mayor frecuencia es la tristeza seguida de disgusto.
Nuestros resultados son similares a los obtenidos en el estudio de (He et al., 2017) donde se midieron los cambios en la expresión facial para sabores iguales, similares y diferentes. He y sus colegas concluyeron que el placer de consumir un producto alimenticio disminuye rápidamente; por ello se encontró una clara prevalencia en las expresiones de tristeza y enojo. Adicionalmente, se observó que las expresiones de tristeza y disgusto pueden deberse al nerviosismo y las expectativas inciertas con las que los participantes llegan al experimento o a la concentración que ejercen para percibir los estímulos.
La Figura 8 muestra las matrices de correlación entre los resultados del REF, las respuestas de los sensores y la aceptación del consumidor en los experimentos. Los valores de las matrices representan el coeficiente de correlación absoluta de Pearson. No se encontraron correlaciones significativas entre la aceptación del consumidor y otras características. Sin embargo, las características que muestran una mayor correlación con la aceptación son las siguientes: en la Figura 8a: miedo, felicidad, disgusto, pulso y GSR; en la Figura 8b: neutral y felicidad; en la Figura 8c: GSR, felicidad y disgusto; en la Figura 8d: disgusto y neutral.
Puede verse que miedo, felicidad, disgusto, neutral, pulso y GSR son las variables que presentan mayor correlación con la aceptación del consumidor. Aun así, sus índices de correlación son muy bajos. Miedo es la expresión más difícil de reconocer con exactitud en imágenes estáticas y las expresiones de miedo son comúnmente confundidas con sorpresa tanto por humanos como por modelos automáticos de REF (Calvo & Nummenmaa, 2016).
La Tabla 1 muestra el MAE del modelo de regresión tal como se describe en la Ecuación (4), misma que predice la aceptación a partir del REF y las respuestas registradas por los sensores biométricos. La primera columna describe el tipo de datos utilizados para entrenar el bosque aleatorio. El modelo propuesto obtuvo las mejores predicciones cuando se entrenó únicamente con las mediciones de GSR. Estos resultados coinciden con los obtenidos previamente (Álvarez, 2018).
Como se mencionó en la Sección 2.11, el modelo de bosque aleatorio califica la importancia de cada característica tomada en cuenta para predecir la aceptación.
Las 10 características más importantes para cada conjunto de pruebas se muestran en la Figura 9. Las desviaciones estándar de pulso y GSR aparecen como las variables más relevantes a considerar para predecir la aceptación. El promedio de las mediciones de sorpresa resalta como la variable más importante en la columna de la izquierda. No obstante, en la columna derecha no aparece. Esto puede deberse a que el sentido del olfato suele producir emociones más intensas que el gusto.
A pesar de ello, las medidas de emoción fueron muy similares tanto en las pruebas de sabor como en las de olor (ver Figura 7). Esto indica que los sensores de pulso y GSR funcionan mejor como predictores que la misma red neuronal. En los diagramas de caja de la Figura 7 es posible observar que no fue posible encontrar variaciones relevantes entre ellas. Por esta razón, solamente fueron incluidos los valores promedio de cada emoción detectada.
4.Discusión
El reconocimiento automático de expresiones faciales (REF) no es un problema con una solución única; es necesario tomar en consideración un conjunto de variables diversas. Hasta ahora, la mejor referencia para evaluar emociones es la capacidad humana, propensa a errores de clasificación incluso habiendo recibido el entrenamiento adecuado debido a que el reconocimiento de emociones está supeditado al contexto (Calvo & Nummenmaa, 2016) y por ello está intrínsecamente ligado a la comprensión de las circunstancias en que se producen las emociones. Por añadidura, en experimentos similares al aquí presentado (Kostyra, 2016), (Le Goff & Delarue, 2017), los consumidores prácticamente no muestran expresiones faciales, incluso bajo la acción de estímulos intensos y algunos gestos asumidos como innatos raramente son observados. Tal vez esto explique por qué nuestro sistema de REF, al igual que otros similares, constantemente detecta solamente un par de emociones.
A pesar de esto, (Bredie et al., 2014) y (Crist et al., 2018) consiguieron exitosamente producir expresiones de disgusto por medio de soluciones concentradas de cafeína, ácido cítrico y cloruro de sodio. (Gunaratne et al., 2019) reporta expresiones de tristeza asociadas al chocolate salado. Esto podría apuntar en el sentido correcto para averiguar por qué el sistema de REF propuesto frecuentemente detecta tristeza. Finalmente, las correlaciones encontradas entre emociones y escalas hedónicas fueron muy bajas, al igual que las reportadas por (Leitch et al., 2015). Se podría entonces concluir que la conexión entre el consumo de alimentos y emociones experimentadas, así como la que existe entre emociones reales y las encontradas por el sistema REF son mucho más débiles de lo esperado, al menos cuando se busca determinarlas de esta manera.
Por otro lado, el REF aplicado a la evaluación de productos alimenticios ha sido sujeto de muy pocos estudios y los algoritmos necesarios aún no han sido desarrollados. Empero, nuestros resultados, junto con los obtenidos por (Samant & Seo, 2019) sugieren que las mediciones de GSR son confiables y relevantes para la detección de reacciones emotivas.
5.Conclusiones
La medición de señales fisiológicas y el uso de imágenes para determinar la aceptación del consumidor, como parte de, o como complemento a otras pruebas sensoriales, va cobrando creciente interés dentro de la ciencia sensorial. En este contexto, el presente trabajo ha presentado un sistema novedoso de análisis sensorial automático con el objetivo de predecir la aceptación del consumidor en materia de productos alimenticios nuevos.
El sistema comprende reconocimiento de expresiones faciales (REF), respuesta galvánica de la piel (GSR) y pulso, junto con cuestionarios de usuarios. Se ha propuesto también un enfoque basado en aprendizaje automático para la fusión de los datos disponibles en imágenes faciales y señales biométricas con el fin de predecir la preferencia hacia productos alimenticios. Se emplearon y compararon dos canales de entrada: olor y sabor.
Los experimentos realizados para validar este enfoque incluyeron la participación de 120 voluntarios. La gran cantidad de información obtenida fue procesada por medio de técnicas de aprendizaje automático tales como redes neuronales, métricas estadísticas y árboles de decisión.
Los resultados muestran que el REF por sí mismo no resulta suficiente para determinar la aceptación del consumidor. En consonancia con trabajos anteriores, se detectaron frecuentemente expresiones de tristeza y disgusto, probablemente a causa de nerviosismo, ansiedad o estado de concentración asociados con la participación en el experimento. A pesar de ello, cuando se toman en cuenta las señales de pulso y GSR, es posible mejorar la predicción. Nuestros experimentos muestran que la variable más relevante en las predicciones de aceptación es la GSR. La frecuencia cardiaca o pulso, aunque en menor medida, puede estar relacionada a la intensidad emotiva causada por los alimentos.
El enfoque propuesto ha probado su eficiencia en el procesamiento y correlación de distintos tipos de señales y grandes cantidades de información. El trabajo futuro contempla el uso de señales EEG como entrada adicional al modelo, así como el uso de sabores y olores más intensos para inducir expresiones faciales detectables.
Referencias
Álvarez, V.M., Sánchez, C.N., Gutiérrez, S., Domínguez-Soberanes, J., & Velázquez, R. (2018). Facial emotion recognition: A comparison of different landmark-based classifiers. In Proceedings of the 2018 International Conference on Research in Intelligent and Computing in Engineering, San Salvador, El Salvador, 1-4. https://doi.org/10.1109/RICE.2018.8509048
Bredie, W.L., Tan, H.S., & Wendin, K. (2014). A comparative study on facially expressed emotions in response to basic tastes. Chemosensory Perception, 7, 1-9. https://d0i.0rg/10.1007/s12078-014-9163-6
Calabrese, B., Velázquez, R., Del-Valle-Soto, C., de Fazio, R., Giannoccaro, N.I., & Visconti, P. (2020). Solar-powered deep learning-based recognition system of daily used objects and human faces for assistance of the visually impaired. Energies, 13, 6104. https://doi.org/10.3390/en13226104
Calvo, M.G. & Nummenmaa, L. (2016). Perceptual and affective mechanisms in facial expression recognition: An integrative review. Cognition and Emotion, 30, 1081-1106. https://doi.org/10.1080/02699931.2015.1049124
Crist, C., Duncan, S., Arnade, E., Leitch, K., O'Keefe, S., & Gallagher, D. (2018). Automated facial expression analysis for emotional responsivity using an aqueous bitter model. Food Quality and Preference, 68, 349-359. https://doi.org/10.1016/j. foodqual.2018.04.004
Danner, L., Haindl, S., Joechl, M., & Duerrschmid, K. (2014). Facial expressions and autonomous nervous system responses elicited by tasting different juices. Food Research Int., 64, 81-90. https://doi.org/10.1016/j.foodres.2014.06.003
Ekman, P. & Friesen, W.V. (1971). Constants across cultures in the face and emotion. Journal of Personality and Social Psychology, 17, 124-129. https://doi. org/10.1037/h0030377
Gunaratne, T., Fuentes, S., Gunaratne, N.M., Torrico, D.D., Gonzalez-Viejo, C., & Dunshea, F.R. (2019). Physiological responses to basic tastes for sensory evaluation of chocolate using biometric techniques, Foods, 8, 243. https://doi.org/10.3390/ foods8070243
He, W., Boesveldt, S., Delplanque, S., de Graaf, C., & De Wijk, R.A. (2017). Sensory-specific satiety: Added insights from autonomic nervous system responses and facial expressions. Physiology and Behavior, 170, 12-18. https://doi.org/10.1016/j. physbeh.2016.12.012
Kazemi, V. & Sullivan, J. (2014). One millisecond face alignment with an ensemble of regression trees. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, 1867-1874. https://doi.org/10.1109/ CVPR.2014.241
Kostyra, E., Rambuszek, M., Waszkiewicz-Robak, B., Laskowski, W., Blicharski, T., & Polawska, E. (2016). Consumer facial expression in relation to smoked ham with the use of face reading technology. Meat Science, 119, 22-31. https://doi.org/10.1016/j. meatsci.2016.04.018
Le Goff, G. & Delarue, J. (2017). Non-verbal evaluation of acceptance of insect-based products using a simple and holistic analysis of facial expressions. Food Quality and Preference, 56, 285-293. https://doi.org/10.1016/jioodqual.2016.01.008
Leitch, K. et al. (2015). Characterizing consumer emotional response to sweeteners using an emotion terminology questionnaire and facial expression analysis. Food Res. Int., 76, 283-292. https://doi.org/io.i0i6/j.foodres.20i5.04.039
Li, Y., Zeng, J., Shan, S., & Chen, X. (2018). Occlusion aware facial expression recognition using CNN with attention mechanism. IEEE Transactions on Image Processing, 28, 2439-2450. https://doi.org/10.1109/TIP.2018.2886767
Liong, S.T., Gan, S., See, J., Khor, H., & Huanget, Y. (2019). Shallow triple stream three-dimensional CNN (STSTNet) for micro-expression recognition. In Proceedings of the 2019 IEEE Int. Conf. on Automatic Face & Gesture Recognition, Lille, France, 1-5. https://doi.org/10.1109/FG.2019.8756567
Mahieu, B., Visalli, M., Schlich, P., & Thomas, A. (2019). Eating chocolate, smelling perfume or watching video advertisement: Does it make any difference on emotional states measured at home using facial expressions? Food Quality and Preference, 77, 102-108. https://doi.org/10.1016/jibodqual.2019.05.011
Noldus Information Technology. (2020). FaceReader Online. Updated information at: https://www.noldus.com/facereader/
Pissaloux, E., Maybank, S., & Velázquez, R. (2013). On image matching and feature tracking for embedded systems: A state of the art. In Chatterjee, A., Nobahari, H. & Siarry, P. (Eds.), Advances in Heuristic Signal Processing and Applications, (pp. 357-380). Springer. https://doi.org/10.1007/978-3-642-37880-5_16
Samant, S.S., & Seo, H.S. (2019). Using both emotional responses and sensory attribute intensities to predict consumer liking and preference toward vegetable juice products. Food Quality and Preference, 73, 75-85. https://doi.org/10.1016/j. foodqual.2018.12.006
Viejo, C.G. et al. (2019). Integration of non-invasive biometrics with sensory analysis techniques to assess acceptability of beer by consumers. Physiology and Behavior, 200, 139-147. https://doi.org/10.1016/j.physbeh.2018.02.051
Zhao, J., Mao, X., & Zhang, J. (2018). Learning deep facial expression features from image and optical flow sequences using 3D CNN. The Visual Computer, 34, 1461-1475. https://doi.org/10.1007/s00371-018-1477-y
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
© 2021. This work is published under https://creativecommons.org/licenses/by-nc-nd/4.0/ (the “License”). Notwithstanding the ProQuest Terms and Conditions, you may use this content in accordance with the terms of the License.
Abstract
Abstract: Food products elicit both psychological and physiological reactions in consumers that influence their liking and buying decisions. To increase the chances of success in the market, pre-sale food product assessments must incorporate the consumers' physiological responses. Data fusion and machine learning methods allow predicting consumer acceptance of food samples. Keywords: Convolutional neural networks; data fusion; food industry; machine learning; physiological measurements.
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
Details
1 Universidad Panamericana, Escuela de Negocios Gastronómicos, Aguascalientes 20290, México
2 Universidad Panamericana, Facultad de Ingeniería, Aguascalientes 20290, México
3 University of Salento, Department of Innovation Engineering, Lecce 73100, Italy





