Content area

Abstract

This thesis addresses a fundamental problem in contemporary computer vision: the question of perceptual alignment, specifically investigating the extent to which deep neural networks perceive and interpret the visual world in a manner comparable to human observers. While deep learning has catalyzed revolutionary advances in the field, achieving state-of-the-art performance across a wide array of tasks, including image segmentation, object classification, and complex multimodal reasoning, the connection between these artificial systems and the mechanisms underlying human visual perception remains notably limited. Despite impressive accuracy metrics, deep neural networks often exhibit behaviors that diverge from human perception, particularly under conditions of visual ambiguity or in the presence of subtle contextual cues. This work investigates the interplay between biological plausibility, computational performance, and perceptual alignment, employing a combination of bio-inspired architectural modifications and psychophysically grounded evaluation protocols to rigorously quantify the similarities and divergences between machine and human vision.

The first part of the thesis focuses on biologically inspired computational mechanisms, examining their capacity to enhance robustness while maintaining computational efficiency. Specifically, we investigate the integration of divisive normalization (DN), a canonical computation observed in the early visual cortex, into state-of-the-art segmentation architectures, including variants of the widely used U-Net. Divisive normalization serves as a canonical gain-control mechanism that modulates neural responses based on local contrast, and it has been implicated in numerous low-level perceptual phenomena observed in human vision. Experimental results demonstrate that models incorporating DN exhibit increased robustness under adverse environmental conditions, such as fog, low lighting, or reduced contrast, achieving improved segmentation performance with only minimal increases in model complexity or parameter count. However, when these biologically inspired models are evaluated using the Decalogue, a rigorously designed battery of psychophysical tests assessing low-level visual phenomena, including contrast sensitivity and contextual masking, they fail to reproduce human-like perceptual behaviors. These findings suggest a nuanced conclusion: while biologically inspired computations can improve robustness and generalization, they do not inherently induce human-like perceptual characteristics. This underscores the distinction between improving task performance and achieving genuine perceptual alignment with human observers.

The second part of the thesis develops systematic methodologies to measure perceptual alignment beyond traditional accuracy metrics, moving toward behaviorally and psychophysically informed evaluation frameworks. This includes developing the Decalogue for low-level phenomena, devising novel procedures for assessing chromatic discrimination via MacAdam ellipses, evaluating contrast sensitivity function (CSF) responses in multimodal language models (MLLMs), and establishing a framework to quantify abstraction levels in vision-language models such as CLIP. The empirical results obtained through these methodologies reveal critical insights into the factors that influence alignment. For instance, neural networks trained on richer chromatic distributions generate discrimination ellipses that more closely approximate human color perception, highlighting the importance of the visual environment and data diversity. CSF evaluations reveal that even advanced MLLMs exhibit marked limitations in reproducing basic human sensitivities to spatial frequency, suggesting persistent gaps in low-level perceptual fidelity. In CLIP, alignment is found to vary across network layers: early layers, which encode primarily texture-based information, exhibit moderate alignment with human perception, whereas later layers, influenced by linguistic supervision, increasingly abstract visual representations toward semantic concepts. This abstraction enhances model robustness and task generalization but diminishes alignment with low-level human perceptual behaviors.

The third part of the thesis investigates the broader determinants of perceptual alignment. Through systematic analyses across convolutional neural networks (CNNs), Vision Transformers, CLIP, and multimodal language models, the work demonstrates that alignment is a multifactorial property emerging from complex interactions between architectural design, optimization objectives, statistical properties of the training data, duration of training, and reading strategies. Interestingly, the relationship between task performance and perceptual alignment is non-monotonic: increasing model capacity or optimizing solely for accuracy can paradoxically reduce alignment with human perception, resulting in an inverted U-shaped relationship between accuracy and perceptual similarity. Additionally, linguistic supervision biases models toward global shape representations at the expense of local texture information, emphasizing that the type of task and supervision can play a more substantial role than architectural choices alone. These findings suggest that perceptual alignment is more strongly constrained by the combination of data, supervision, and task demands than by modifications to network architecture.

Conceptually, this thesis contributes to a deeper understanding of the interplay between performance, biological inspiration, and perceptual alignment, highlighting that improvements in accuracy or biologically motivated design do not necessarily translate to human-like perceptual behavior. Methodologically, it introduces systematic evaluation frameworks inspired by psychophysics, which can be applied to both vision-only and multimodal models to assess alignment rigorously. Empirically, it clarifies how factors such as early visual computations, chromatic environmental richness, optimization regimes, and language-based supervision interact to influence the degree of similarity between artificial and human perception.

In conclusion, this thesis advances the understanding of how artificial neural networks perceive visual stimuli and delineates the conditions under which they diverge from human visual experience. It provides strong evidence that bridging the gap between computational performance and perceptual alignment requires moving beyond architectural inspiration, toward evaluation frameworks and design principles that are explicitly informed by human behavioral and psychophysical data. These contributions lay the foundation for future research on biologically inspired, robust architectures and establish perceptual alignment as a critical, complementary objective to accuracy in the development and evaluation of computer vision systems. By integrating insights from neuroscience, psychophysics, and machine learning, the work positions perceptual alignment as a central consideration for designing artificial vision systems capable of functioning in real-world, human-centered environments.

Alternate abstract:

Esta tesis aborda un problema fundamental en la visión por computadora contemporánea: la cuestión de la alineación perceptual, investigando específicamente en qué medida las redes neuronales profundas perciben e interpretan el mundo visual de una manera comparable a los observadores humanos. Si bien el aprendizaje profundo ha provocado avances revolucionarios en el campo—alcanzando un rendimiento de vanguardia en tareas como segmentación de imágenes, clasificación de objetos y razonamiento multimodal complejo—la conexión entre estos sistemas artificiales y los mecanismos subyacentes a la percepción visual humana sigue siendo notablemente limitada. A pesar de métricas de precisión impresionantes, las redes neuronales profundas a menudo exhiben comportamientos que divergen de la percepción humana, especialmente en condiciones de ambigüedad visual o en presencia de señales contextuales sutiles. Este trabajo investiga la interacción entre plausibilidad biológica, rendimiento computacional y alineación perceptual, utilizando una combinación de modificaciones arquitectónicas inspiradas en la biología y protocolos de evaluación fundamentados en la psicofísica para cuantificar rigurosamente las similitudes y divergencias entre la visión humana y la artificial.

La primera parte de la tesis se centra en los mecanismos computacionales inspirados en la biología, examinando su capacidad para mejorar la robustez sin comprometer la eficiencia computacional. Específicamente, se investiga la integración de la normalización divisiva (ND), un cálculo canónico observado en la corteza visual temprana, en arquitecturas de segmentación de última generación, incluyendo variantes de la ampliamente utilizada U-Net. La normalización divisiva actúa como un mecanismo de control de ganancia que modula la respuesta neuronal en función del contraste local y se ha implicado en numerosos fenómenos perceptuales de bajo nivel observados en la visión humana. Los resultados experimentales muestran que los modelos que incorporan ND presentan una mayor robustez frente a condiciones ambientales adversas, como niebla, baja iluminación o contraste reducido, mejorando el desempeño de segmentación con solo un aumento mínimo en la complejidad o en la cantidad de parámetros del modelo. Sin embargo, cuando estos modelos inspirados en la biología se evalúan utilizando el Decálogo, un conjunto rigurosamente diseñado de pruebas psicofísicas que evalúan fenómenos visuales de bajo nivel, incluyendo sensibilidad al contraste y enmascaramiento contextual, no logran reproducir comportamientos perceptuales similares a los humanos. Estos hallazgos sugieren una conclusión matizada: aunque los cálculos inspirados en la biología pueden mejorar la robustez y la generalización, no inducen necesariamente características perceptuales humanas, lo que subraya la diferencia entre mejorar el rendimiento de la tarea y alcanzar una alineación perceptual genuina con los observadores humanos.

La segunda parte de la tesis desarrolla metodologías sistemáticas para medir la alineación perceptual más allá de las métricas tradicionales de precisión, avanzando hacia marcos de evaluación fundamentados en el comportamiento y la psicofísica. Esto incluye el desarrollo del Decálogo para fenómenos de bajo nivel, el diseño de nuevos procedimientos para evaluar la discriminación cromática mediante las elipses de MacAdam, la evaluación de las funciones de sensibilidad al contraste (CSF) en modelos de lenguaje multimodal (MLLM) y el establecimiento de un marco para cuantificar los niveles de abstracción en modelos de visión y lenguaje como CLIP. Los resultados empíricos obtenidos mediante estas metodologías revelan información clave sobre los factores que influyen en la alineación. Por ejemplo, las redes neuronales entrenadas con distribuciones cromáticas más ricas generan elipses de discriminación que se aproximan más a la percepción humana del color, lo que destaca la importancia del entorno visual y la diversidad de los datos. Las evaluaciones de CSF muestran que incluso los MLLM más avanzados presentan limitaciones significativas para reproducir sensibilidades humanas básicas a la frecuencia espacial, indicando brechas persistentes en la fidelidad perceptual de bajo nivel. En CLIP, la alineación varía a lo largo de las capas de la red: las capas iniciales, que codifican información principalmente basada en texturas, muestran una alineación moderada con la percepción humana, mientras que las capas posteriores, influenciadas por la supervisión lingüística, abstraen las representaciones visuales hacia conceptos semánticos. Esta abstracción mejora la robustez y la generalización de la tarea, pero disminuye la alineación con los comportamientos perceptuales humanos de bajo nivel.

La tercera parte de la tesis investiga los determinantes más amplios de la alineación perceptual. A través de análisis sistemáticos de redes neuronales convolucionales (CNN), transformadores de visión, CLIP y modelos de lenguaje multimodal, se demuestra que la alineación es una propiedad multifactorial que emerge de la interacción compleja entre el diseño arquitectónico, los objetivos de optimización, las propiedades estadísticas de los datos de entrenamiento, la duración del entrenamiento y las estrategias de lectura. De manera interesante, la relación entre el rendimiento en la tarea y la alineación perceptual es no monótona: aumentar la capacidad del modelo o optimizar exclusivamente para la precisión puede reducir, paradójicamente, la alineación con la percepción humana, resultando en una relación en forma de U invertida entre precisión y similitud perceptual. Además, la supervisión lingüística sesga los modelos hacia representaciones globales de forma a expensas de la información de textura local, enfatizando que el tipo de tarea y la supervisión pueden tener un papel más sustancial que las elecciones arquitectónicas. Estos hallazgos sugieren que la alineación perceptual está más fuertemente determinada por la combinación de datos, supervisión y demandas de la tarea que por modificaciones arquitectónicas.

Conceptualmente, esta tesis contribuye a una comprensión más profunda de la interacción entre rendimiento, inspiración biológica y alineación perceptual, destacando que las mejoras en precisión o en el diseño inspirado biológicamente no se traducen necesariamente en comportamientos perceptuales humanos. Metodológicamente, introduce marcos sistemáticos de evaluación inspirados en la psicofísica, aplicables tanto a modelos solo de visión como multimodales para evaluar la alineación de manera rigurosa. Empíricamente, clarifica cómo factores como cálculos visuales tempranos, riqueza cromática del entorno, regímenes de optimización y supervisión lingüística interactúan para influir en el grado de similitud entre percepción artificial y humana.

En conclusión, esta tesis avanza en la comprensión de cómo las redes neuronales artificiales perciben estímulos visuales y delimita las condiciones bajo las cuales divergen de la experiencia visual humana. Proporciona evidencia sólida de que cerrar la brecha entre rendimiento computacional y alineación perceptual requiere ir más allá de la inspiración arquitectónica, hacia marcos de evaluación y principios de diseño explícitamente informados por datos conductuales y psicofísicos humanos. Estas contribuciones sientan las bases para investigaciones futuras sobre arquitecturas robustas e inspiradas biológicamente y establecen la alineación perceptual como un objetivo crítico y complementario a la precisión en el desarrollo y evaluación de sistemas de visión por computadora. Al integrar conocimientos de neurociencia, psicofísica y aprendizaje automático, el trabajo posiciona la alineación perceptual como una consideración central para el diseño de sistemas de visión artificial capaces de operar en entornos del mundo real centrados en el ser humano.

Details

1010268
Business indexing term
Title
Perceptual Alignment in Artificial Vision: Bio-Inspired Design and Psychophysical Evaluation
Alternate title
Alineamiento perceptual en visión artificial: Diseño bio-inspirado y evaluación psicofísica
Number of pages
221
Publication year
2025
Degree date
2025
School code
5871
Source
DAI-B 87/5(E), Dissertation Abstracts International
ISBN
9798263312268
Committee member
Vanrell Martorell, María; Gómez Chova, Luis; Akbarinia, Arash
University/institution
Universitat de Valencia (Spain)
Department
Departament d'Enginyeria Electrónica
University location
Spain
Degree
Dr.
Source type
Dissertation or Thesis
Language
English
Document type
Dissertation/Thesis
Dissertation/thesis number
32284253
ProQuest document ID
3272570655
Document URL
https://www.proquest.com/dissertations-theses/perceptual-alignment-artificial-vision-bio/docview/3272570655/se-2?accountid=208611
Copyright
Database copyright ProQuest LLC; ProQuest does not claim copyright in the individual underlying works.
Database
ProQuest One Academic