Content area
ENRIQUE RIPOLL CERVERA (2024). INTELIGENCIA ARTIFICIAL E INCUNABLES POETICOS: UN MODELO DE TRANSCRIPCION AUTOMATICA. ULTREIA, COLECCION: RAMON ARNAU GARCIA. ISBN-13 (15): 978-84-128605-7-3. https://ultreia.ucv.es/index. php/ultreia/catalog/book/34
Dentro de la colección Ramón Arnau García de la editorial Ultreia de la Universidad Católica de Valencia, dirigida por la Dra. Anna Peirats, encontramos este volumen de Enrique Ripoll Cervera, Inteligencia artificial e incunables poéticos: un modelo de transcripción automática, que entendemos de obligada lectura para quien esté interesado en las humanidades digitales.
En efecto, el estilo didáctico, que se plasma en constantes aclaraciones terminológicas en notas al pie y en el cuerpo del texto y en figuras e imágenes que ilustran contenidos que, sin ellas, pueden ser densos; así como el método deductivo que va de lo general (historia de la informática, de la ТА, de la transcripción automática de textos) a lo particular (ventajas e inconvenientes de los modelos de transcripción, puesta a prueba de los tres elegidos, aplicación a un corpus específico de incunables), hacen de esta monografía un texto extraordinariamente útil para quienes buscan ampliar sus conocimientos sobre la interrelación entre la filología y la informática. Concretamente, hará las delicias de quienes disfrutan del apasionante estudio que supone enseñar a aprender a unas máquinas que no tienen consciencia de serlo, ni saben que están aprendiendo, pero que, paradójicamente, han convertido su esencia vital (51 es que algo así se puede aplicar a una máquina) en aprender.
Tras la consabida introducción, útil para saber desde dónde se parte (conocimientos informáticos y filológicos unidos en un mismo experto) y hasta dónde se quiere llegar (poner la inteligencia artificial al servicio del reconocimiento tipográfico e incluso de la crítica textual de la poesía impresa castellana), el libro comienza con un brillante resumen de la historia de la informática. En este capítulo, titulado "De la informática computacional a las humanidades digitales" (pp. 17-72), el autor narra, de forma clara y sencilla, los principales hitos de esta disciplina. De todos los nombres que eruditamente el Dr. Ripoll menciona en el primer apartado ("El primer ordenador y su programadora", pp. 18-23), son especialmente llamativos el del agnóstico Pascal que, para ayudar a su padre, recaudador de impuestos como Cervantes, a cambiar de una divisa a otra, inventó la que se considera la primera calculadora; y el de Ada Lovelace, Ada Byron de nacimiento, a quien se tiene por la primera programadora informática, por haber sido capaz de crear un algoritmo, durante la traducción de un artículo especializado.
Ya inserto en el siglo XX se encuentra "El ordenador electrónico" (pp. 23-30), en el que se alude a expertos como Ludgate, Torres Quevedo, Couffignal, Bush, Zuse y, por supuesto, Turing y su máquina Enigma, que fue crucial para la victoria aliada durante la Segunda Guerra Mundial. Igualmente relevante, aunque dentro del siguiente apartado ("Primeras aplicaciones textuales", pp. 31-42), fue el interés lexicográfico del padre Busa que, lejos de terminar su investigación tras defender su tesis doctoral sobre la obra en latín medieval de santo Tomás de Aquino, decidió continuar estudiando absolutamente todas las palabras de la obra completa del filósofo. Sus artes disuasorias serían tales que consiguió que IBM le financiara el proyecto durante treinta años, hasta que lematizaron más de diez millones de palabras.
Del apartado "La irrupción de las humanidades digitales en España y su aplicación filológica" (pp. 41-59), cabe señalar la importancia de RENFE, UNIVAC UCT y el Centro de Cálculo de la Universidad Complutense de Madrid como entidades que consiguieron potentes ordenadores con los que poder trabajar prácticamente al mismo nivel al que se hacía en el extranjero. La eficacia de la labor de los filólogos Francisco Marcos Marín y Manuel Alvar Ezquerra, que comenzaron su trayectoria investigadora a finales de los años 60 y principios de los 70, es una buena muestra de ello. A este trabajo se fueron uniendo otros después de personas claramente conscientes de la importancia de la interdisciplinariedad, como el de Montserrat Meya, lingúista, y María Felisa Verdejo, informática, en los 80; y el de José Luis Canet y Sagrario López Poza, en los 90.
Sin dejar la perspectiva histórica, este capítulo se cierra con algunos datos sobre la manera en que se aplican diversos conocimientos informáticos al estudio tudio de los textos de cancioneros a través de proyectos, como la creación de la base de datos Poesía, Ecdótica e Imprenta (POECIM) y de los respectivos repertorios abreviados de fuentes poéticas o del Archivo Digital del Romancero, todos ellos con el objetivo de reunir en un único catálogo textos que comparten el pertenecer a una época o discurso literario específico ("Cancionero e imprenta en la red", pp.
60-73). El objetivo del tercer capítulo, "Digitalización y difusión de textos" (pp. 73-106), es convencer de la necesidad de digitalizar los textos antiguos para poder conservarlos en la actualidad. Para conseguirlo, el autor Ripoll Cervera expone, primero, cuantiosos argumentos que defienden "la necesidad de digitalizar" (apartado 3.1, pp. 74-86), básicamente debida a la facilidad con que se estropean los manuscritos e incunables antiguos. Sin embargo, no se ahí: solo digitalizar no sirve de nada si no se efectúan, posteriormente, "El almacenamiento y la persistencia de la información" (pp. 87-93), es decir, su salvaguarda; y, finalmente, "Los mecanismos de difusión" (pp. 94-106), que hoy en día vienen a equivaler, en esencia, a su distribución por internet. Los numerosos ejemplos de repositorios y proyectos nacionales e internacionales que el autor menciona a lo largo de estas páginas ilustran con creces el interés existente en poner los ordenadores al servicio de la cultura humana a través del cuidado y mantenimiento de nuestros insustituibles textos.
A continuación, en el cuarto capítulo de la monografía, "Inteligencia artificial aplicada a la digitalización de textos" (pp. 107-144), Enrique Ripoll explica cómo ha fascinado al ser humano, desde tiempos inmemoriales, aprender el funcionamiento de nuestro propio cerebro, algo totalmente necesario para proceder, ya en épocas actuales, a trasladarlo al de las máquinas. Esto es lo que explica, paso a paso y con mucha paciencia, en el apartado "Inteligencia artificial y aprendizaje automático" (pp. 109-118), donde emplea conocimientos neurológicos para detallar la esencia de la inteligencia artificial, esto es, cómo se aplica lo que sabemos sobre nuestras neuronas a la construcción de máquinas que aprendan a razonar de forma similar.
Desde aquí llega al "Reconocimiento automático de caracteres" (pp. 119127), una cuestión que llamó la atención de nuestros decimonónicos más avispados, cuando se preocuparon por facilitar la lectura a quienes no podían ver. Actualmente, es lo que se hace por medio de la técnica OCR, que consiste en convertir las letras de un texto fotografiado en letras legibles para un procesador de textos, algo que se hace mediante la adquisición de la imagen, el preprocesado, la segmentación gráfica y el reconocimiento automático del texto.
Tal y como se explica en el libro en varias ocasiones (pp. 15, 165, 204) y, sobre todo, en el siguiente apartado ("La transcripción automática de textos medievales y del Siglo de Oro"), esta lectura OCR tiene prácticamente un 100% de éxito cuando los textos son posteriores al siglo XIX (y están mecanografiados, se entiende). Sin embargo, cuando los textos son anteriores, el porcentaje de éxito del reconocimiento gráfico baja cuantiosamente, por lo que hay que llevar a cabo una metodología de trabajo muy exigente, con el objetivo último de "resaltar el texto respecto al soporte, generar un contraste y nitidez que facilita su identificación automática" (p. 128). Se trata, en definitiva, de entrenar al sistema para que aprenda a leer textos medievales y áureos.
Y esto es lo que el autor hace en el quinto capítulo de su libro, titulado "La transcripción automática de incunables poéticos" (pp. 145-214), probablemente el núcleo del trabajo. En él, Ripoll Cervera da cuenta, con rigor y honestidad, de los pasos que ha ido dando hasta conseguir crear un modelo de transcripción automática de incunables poéticos.
Para comenzar, como explica en "Delimitación del corpus" (pp. 147-167), la selección del texto Coplas de Vita Christi de fray Íñigo de Mendoza, del que se conservan ocho ediciones incunables de imprentas diferentes (cuyos avatares ecdóticos se explican detalladamente en este apartado), le permite introducir varias tipografías para una misma letra, lo que le facilita la creación de un modelo individual de transcripción automática.
Una vez seleccionado el texto que quiere emplear para adiestrar a la maquina, el autor especifica qué tipo de software desea usar para ello. En el apartado "Software de transcripción automática aplicado a la poesía de cancionero" (pp. 168-179) esboza, con asombrosa sinceridad, los inconvenientes de los tres programas informáticos elegidos: 7ranskribus, OCR4all y eScriptorium. En efecto, en "Alternativas de software adaptado a material antiguo" (pp. 168-170) desgrana pros y contras de cada uno a priori, 1gual que hace, poniéndolos a prueba y, por tanto, reflexionando sobre su utilidad a posteriori, en "La poesía incunable ante la segmentación y el reconocimiento de grafías" (pp. 170-174). Al parecer, todos estos softwares sacan buena nota en el examen con un texto actual; pero suspenden con creces cuando los impresos son anteriores al siglo XVIII.
Como el autor mismo explica, "Los criterios de selección" (pp. 174-180), sobre los que versa el contraste entre las tres aplicaciones, son los siguientes: "el mecanismo de instalación, su usabilidad, el proceso de segmentación de las páginas con posibilidad de crear modelos personalizados para mejorarlo y, finalmente, el resultado de la transcripción con un modelo entrenado ad hoc" (p. 174). Estas son las cuatro pruebas que va realizando sobre cada programa para estudiar detenidamente como responde a ellas. La relevancia de los resul - tados de su comparación es que los tres comparten la posibilidad de mejorar mediante un entrenamiento en el reconocimiento gráfico de las letras. No cabe sorprenderse, pues, porque el autor lo lleve a cabo justo a continuación, en "Entrenamiento y prueba de un modelo individual" (pp. 180-192), donde explica diversas experiencias de ensayo y error con los modelos mencionados, que le han permitido ir viendo cuáles eran los problemas a los que se enfrentaba el algoritmo y como debían o podían ir solucionándose en cada caso. A modo de ejemplo, llama la atención el hecho de que no siempre reconozcan las dos columnas como formato de lectura y que, en consecuencia, interpreten como cesura el espacio en blanco entre ellas, es decir, reúnan erróneamente en un solo verso dos versos que ni siquiera tienen esa misma secuencia. La principal conclusión de esta fase es que el entrenamiento funciona siempre y cuando lo que se le pida transcribir sea similar а la tipografía con la que ha sido entrenada la máquina: cuantas más muestras tenga y más diferentes sean estas, mayores serán también las probabilidades de que mejore el modelo de transcripción automática.
Finalmente, en el apartado "La generación de un modelo extendido para la transcripción automática de incunables poéticos en tipografía gótica" (pp. 192-214), Ripoll Cervera expone detalladamente los pasos dados para mejorar el sistema de transcripción individual, llamado Spanish Gothic Poetic Incunabula, utilizando las distintas ediciones del mismo texto, y registrando los logros y los fracasos que en cada ocasión se van produciendo. De todos los problemas que encuentra (agujeros por xilófagos y mal digitalizados; páginas destruidas; borrones), el que más puede llamar nuestra atención es el que implica la posición central del titulillo en el texto (pp. 209-211). En este caso, la máquina interpreta el texto como una única columna, pese a haberle indicado previamente que la caja está compuesta por dos.
En conclusión, ahora más que nunca las humanidades digitales son una salida profesional incuestionable para quienes se han formado en numerosas áreas de conocimiento, como la propia filología (Fernández Martín, 2015), la lingúística (Queralt Estévez, 2023), la archivistica (Cruz Mundet, 2019) o la historia (Moradiellos García, 2013), que garantizan, al menos aparentemente, que el hecho de que nos adaptemos a trabajar con inteligencia artificial hace realmente nuestra labor humanística más valiosa a ojos de la sociedad.
En efecto, se precisan constantemente profesionales que, siguiendo el ejemplo de sistematicidad y honestidad de Ripoll Cervera, remarquen las limitaciones de la IA y ofrezcan soluciones éticamente válidas también para nuestras propias profesiones (Vinck, 2018): limitaciones de formato que no nos aseguran poder acceder a los documentos digitalizados dentro de veinte años (p. 70); limitaciones ecdóticas, pues un error en una edición que se digitaliza sin revisar es un error condenado a reproducirse in aeternum (Fernández Martín, 2020); limitaciones cuantitativas, pues aquellos textos que solo se conservan en forma manuscrita o que tienen pocas ediciones, tal vez están condenados a no ser nunca tratados por la IA y, en consecuencia, a seguir siendo poco conocidos; limitaciones lingüisticas, ya que probablemente la ТА no distinga entre los idiomas que tiene insertados ni sepa, en consecuencia, transcribir grafías de distintas escrituras sin entrenamiento específico previo.
En definitiva, el libro reseñado es altamente recomendable para todo filologo que pretenda dedicarse a la transcripción automática de textos antiguos. No obstante, dedicarse a las humanidades digitales no evita, en el fondo, convertirse en profesor (Álvarez Ramos, 2019; Huerta y Alonso Sanz, 2020): el trabajo instruccional realizado por Ripoll Cervera con algoritmos, pruebas de ensayo y error, exámenes y test constantes, evaluación de resultados, etc., nos recuerda con conocimiento de causa que tal vez nuestra profesión futura, como humanos, está cada vez más en el enseñar. ¿Quién sabe si, en un futuro no muy lejano, quienes asistan a la universidad para aprender filología con un verdadero interés y una desbordante motivación, no sean, precisamente, las máquinas?
BIBLIOGRAFÍA
Álvarez Ramos, E. (ed.) (2019). Humanidades digitales: una mirada desde la interdisciplinariedad. Peter Lang.
Cruz Mundet, J. (2019). Archivística. Gestión de documentos y administración de archivos. Alianza.
Fernandez Martín, P. (2015). La creación de corpus lingúísticos diacronicos: La perspectiva del transcriptor. Enlace: revista Venezolana de Infor - mación, Tecnología y Conocimiento, 12(3), 23-47. https://www.redalyc. org/pdf/823/82343214003 pdf
Fernández Martín, P. (2020). Algunas cuestiones ecdóticas de la Respuesta a sor Filotea de la Cruz de sor Juana Inés de la Cruz. En M. Fernández Alcaide y E. Bravo-García (Eds.). El español de América: morfosintaxis histórica y variación (pp. 455-480). Tirant Humanidades.
Huerta, R., & Alonso Sanz, A. (eds.) (2020). Humanidades digitales y pedagogías culturales. Saberes virales para una nueva educación. UOC.
Moradiellos García, E. (2013). El oficio de historiador. Estudiar, enseñar, investigar. Akal.
Queralt Estévez, S. (coord.) (2023). Lingiiistas de hoy. Síntesis.
Vinck, D. (2018). Humanidades digitales. La cultura frente a las nuevas tecnologías. Gedisa.
© 2025. This work is published under https://creativecommons.org/licenses/by/4.0/ (the "License"). Notwithstanding the ProQuest Terms and Conditions, you may use this content in accordance with the terms of the License.