Content area

Abstract

The increasing application of computational methods to the literature of the Spanish Golden Age has revealed the necessity of automating the modernization of its texts to facilitate seamless comparison and analysis. This study pioneers the employment of Natural Language Processing (NLP) techniques for the transformation of Spanish Golden Age texts (circa 1590-1680) into modern, normalized Spanish (RAE 2010). The research employs the transformer architecture to train and evaluate models using a corpus of Golden Age dramas. The models show promise in handling tricky typographical marks and context-sensitive words, but also struggle with proper nouns and orthographic variations. Evaluated using different metrics common in the specialized literature, the tool demonstrates potential as a valuable resource for historians, philologists, and digital humanists. Limitations include the specificity of the training corpus and observed inconsistencies in punctuation and spelling even in modernized texts. This research offers a novel, scalable solution to the manual modernization of Golden Age Spanish literature, enabling further computational studies in the field.

Alternate abstract:

La creciente aplicación de métodos computacionales a la literatura española del Siglo de Oro ha revelado la necesidad de automatizar la modernización de los textos para facilitar su comparación y análisis. Este estudio es el primero en el uso de técnicas del Procesamiento del Lenguaje Natural (PNL) para adaptar los textos del Siglo de Oro (ca. 1590-1680) a un español moderno y normalizado (RAE 2010). La investigación emplea la arquitectura de transformadores para entrenar y evaluar modelos usando un corpus de comedias del Siglo de Oro. Dichos modelos son prometedores a la hora de encargarse de marcas tipográficas complicadas, así como palabras dependientes del contexto, pero se ven comprometidos al tratar los nombres propios y las variaciones ortográficas. Evaluada usando diferentes métricas comunes en la literatura especializada, nuestra herramienta demuestra tener potencial como recurso valioso para historiadores, filólogos y humanistas digitales. Las limitaciones incluyen la especificidad del corpus de entrenamiento y algunas inconsistencias observadas en la puntuación y la ortografía incluso en textos modernizados. Esta investigación ofrece una solución novedosa y escalable a la modernización manual de la literatura del Siglo de Oro, abriendo la puerta a más estudios computacionales en el ámbito de conocimiento.

Details

1009240
Business indexing term
Title
The Moderniſa Project: Orthographic Modernization of Spanish Golden Age Dramas with Language Models
Alternate title
El proyecto Moderniſa: modernización ortográfica del teatro del Siglo de Oro con modelos de lenguaje
Publication title
Volume
30
Pages
410-425
Publication year
2024
Publication date
2024
Section
Artículos. Sección miscelánea
Publisher
Universitat Autonoma de Barcelona, Servei de Publicacions
Place of publication
Bellaterra
Country of publication
Spain
Publication subject
ISSN
11365773
e-ISSN
20148860
Source type
Scholarly Journal
Language of publication
English
Document type
Journal Article
Publication history
 
 
Milestone dates
2023-10-12 (Submitted); 2024-01-30 (Issued); 2024-01-30 (Modified); 2024-01-30 (Created)
ProQuest document ID
2923901352
Document URL
https://www.proquest.com/scholarly-journals/moderniſa-project-orthographic-modernization/docview/2923901352/se-2?accountid=208611
Copyright
© 2024. This work is published under https://creativecommons.org/licenses/by/4.0/ (the “License”). Notwithstanding the ProQuest Terms and Conditions, you may use this content in accordance with the terms of the License.
Last updated
2024-08-27
Database
ProQuest One Academic