Resumen: Se analiza la situación actual de los datos de investigación abiertos en los repositorios de las universidades españolas a través de doce indicadores que permiten compararlos entre sí. Los doce indicadores de elaboración propia tratan sobre los conjuntos de datos de investigación y las políticas institucionales vinculadas al acceso abierto, además de algunas de las características claves de los repositorios. La metodología que se lleva a cabo consiste en la comparación entre repositorios de las diferentes universidades vinculadas a REBIUN. El resultado ha sido que los conjuntos de datos en repositorios institucionales son escasos, y la situación es heterogénea en todo el territorio. Esto lleva a plantear cues-tiones sobre cuáles van a ser las futuras políticas de acceso abierto sobre los datos de investigación en las principales instituciones científicas del país.
Palabras clave: Datos de investigación, repositorios institucionales, ciencia abierta, universidades españolas.
Abstract: The current situation of open research data in Spanish university repositories is analyzed by means of twelve indicators that allow us to compare them with each other. The twelve self-developed indicators deal with research datasets and institutional policies linked to open access, as well as some of the key characteristics of the repositories. The methodology used consists of comparing the repositories of the different universities linked to REBIUN. The result has been that datasets in institutional repositories are scarce, and the situation is heterogeneous across the territory. This raises questions about future open access policies for research data in the country's main scientific institutions.
Keywords: Research data, academic repositories, open science, Spanish universities.
1. INTRODUCCIÓN
En 2002 se presentaron las bases del acceso abierto a través de la Budapest Open Access Initiative (Open Society Institute, 2002), que planteaba la retirada de las barreras a la literatura científca para acelerar la investigación. Proponía como estra-tegias para ello el autoarchivo institucional y las publicaciones de acceso abierto. Posteriormente, Bethesda Statement on Open Access Publishing (Howard Hughes Medical Institute, 2003) y Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities (Max Planck Gesellschaft, 2003), ambas de 2003, buscarían profundizar el acceso abierto implicando a actores concretos más allá de los investigadores, como son las bibliote-cas, los editores, las instituciones y las agencias de fnanciación.
La consideración de acceso abierto implica la posibilidad de leer, descargar, copiar, distribuir, imprimir, buscar o usar con cualquier propósito legal, sin ninguna barrera fnanciera, legal o téc-nica, fuera de las que son inseparables para el mismo acceso a Internet (Open Society Institute, 2002).
La Directiva (UE) 2019/1024 habla específca-mente del acceso abierto en el ámbito de las uni-versidades y de las instituciones de investigación. El Open Access (acceso abierto), el Open Science (ciencia abierta) y el Open Data (datos abiertos) se interrelacionan en el ámbito universitario y cientí-fco europeo.
Cuando se habla de ciencia abierta se plantea la difusión del conocimiento científco de manera libre, accesible en línea y reutilizable. Proponer un marco de ciencia abierta en las prácticas de la investigación se entiende bajo la promoción del acceso abierto a la investigación científca, a la reproductibilidad y a la evaluación en abierto. En este contexto aperturista surge la necesidad y el interés por el acceso a los datos de investiga-ción abiertos, que se encuentran vinculados a las mismas investigaciones científcas, puesto que los datos de investigación permiten la reproductibili-dad y la evaluación del proceso, pero también, per-miten la reutilización científca.
Es necesario plantear una distinción entre datos abiertos y datos de investigación abiertos. La con-sideración de los datos abiertos está en relación con los datos que produce una institución en el desarrollo de su actividad, que en el caso de las administraciones públicas se vincula con el Open Government (gobierno abierto). Las iniciativas de gobierno abierto buscan un control sobre las accio-nes del gobierno y de las diferentes instituciones por parte de cualquier ciudadano o de cualquier grupo social interesado. De este modo se puede considerar el gobierno abierto como el modo de plantear transparencia con la información guberna-mental, apertura en la participación y colaboración ciudadana en los mecanismos de decisión y control; se trata de un modelo que se presenta dentro de los estándares de la democracia participativa (Clabo y Ramos-Vielba, 2015). En este contexto, se desarrolla la posibilidad de la reutilización de los datos abiertos de las administraciones públicas.
Un ejemplo de ello se llevó a cabo en el estudio de 2018 sobre los datos que la universidad como institución generaba en torno a los datos de gestión y a los datos académicos, siguiendo los estándares de las políticas para la reutilización de información del sector público (Martín González y Ríos Hilario, 2018). En este estudio se explicitaba que la univer-sidad producía tres tipos de datos: los de gestión, los académicos y los datos de investigación (Martín González y Ríos Hilario, 2018: 117). Este punto de distinción es clave para diferenciar los datos abier-tos, que suelen vincularse al gobierno abierto, y los datos de investigación abiertos, que se vinculan al desarrollo científco.
Los datos de investigación, sean abiertos o no, son la prueba objetiva a partir de la que se valida unas tesis o postulados de investigación. Los datos de investigación abiertos son parte de la ciencia abierta en tanto y en cuanto se plantee una política de difusión abierta. En este contexto científco y de investigación, el Data Sharing (datos compartidos) se plantea como "la acción de compartir con otros colegas los fcheros de datos (o raw data) genera-dos durante el curso de una investigación" (Torres Salinas y otros, 2010: 258), es decir, compartir el material sin procesar que se ha generado en el curso de la investigación. El Data Sharing se vin-cula a la flosofía de acceso abierto porque favorece la apertura y la accesibilidad, además, promueve una "segunda vida" para esos datos sin procesar, pudiendo reutilizarlos para otro fn (Sixto-Costoya y otros, 2019).
Compartir los datos de investigación abiertos permite incrementar el impacto y la visibilidad de la investigación, mejorar la reproducibilidad de la ciencia, la posibilidad de reutilización de los mis-mos datos que el estudio original en otros estu-dios posteriores, abrir la posibilidad a un ahorro de costes, fomentar la colaboración y aumentar la credibilidad en el sistema científco (Lyon, 2016).
En cuanto a la gestión de la información cientí-fca, la concepción de la curación de datos (Data Curation, en inglés) ha generado una nueva área de responsabilidad para investigadores, biblioteca-rios y profesionales de la información en el entorno
de las bibliotecas digitales (Heidorn, 2011), los cuales se dedican a la búsqueda, selección, carac-terización y difusión continua del contenido más relevante de diversas fuentes de información (Gua-llar y Leiva-Aguilera, 2013: 27), y, en defnitiva, de datos (Tammaro, y otros, 2019).
En el caso de la investigación en el contexto europeo y español se menciona la cuestión en torno a la transferencia de los resultados fnan-ciados mayoritariamente con fondos públicos (Ley 37/2007; Ley 14/2011; Ley 18/2015 y Directiva (UE) 2019/1024), refriéndose tanto a las publica-ciones como a los datos de investigación. El sen-tido de este interés por compartir los resultados de las investigaciones de modo abierto tiene como fn mejorar el retorno de la inversión que hacen las instituciones públicas cuando fnancian la investi-gación (Hernández-Pérez, 2016: 520) y garantizar el acceso abierto a los datos para el público, los gobiernos y las agencias de fnanciación (Stieglitz y otros, 2020). En los últimos años se ha facilitado el depósito de los datos a través de varias inicia-tivas, como por ejemplo los repositorios Zenodo (creado por OpenAIRE y el CERN), Figshare, Data-Cite, etc.
En el contexto de las políticas de acceso abierto de las universidades españolas, hace diez años tres cuartas partes habían iniciado alguna acción en el marco de la ciencia abierta dirigida hacia la creación de repositorios o cursos OpenCourseWare (OCW) (Abadal y otros, 2013). Los cursos OCW buscaban que los materiales educativos estuvieran en abierto y de forma gratuita para poder ser con-sultados. Hoy en día, el conocimiento de las polí-ticas ha aumentado de forma generalizada hacia la forma de compartir datos (González-Teruel y otros, 2022). Además, en la actualidad, el marco regulatorio promueve el desarrollo de reposito-rios institucionales o temáticos de acceso abierto, propios o compartidos vinculados a las universi-dades y organismos de investigación españolas para transferir los resultados de las investigacio-nes a la sociedad (Ley 17/2022 que modifca la Ley 14/2011), que afecta principalmente a las publica-ciones. Asimismo, el artículo 12 de la Ley Orgánica del Sistema universitario (2023) obliga al personal docente e investigador a hacer pública la versión fnal de sus publicaciones en revistas científcas mediante el depósito en un repositorio. Mientras que el mandato legal español plantea para los datos de investigación el alojamiento en un reposi-torio (Ley 37/2007), sin tener que ser, necesaria-mente, en un repositorio institucional.
En este momento, los repositorios institucio-nales de las universidades españolas albergan publicaciones pre-prints y post-prints, entre otros documentos, y siguiendo este mismo sentido, se podría plantear que este mismo espacio pudiera servir para albergar los datos de investigación. Datos que, de algún modo, están vinculados a esas publicaciones que albergan los repositorios institu-cionales, y que se desarrollan en las instituciones académicas que los mantienen. Estos datos debe-rían cumplir los principios internacionales FAIR (por sus siglas en inglés, Findable, Accessible, Interoperable y Reusable), para tratar de que sean sencillos de encontrar, accesibles, interoperables y reutilizables.
La vinculación entre datos de investigación y los repositorios institucionales se plantea bajo el inte-rés que pudiera haber entre las bibliotecas acadé-micas y estos datos, puesto que: "Los repositorios de datos de investigación sirven, entre otros fnes, para validar resultados de investigación y, por tanto, deben estar vinculados de alguna manera a las publicaciones científcas en donde se muestra para qué fueron utilizados esos datos" (Hernán-dez-Pérez y García-Moreno, 2013: 261).
No hay un mandato legal expreso del empleo, en exclusiva, de los repositorios institucionales para albergar datos de investigación. Las universidades españolas emplean esta plataforma en su inmensa mayoría para almacenar su producción científca.
Para concretar esta fnalidad se desarrollan los límites de la investigación a partir del siguiente epí-grafe sobre objetivos del estudio.
2. OBJETIVOS
El objeto de estudio son los datos de investiga-ción en abierto en las universidades españolas, específcamente su situación en los repositorios universitarios. El objetivo del estudio es analizar a través de una comparación la situación de los repositorios institucionales de las universidades de España. Para ello, se van a buscar los aspectos relevantes que permitan dibujar la situación actual, y así, poder señalar algunos pasos que podrían ser necesarios para alcanzar los objetivos que el marco legal pretende en relación con los datos abiertos.
Se precisan los siguientes objetivos específcos:
1. Analizar las características descriptivas de los repositorios institucionales de las universidades españolas que forman parte de la Red de Bibliote-cas Universitarias REBIUN (Red Española de Biblio-tecas Universitarias).
2. Analizar indicadores previamente establecidos para mostrar el acceso a los datos de investigación de las universidades españolas en sus repositorios, y el contexto digital en que se encuentran.
3. MÉTODO
Con el fn de dar respuesta a los objetivos plan-teados, se usa un método comparativo entre los datos extraídos en la observación web de los repo-sitorios institucionales de las universidades espa-ñolas. El método comparativo consiste en analizar los repositorios de las universidades españolas estableciendo semejanzas y diferencias entre los resultados que se obtienen universidad por uni-versidad, permitiendo comparar los resultados pudiendo tener en cuenta la titularidad (pública o privada), las comunidades autónomas, o incluso, el tipo de software del repositorio, entre otros muchos aspectos.
Para obtener los resultados se observa en la web de cada una de las instituciones una serie de indi-cadores de elaboración propia (Tabla I), la obser-vación fue realizada durante el mes de julio de 2022. Estos indicadores son los siguientes:
El objetivo principal, situación actual de los datos en los repositorios, se plantea tras desarrollar los dos objetivos específcos, análisis de las caracterís-ticas descriptivas y de los indicadores, puesto que es necesaria la recogida previa de estos resulta-dos para poder elaborar una descripción, primero cuantitativa, de la situación de los datos en 2022.
El primer grupo de indicadores, "Datos de investigación en repositorios institucionales", que comprenden los indicadores i.01, i.02 y i.03, y el segundo grupo de indicadores, "Políticas de acceso abierto", indicadores i.04 y i.05, se aplican a toda la muestra de repositorios de las universidades vinculadas a REBIUN, mientras que el tercer grupo, "Características de los repositorios", indicadores del i.06 al i.12, se aplican a las instituciones que albergan datos en sus repositorios institucionales, o tienen una sección para albergar datos, puesto que el análisis de los repositorios es de interés en relación a los datos de investigación, y no a la eva-luación en sí de los repositorios institucionales.
Los indicadores de análisis se diferencian de otras propuestas, como el trabajo de REBIUN sobre repositorios, Guía para la evaluación de Reposito-rios institucionales de Investigación (Barrueco y otros, 2021). No se replican sus ocho criterios, puesto que cada uno de ellos se extiende en un análisis muy pormenorizado, y superaría los obje-tivos de esta investigación. Se atiende a este docu-mento de REBIUN porque es el marco de referencia para las instituciones académicas españolas, pero los indicadores también se han planteado a par-tir del texto FAIREST: A Framework for Assessing Research Repositories (d'Aquin y otros, 2023), puesto que tiene en cuenta específcamente los datos de investigación en los repositorios. Da un análisis más próximo al objetivo de la investiga-ción, pero, al ser desde una perspectiva internacio-nal en algunos puntos se ha tenido que adaptar a la realidad específca española.
La muestra de análisis se centra en las 76 univer-sidades españolas miembros de la CRUE y REBIUN, 50 de ámbito público y 26 de ámbito privado. De la muestra hay que señalar que la Universidad de Vigo y su repositorio Investigo no se han analizado ya que no se pudo acceder por problemas técnicos de la universidad durante el periodo de búsqueda de información, haciendo que la muestra fnal sea de 75 instituciones.
4. RESULTADOS
El primer aspecto que se va a abordar es el de los datos de investigación en los repositorios ins-titucionales.
4.1 Datos de investigación en repositorios institucionales
El indicador "alojamiento de datos de investi-gación" (i.01) se toma en primer lugar porque va a dar una visión global sobre los datos en las 76 universidades de REBIUN. Se indica el almacena-miento de datos en todas las universidades, y tam-bién, se desagregan los resultados de los datos en relación con si la institución es pública o privada (Figura 1).
Las instituciones públicas lideran el almacena-miento de datos de investigación en repositorios. Si sólo atendemos al grupo de instituciones públi-cas el resultado que alberga datos es del 73%, que son 36 universidades, mientras que, si atendemos al total de las instituciones españolas el porcentaje baja a 52% (39 instituciones). Los repositorios de universidades públicas con datos de investigación son seis veces superior al de las universidades privadas que es del 12% (3 instituciones), siendo estas la Universidad Camilo José Cela, Mondragon Unibertsitatea y Universitat Oberta de Catalunya.
Por comunidades autónomas destaca Andalucía y Cataluña, con ocho instituciones con datos de inves-tigación cada una, y Madrid, con siete (Figura 2).
En la Figura 3 se muestran las cinco comunida-des autónomas con mayor número de universida-des que tienen en sus repositorios datos de inves-tigación, que son: Andalucía, Cataluña, Castilla y León, Madrid y Valencia. Los ocho repositorios de Andalucía representan el 80% de las instituciones de la región, mientras que en Cataluña sólo son el 67%; en Castilla y León representa el 57%, en Madrid, el 47%, y en Valencia, el 43%.
Si comparamos la Figura 2 y la Figura 3 se observa que: (a) Andalucía y Cataluña tienen el mismo número de universidades comprometidas con la publicación de datos en sus repositorios (ocho cada una), sin embargo, analizando el por-centaje parece que la comunidad andaluza está más comprometida, dando un resultado del 80% frente al 67%; (b) mientras que Madrid pasa a la cuarta posición si atendemos al porcentaje, pero a la tercera posición si atendemos al total de univer-sidades con datos en sus repositorios.
El segundo indicador, "ubicación de los datos" (i.02), que defne si el repositorio clasifca los conjuntos de datos de investigación en un apartado específco, permite identifcar el nivel de desarrollo de la accesibilidad a los datos en los repositorios.
En la Figura 4 se puede ver que el porcentaje de instituciones que tienen un apartado de datos de investigación en sus repositorios es del 56%, un porcentaje superior al del 52% de instituciones que contienen datos de investigación (Figura 1). Esta aparente diferencia está producida por tres univer-sidades, la Universidad Internacional de La Rioja, la Universidad Francisco de Vitoria y la Universidad Miguel Hernández de Elche, que han creado sec-ciones específcas para datos de investigación en sus repositorios, pero no contienen ningún dato en julio de 2022.
El indicador "número de conjunto de datos" (i.03) cuantifca el número de conjuntos de datos que alberga cada repositorio.
Hay que señalar algunos patrones que han sur-gido al revisar los registros:
(1) los datos de investigación son publicados por autores recurrentes, el caso más representativo es el de la Universidad de Zaragoza, donde todos los conjuntos de datos pertenecen a una misma persona;
(2) en las secciones creadas para almacenar datos de investigación en algunos casos se encuen-tran otro tipo de registros, como documentos de apoyo a la investigación que no son propiamente datos de investigación.
En los datos que presenta la Figura 5 se puede ver que solo hay cuatro universidades que tienen almacenados más de 200 datos de investigación: la
Universidad de Alcalá (375), la Universitat Pompeu Fabra (268), la Universidad Carlos III de Madrid (243), y la Universidad de Zaragoza (222). Des-taca que entre estas cuatro universidades hay dos de la comunidad de Madrid.
La Figura 6 nos presenta los conjuntos de datos cruzados por comunidades autónomas, donde podemos ver que Madrid, Cataluña y Andalucía se encuentran en los primeros puestos.
En la Figura 2 podíamos ver como Andalucía, Cataluña y Madrid contaban con un número muy parecido de repositorios que contenían datos de investigación: ocho en Andalucía, ocho en Cata-luña, y siete en Madrid. Y, por otro lado, en la Figura 3 se representaba el porcentaje de Universidades REBIUN con datos de investigación en sus reposito-rios por comunidades autónomas: Andalucía lide-raba la Figura con un 80%, Cataluña, con un 67% era la segunda, y Madrid, con un 47% pasaba a la cuarta posición. Si contraponemos estos datos al número de conjunto de datos por comunidad autó-noma se puede ver que Madrid lidera el número de datos en repositorios, seguido de Cataluña y de Andalucía, casi triplicando el número de datos de Madrid a los datos alojados en los repositorios en Andalucía. Aquí se muestra que una comunidad autónoma para alojar en sus repositorios datos de investigación no necesita tener un mayor número de repositorios en sí, pero sí que se ve una correla-ción entre las comunidades autónomas que mayor número de repositorios tienen y la cantidad de datos almacenados.
En Madrid el 36% de los datos totales están pro-ducidos dentro del Consorcio Madroño, conformado por la Universidad Rey Juan Carlos, la Universidad Autónoma de Madrid, la Universidad Carlos III de Madrid, la Universidad Politécnica de Madrid, la Universidad de Alcalá y la UNED. Estas institucio-nes representan un 9% del global de instituciones de REBIUN.
4.2 Políticas de acceso abierto
En este subapartado se plantea la vinculación del repositorio con el acceso abierto, para ello se observan dos indicadores: si la institución tiene una política de acceso abierto en general declarada (i.04), y si tiene una política específca de la ges-tión de los datos de investigación (i.05).
De las 75 instituciones analizadas el 65% (49 instituciones) tienen accesible una política de acceso abierto (Figura 7). Se coteja si alojan un documento público que indica la posición de la ins-titución sobre su accesibilidad y su autopublica-ción, es decir, se ha hecho una comprobación tanto en el repositorio como en la página web general de la universidad sobre si tiene este documento de accesibilidad, no solo en el repositorio.
El indicador "gestión de datos de investigación" (i.05) analiza los documentos de las políticas de gestión de datos de la institución para datos de investigación, permite ver el grado de desarrollo del protocolo institucional para el tratamiento más adecuado de los datos de investigación para cada institución.
En la Figura 8 se puede ver que solo el 9% (siete instituciones) de las universidades analizadas tie-nen una política específca para los datos de inves-tigación.
En la Figura 8 también se aprecia que el 91% (sesenta y ocho instituciones) no tienen una polí-tica de gestión de datos ni una sección específca sobre esta gestión dentro de sus políticas de acceso abierto. Dentro de este grupo, no obstante, hay una división interna entre las organizaciones que no citan en sus políticas de acceso abierto los datos de investigación, cincuenta y ocho de sesenta y ocho universidades, y las que hablan de los datos de investigación como una parte de la producción científca junto a los artículos y otros trabajos cien-tífcos, diez de las sesenta y ocho instituciones.
Seis de las siete instituciones que tienen accesible este documento de gestión de datos de investiga-ción forman parte del Consorcio Madroño; la otrauniversidad es la Universidad de Málaga. La situa-ción de colaboración del Consorcio Madroño no se repite en ninguna otra comunidad autónoma. Podría ser considerada una tercera forma de compartir los datos de investigación que se suma a las dos opcio-nes mencionadas, que son: o bien, alojar los datos en su repositorio, o bien, en un repositorio externo.
4.3 Características de los repositorios
En este apartado se desarrollan los indicadores que permiten analizar la situación actual de los repositorios institucionales, dando pie a analizar el contexto de los repositorios universitarios donde se observa el alojamiento de los datos de inves-tigación.
De los setenta y cinco repositorios activos en julio de 2022, cuarenta y dos tienen un apartado para datos de investigación, y treinta y nueve contienen algún tipo de dato. El grupo de repositorios que se analizarán en este apartado son los cuarenta y dos repositorios.
El indicador sobre software (i.06) identifca el programa que soporta el repositorio, siendo DSpace el software que predomina con un 76,19% (32 repositorios), seguido de Dataverse, 14,29% (6 repositorios), CDS Invenio es usado por dos repositorios, y fnalmente, Fedora y E-Prints es usado en un único caso cada uno.
Sobre metadatos (i.07), se observa que todas las instituciones con datos de investigación usan Dublin Core (treinta y nueve instituciones), mien-tras que seis utilizan METS, cinco instituciones usan MARC, y el mismo número de instituciones usan PREMIS, mientras solamente cuatro usan MODS, cuatro EDM, y dos MARCXML (Figura 9).
El 76% de repositorios institucionales con apar-tado para datos de investigación solo usan un único estándar de metadatos, que es Dublin Core.
En cuanto a la organización por metadatos (i.08) de las cuarenta y dos instituciones el 97,6% de ellas permite organizar las búsquedas en función de las distintas categorías de los metadatos, solo habiendo un repositorio que no lo permite.
El indicador sobre accesibilidad (i09), referido a si se puede acceder o no a los documentos de los conjuntos de datos, de los treinta y nueve reposi-torios que alojan datos, treinta y ocho permiten el acceso a todos sus datos de investigación directa-mente sin ninguna restricción.
La situación de las licencias de derechos de autor asociadas a los datasets (i.10): treinta y siete repositorios usan alguna clase de licencia Creative Commons; y prácticamente todos indican de manera clara la licencia que usan sus datos.
La visibilidad del repositorio se conecta con la vinculación del repositorio a los diferentes reco-lectores (i.11): todos los repositorios con datos de investigación se vinculan al recolector RECOLECTA, treinta y siete lo hacen a Google Scholar, treinta y cuatro a BASE, treinta y dos a OpenAIRE, nueve a WorldCat y siete a Core. La mayoría de los reposi-torios están indexados en más de cuatro recolecto-res, es la situación de veintiocho de treinta y nueve repositorios que albergan datos (72%).
El último indicador analiza la existencia de guías sobre publicación de datos abiertos (i.12), veinti-séis de los repositorios con datos de los treinta y nueve repositorios que albergan datos de investi-gación en su repositorio institucional tienen alguna guía de este tipo. Se observa que hay ocho institu-ciones que no tienen sección para datos ni datos de investigación alojados, pero que cuentan con una guía de publicación de datos.
En general, observando las características de los repositorios institucionales que albergan datos hay una fuerte homogeneidad en la mayoría de aspec-tos: uso de un software vinculado al movimiento Open Access, plena accesibilidad a sus datos en sí, capacidad para organizar por categorías de meta-datos, algo que se vincula en muchos casos al tipo de software, óptima facilidad para acceder al tipo de licencia que se usa en cuanto a los derechos de autor, así como, hay un buen resultado en la vin-culación a un mínimo de cuatro recolectores, que infuye en un buen nivel de interoperabilidad.
En conjunto, los resultados característicos mues-tran un nivel de funcionalidad bueno de los reposi-torios institucionales que albergan datos, pero dos aspectos se plantean en este punto para cuestionar esta situación: los conjuntos de datos de investiga-ción, que son bajos y heterogéneos, y los tipos de metadatos. Puesto que, en cuanto a los metadatos, un 76,92% solo presentan metadatos en formato Dublin Core.
5. DISCUSIÓN
Los resultados analizados muestran que la pre-sencia de datos de investigación en los repositorios institucionales españoles es limitada, solo cuatro universidades españolas tienen más de doscientos datos de investigación alojados en su repositorio.
Si se tiene en cuenta que un 65% de los repo-sitorios analizados presentan políticas de acceso abierto, y que solo un 9% ha desarrollado políti-cas específcas para la gestión de datos de inves-tigación, se dibuja en estos resultados una bre-cha entre el desarrollo de las políticas de acceso abierto y las políticas para los datos de investi-gación. Puede que haya que analizar otro tipo de repositorio para observar el comportamiento de los datos de investigación en el contexto español, sean estos repositorios temáticos o centralizados exter-nos a la institución.
Sin embargo, esta falta de políticas específcas refeja una falta de desarrollo del Data Sharing y de la Data Curation por las universidades y las bibliotecas académicas.
Uno de los aspectos cruciales de la Data Cura-tion es la defnición de políticas y directrices para la gestión de datos de investigación. Sin políticas y prácticas establecidas, es más probable que los datos no sean accesibles, se pierdan o se gestionen de manera inadecuada. Ya en el año 2016 la IFLA inició el Data Curator Project que buscaba identif-car las responsabilidades clave de los curadores dedatos y desarrollar un glosario que debería ayudar a defnir mejor la profesión y desarrollar planes de estudio educativos adecuados. Pero los resultados muestran que la mayoría de las instituciones ana-lizadas carecen de políticas específcas de gestión de datos de investigación, lo que resalta la necesi-dad de un mayor énfasis en la Data Curation en el ámbito universitario sea cual sea el tipo de reposi-torio en que se alojen.
Hay dos situaciones diferentes observadas en las comunidades autónomas con más datos, la Comu-nidad de Madrid y Cataluña.
La situación del Consorcio Madroño muestra que todas sus universidades tienen políticas de gestión de datos de investigación, siendo políticas que se vinculan al consorcio. Los datos que se vinculan a las instituciones universitarias de este consorcio se encuentran en un repositorio común que ges-tiona el Consorcio Madroño, pero que las propias universidades remiten a él para la observación de sus datos, siendo la opción que los repositorios institucionales permiten. Toda esta propuesta se vincularía con una práctica clara de Data Curation por parte de estas universidades vinculadas al con-sorcio. Sin embargo, esta práctica no se aplica en toda la Comunidad de Madrid, puesto que no todas las universidades forman parte del consorcio.
La situación del Consorci de Serveis Universita-ris de Catalunya (CSUC) con respecto a la gestión de datos de investigación muestra que hay univer-sidades catalanas que siguen alojando datos de investigación en sus repositorios, cuando ya se ha planteado la creación de un repositorio específco de datos. El consorcio catalán había analizado a las distintas instituciones catalanas para alinear las políticas (Alcalá y Anglada, 2019), lo que mues-tra un interés hacía un desarrollo de la Data Cura-tion. Se plantearon dos soluciones a partir de la observación de la situación: usar algún repositorio existente, o bien, seguir la política adoptada por algunas universidades, que era la de adaptar sus repositorios institucionales para depositar datos. Finalmente, se decide crear un repositorio espe-cífco para las universidades catalanas para este cometido, y es un perfecto ejemplo para ilustrar la situación de transición en la que se encuentra la Data Sharing de investigación en España.
La vinculación entre la investigación, el Data Sharing y la Data Curation requiere de un enfoque más integral en la gestión de datos de investigación en las instituciones académicas, incluyendo la imple-mentación de políticas específcas, la promoción de buenas prácticas específcas de la Data Curation y la adopción de estándares de metadatos más adecuados. Puesto que la Data Curation tambiénestá estrechamente relacionada con la elección de estándares de metadatos, es signifcativo que el 76% de los repositorios con datos de investigación alojados solo usan Dublin Core.
6. CONCLUSIONES
La mayoría de los repositorios institucionales se vinculan a la ciencia abierta, considerando que pre-sentan políticas de acceso abierto. Mientras que la mayoría no desarrolla políticas de gestión de datos vinculantes, dos tercios presentan guías informati-vas para la gestión de datos. Teniendo en cuenta que los datos de investigación se vinculan a la cien-cia abierta misma, y que la producción científca está muy vinculada a las universidades, aunque se planteara un depósito en otro tipo de repositorios, el Data Curation recomienda a las universidades y a las bibliotecas académicas ser el intermediario entre el científco y el datasharing. Por lo que, en estos aspectos de la gestión de datos se observa un espacio posible para la mejora.
Si se atiende a los repositorios institucionales que albergan datos, en cuanto a sus características se dibuja una fuerte homogeneidad en aspectos que siguen buenas prácticas recomendadas para este tipo de plataformas. Los resultados caracterís-ticos muestran un nivel de funcionalidad bueno de los repositorios institucionales que albergan datos, pero se señalan dos aspectos a mejorar: la situa-ción de los conjuntos de datos de investigación, y los tipos de metadatos, una mayoría solo usan el formato Dublin Core, mostrando también un posi-ble recorrido para la mejora. Actualmente, en algu-nos repositorios institucionales hay datos de inves-tigación abiertos, pero es un número muy bajo.
Los conjuntos de datos se presentan en estos repositorios institucionales que albergan datos como pocos cuantitativamente en comparación con las publicaciones científcas, así como, con los datos de investigación que deberían estar asocia-dos a la investigación española. Además, se mues-tra una pobre perspectiva de continuidad, si aten-demos a las políticas de gestión de datos. Seis de los siete que tienen esta política se vinculan a un consorcio, que es desde donde se desarrollan estas buenas prácticas.
La situación en 2022 de los datos de investiga-ción abiertos en repositorios de las universidades españolas sugiere que la situación es de transición, como a la espera de unas políticas aplicadas y prácticas que planteen en nuestro contexto dónde y cómo se van a almacenar los datos de investi-gación, y concretamente, qué va a pasar con los datos de investigación que actualmente están en algunos repositorios institucionales.
7. CONTRIBUCIÓN A LA AUTORÍA Pablo Monteagudo: conceptualización, investiga-ción, metodología, supervisión, validación, visuali-zación, redacción-borrador original, redacción-re-visión y edición. Juan José Prieto: investigación, supervisión, vali-dación, visualización, redacción-borrador original, redacción-revisión y edición. 8. DECLARACIÓN DE CONFLICTO DE INTERESES Los autores de este artículo declara no tener confictos de intereses fnancieros, profesionales o personales que pudieran haber infuido de manera inapropiada en este trabajo.
9. REFERENCIAS
Abadal, E., Ollé Castellà, C., Abad-García, F., y Melero, R. (2013). Políticas de acceso abierto a la ciencia en las universidades españolas. Revista Española de Docu-mentación Científca, 36(2), e007. DOI: http://dx.doi. org/10.3989/redc.2013.2.933
Alcalá, M., y Anglada, L. (2019). FAIR x FAIR. Una aproxi-mación pragmática a la gestión de datos de investiga-ción en modo FAIR. Anuario ThinkEPI, 13. DOI: https:// doi.org/10.3145/thinkepi.2019.e13e05
Barrueco, J. M., Rico-Castro, P., y Bonora Eve, L. V. (2021). Guía para la evaluación de Repositorios institucionales de Investigación. Disponible en: https://repositoriorebiun. org/handle/20.500.11967/809
Clabo, N., y Ramos-Vielba, I. (2015). Reutilización de datos abiertos en la administración pública en España y uso de licencias-tipo. Revista Española de Documen-tación Científca, 38(3), e097-e097. DOI: https://doi. org/10.3989/redc.2015.3.1206
d'Aquin, M., Kirstein, F., Oliveira, D., Schimmler, S., y Urbanek, S. (2023). FAIREST: A Framework for Assessing Research Repositories. Data Intelligence, 5(1), 202-241. DOI: https://doi.org/10.1162/dint_a_00159
Gobierno de España. (2007). Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público. BOE, 276, 17 de noviembre de 2007. Disponible en: https://www.boe.es/buscar/act.php?i-d=BOE-A-2007-19814 [Fecha de acceso: 10/11/2023]
Gobierno de España. (2011). Ley 14/2011, de 1 de junio, de la Ciencia, la Tecnología y la Innovación. BOE, 131, de 2 de junio de 2011. Disponible en: https://www. boe.es/buscar/act.php?id=BOE-A-2011-9617 [Fecha de acceso: 10/11/2023]
Gobierno de España. (2015). Ley 18/2015, de 9 de julio, por la que se modifca la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público. BOE, 164, de 10 de julio de 2015. Dis-ponible en: https://www.boe.es/buscar/doc.php?id= BOE-A-2015-7731 [Fecha de acceso:10/11/2023]
Gobierno de España. (2022). Ley 17/2022, de 5 de sep-tiembre, por la que se modifca la Ley 14/2011, de 1 de junio, de la Ciencia, la Tecnología y la Innovación. BOE, 214, de 6 de septiembre de 2022. Disponible en: https://www.boe.es/eli/es/l/2022/09/05/17/ con
Gobierno de España. (2023). Ley Orgánica 2/2023, de 22 de marzo, del Sistema Universitario. BOE, 70, de 23 de marzo de 2023. Disponible en: https://www.boe. es/buscar/act.php?id=BOE-A-2023-7500 [Fecha de acceso:10/11/2023]
González-Teruel, A., López-Borrull, A., Santos-Hermosa, G., Abad-García, F., Ollé, C., y Serrano-Vicente, R. (2022). Drivers and barriers in the transition to open science: the perspective of stakeholders in the Spanish scientifc community. Profesional de la informa-ción, 31(3), e310305. DOI: https://doi.org/10.3145/ epi.2022.may.05
Guallar, J; Leiva-Aguilera, J. (2013). El content curator. Guía básica para el nuevo profesional de internet. Barcelona: UOC.
Heidorn, P. B. (2011). The emerging role of libraries in data curation and e-science. Journal of Library Administration, 51(7-8), 662-672. DOI: https://doi.org/10.1080/ 01930826.2011.601269
Hernández-Pérez, T. (2016). En la era de la web de los datos: Primero datos abiertos, después datos masivos. Profesional de la información, 25(4), 517-525. DOI: https://doi.org/10.3145/epi.2016.jul.01
Hernández-Pérez, T., y García-Moreno, M.A. (2013). Datos abiertos y repositorios de datos: Nuevo reto para los bibliotecarios. Profesional de la información, 22(3), DOI: https://doi.org/10.3145/epi.2013.may.10
Howard Hughes Medical Institute. (2003). Bethesda Statement on Open Access Publishing.
IFLA (2016). Data Curator Project. Disponible en: https:// www.ifla.org/wp-content/uploads/2019/05/assets/ library-theory-and-research/Projects/firstreportpro jectdatacurator.odt_.pdf
Lyon, L. (2016). Transparency: the emerging third dimension of open science and open data. Liber quarterly, 25(4). DOI: http://dx.doi.org/10.18352/lq.10113
Martín González, M. Y., y Ríos Hilario, A. B. (2018). Datos académicos abiertos en las universidades españolas: Identifcación, análisis y buenas prácticas. Ediciones Universidad de Salamanca (España). Disponible en: https://gredos.usal.es/handle/10366/138586
Max Planck Gesellschaft. (2003). Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities.
Open Society Institute, (2002). Budapest Open Access Initiative.
Sixto-Costoya, A., Aleixandre-Benavent, R., Vidal-In-fer, A., Lucas-Dominguez, R., y Castelló-Cogollos, L. (2019). Data sharing: Qué son y cómo se pueden compartir los datos de investigación. Manual de reco-mendaciones para gestores de la información. Sociedad Española de Documentación e Información Científca.
Stieglitz, S., Wilms, K., Mirbabaie, M., Hofeditz, L., Bren-ger, B., López, A., y Rehwald, S. (2020). When are researchers willing to share their data? Impacts of values and uncertainty on open data in academia. PLoS one, 15(7), e0234172. DOI: https://doi.org/10.1371/ journal.pone.0234172
Tammaro, A. M., Matusiak, K. K., Sposito, F. A., y Casa-rosa, V. (2019). Data curator's roles and responsibilities: An international perspective. Libri, 69(2), 89-104. DOI: https://doi.org/10.1515/libri-2018-0090
Torres-Salinas, D. (2010). Compartir datos (data sharing) en ciencia: contexto de una oportunidad. Anuario ThinkEPI, 258-261
Unión Europea. (2019). Directiva 2019/1024 del Parla-mento Europeo y del Consejo de 20 de junio de 2019 relativa a los datos abiertos y la reutilización de la información del sector público. Diario Ofcial de la Unión Europea L172/56, de 26 de junio de 2019. Disponi-ble en: https://www.boe.es/doue/2019/172/L00056-00079.pdf [Fecha de acceso: 10/11/2023]
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
© 2024. This work is published under https://creativecommons.org/licenses/by/4.0/ (the “License”). Notwithstanding the ProQuest Terms and Conditions, you may use this content in accordance with the terms of the License.
Abstract
The current situation of open research data in Spanish university repositories is analyzed by means of twelve indicators that allow us to compare them with each other. The twelve self-developed indicators deal with research datasets and institutional policies linked to open access, as well as some of the key characteristics of the repositories. The methodology used consists of comparing the repositories of the different universities linked to REBIUN. The result has been that datasets in institutional repositories are scarce, and the situation is heterogeneous across the territory. This raises questions about future open access policies for research data in the country's main scientific institutions.