Comparing Link Prediction and Classification for Gene-Disease Association Discovery

Abstract

The discovery of gene-disease links is an important challenge in biological and biomedical domains, as it presents opportunities in tasks such as disease detection and drug repurposing. Machine Learning approaches that predict gene-disease associations significantly accelerate this process by leveraging biological knowledge represented in ontologies and the structure of knowledge graphsto organize data.

State-of-the-art approaches for gene-disease association typically use Knowledge Graph Embeddings and other Machine Learning algorithms, modeling the problem as a pair binary classification task. Although this is generally the logic behind a Machine Learning approach, the effectiveness of link classificationapproaches is limited by the need to generate negative examples, the absence of relationships between genes and diseases, and because only some Knowledge Graph Embeddings are able to directly predict gene-disease associations.

This dissertation explores the differences between addressing the gene-disease association problem as a link classification task and a link predictiontask. We compare means of combining vectors and classification algorithms for the link classification approach. We also analyzed the influence of considering several knowledge graph embeddings in both the link classification and link prediction approaches. The methods were evaluated using biomedical data sources such as DisGeNET and popular ontologies.

Our results show that enriching the semantic representation of disease does not support better performance of link classification methods and the performance of link prediction methods in predicting disease-linked genes. However, it does support better performance of link prediction methods in predicting gene-linked diseases. The results also suggest that link prediction methods better explore the semantic richness encoded in knowledge graphs through various ontologies and additional links between ontology classes.

Employing link prediction over link classification provides advantages across design aspects and techniques. For instance, link prediction leverages relationships between target entities within knowledge graphs and does not require the synthetic generation of negative examples. While link prediction methods offer an end-to-end approach that directly generates predictions from the learned embeddings, link classification methods require integrating various Machine Learning methods with strategies to combine the embeddings, leading to increased complexity and potential loss of information.

Alternate abstract:

A descoberta de ligações gene-doença é um desafio importante nos domínios biológico e biomédico, pois apresenta oportunidades em tarefas como a prevenção de doenças, a sua rápida deteção, diagnóstico e reorientação de medicamentos. Recentemente, têm sido propostos vários métodos de aprendizagem automática para prever associações entre genes e doenças apoiados na teoria de redes, construindo redes biológicas. Estes métodos, são geralmente limitados a vizualizações agnósticas dos dados, não tendo acesso ao seu contexto e significado, mas é reconhecido que o desempenho dos métodos de aprendizagem automática pode melhorar significativamente quando o contexto e as relações entre os dados são tidos em conta.

Na última década, a explosão na complexidade, no tamanho e heterogeneidade dos dados biológicos motivou um novo panorama de dados semânticos, onde milhões de entidades biológicas descritas semanticamente (isto quer dizer, com significado) estão disponíveis em grafos de conhecimento. Os grafos de conhecimento são estruturas de dados que representam entidades do mundo real e as suas relações por meio de nós e ligações (arestas) entre esses, de uma forma que incorpore o contexto e significado proveniente das ontologias. Uma ontologia é uma especificação formal e explícita sobre um domínio em específico, na qual cada classe (ou conceito) está precisamente definida e as relações entre classes estão parametrizadas ou restringidas.

Apesar dos avanços facilitados pelas ontologias na investigação biológica e biomédica, a maioria dos trabalhos apresenta uma lacuna significativa na forma como as doenças são representadas. Normalmente, as doenças são representadas pelos seus fenótipos, as características ou traços observáveis, sem uma descrição detalhada da doença em si. Esta abordagem ignora a complexidade e o contexto completo das doenças, incluindo conceitos de doenças relacionadas no vocabulário médico. Para além disso, a integração de ontologias em fluxos de trabalhos biológicos e biomédicos é acompanhada pelo desafio de integrar as várias descrições para uma mesma classe quando são combinadas múltiplas ontolodias. A falha na integração destas descrições pode resultar em inconsistências e redundância na análise dos dados, dificultando a capacidade de capturar todo o espetro do conhecimento biológico.

A crescente integração de ontologias biomédicas na forma de grafos de conhecimento tem impulsionado o desenvolvimento de métodos combinados de aprendizagem automática. Um desafio significativo é transformar os dados provenientes dos grafos numa representação que possa ser processada pelos algoritmos populares de aprendizagem automática. Atualmente, os métodos de aprendizagem automática dependem de heurísticas definidas pelo utilizador para extrair recursos que codificam informações estruturais do grafo, como as degree statistics e as kernel functions. No entanto, estas abordagens podem não capturar toda a semântica subjacente aos grafos uma vez que se baseiam em contagens. Uma alternativa consiste em transformar as entidades e as relações dos grafos em vetores que capturam a semântica e a informação estrutural do grafo original utilizando Knowledge Graph Embeddings. Deste modo, as abordagens mais recentes para prever associações entre genes e doenças baseiam-se neste modelos para gerar representações e em algoritmos populares de aprendizagem automática para prever associações.

O problema da associação gene-doença é tipicamente modelado como uma tarefa de classificação binária de pares.

Details

Business indexing term

Subject:

Machine learning;
Artificial intelligence

Subject

Machine learning;
Graphs;
Ontology;
Disease;
Web Ontology Language-OWL;
Resource Description Framework-RDF;
Genotype & phenotype;
Genes;
Knowledge representation;
Semantics;
Artificial intelligence;
Genetics;
Web studies;
Logic

Classification

0800: Artificial intelligence
0369: Genetics
0646: Internet and social media studies
0395: Logic

Title

Comparing Link Prediction and Classification for Gene-Disease Association Discovery

Author

Canastra, Catarina Salema

Number of pages

Publication year

2024

Degree date

2024

School code

7024

Source

MAI 86/5(E), Masters Abstracts International

ISBN

9798346714767

Advisor

Pesquita, Cátia Luísa Santana Calisto

University/institution

Universidade de Lisboa (Portugal)

University location

Portugal

Degree

M.S.

Source type

Dissertation or Thesis

Language

English

Document type

Dissertation/Thesis

Dissertation/thesis number

31709751

ProQuest document ID

3132871984

Document URL

https://www.proquest.com/dissertations-theses/comparing-link-prediction-classification-gene/docview/3132871984/se-2?accountid=208611

Database copyright ProQuest LLC; ProQuest does not claim copyright in the individual underlying works.

Database

ProQuest One Academic

Comparing Link Prediction and Classification for Gene-Disease Association Discovery

Content area

Abstract

Details