Content area

Abstract

Κατά την τελευταία δεκαετία, ο όγκος των δεδομένων που παράγονται έχει αυξηθεί δραστικά και η τάση αυτή αναμένεται να συνεχιστεί τα επόμενα χρόνια. Στον τομέα της υγειονομικής περίθαλψης, η ανάπτυξη αυτή είναι ιδιαίτερα σημαντική, καθώς η παραγωγή δεδομένων εξελίσσεται ραγδαία και διαθέτει τεράστιες δυνατότητες για την πρόοδο της κλινικής πρακτικής και της έρευνας. Ο απώτερος σκοπός της συλλογής, τόσο μεγάλων όγκων δεδομένων, είναι η δυνατότητα παραγωγής ακριβών και στοχευμένων προβλέψεων, οι οποίες μπορούν να βελτιώσουν τη διαδικασία λήψης αποφάσεων. Για να επιτευχθεί αυτό ωστόσο, δεν απαιτείται μόνο μεγάλος όγκος δεδομένων, αλλά και δεδομένα υψηλής ποιότητας και αξιοπιστίας. Στην πράξη, τα δεδομένα συχνά εμφανίζονται σε διαφορετικές μορφές και τύπους, με παρόμοιες πληροφορίες να αποθηκεύονται κάτω από διαφορετικά ονόματα μεταβλητών ή δομές. Αυτό δημιουργεί σημαντικές προκλήσεις ετερογένειας και καθιστά απαραίτητη τη διαδικασία ομογενοποίησης και ενοποίησης των δεδομένων. Η ομογενοποίηση των δεδομένων στοχεύει στη συνένωση δεδομένων από πολλαπλές αυτόνομες και ετερογενείς πηγές, σε ένα ενοποιημένο σύνολο, εξαλείφοντας τα προβλήματα που μπορεί να παρουσιάσουν, όπως διπλότυπες εγγραφές, αλλά και τυποποιώντας τα δεδομένα, έτσι ώστε να καθίσταται δυνατή η ομοιόμορφη πρόσβαση και μια ενιαία, συγκεντρωτική εικόνα. Παράλληλα, τα ακατέργαστα δεδομένα (raw data) περιέχουν συχνά λανθασμένες τιμές, οι οποίες υποβαθμίζουν την ποιότητά τους. Για τον λόγο αυτό, η προ επεξεργασία μέσω κατάλληλων τεχνικών καθαρισμού δεδομένων αποτελεί αναγκαίο βήμα, το οποίο περιλαμβάνει μια σειρά ενεργειών για τη διασφάλιση της ακρίβειας, της πληρότητας και της αξιοπιστίας των δεδομένων. Προς αυτή την κατεύθυνση, στην παρούσα διπλωματική εργασία παρουσιάζεται αρχικά μια βιβλιογραφική ανασκόπηση των υφιστάμενων μεθόδων για την ενοποίηση ετερογενών πηγών δεδομένων και, στη συνέχεια, παρουσιάζονται τεχνικές και αλγόριθμοι καθαρισμού που διασφαλίζουν την ποιότητάς τους. Επιπλέον, προτείνεται ένα πρακτικό περιβάλλον, όπου ο χρήστης μπορεί να εφαρμόσει τους συγκεκριμένους αλγορίθμους σε δεδομένα υγείας. Δεδομένης της ιδιαίτερης σημασίας τους, έχει την δυνατότητα να τα ομογενοποιήσει, να τα καθαρίσει και να διασφαλίσει την αξιοπιστία τους. Καταλήγοντας, μπορεί να αξιολογήσει την απόδοση της κάθε μεθόδου και να λάβει περισσότερες πληροφορίες σχετικά με τη συγκριτική αποτελεσματικότητα της κάθε μεθόδου.

Abstract (AI English translation)

Information popover about translation disclaimer

Over the last decade, the amount of data generated has increased dramatically and this trend is expected to continue in the coming years. In healthcare, this development is particularly important, as data generation is rapidly evolving and holds enormous potential for advancing clinical practice and research. The ultimate goal of collecting such large volumes of data is the ability to produce accurate and targeted predictions that can improve the decision-making process. To achieve this, however, not only a large amount of data is required, but also high quality and reliable data. In practice, data often appears in different forms and types, with similar information stored under different variable names or structures. This creates significant heterogeneity challenges and necessitates the process of data homogenization and integration. Data homogenization aims to combine data from multiple autonomous and heterogeneous sources into a unified whole, eliminating the problems they may present, such as duplicate records, but also standardizing the data, so as to enable uniform access and a single, consolidated picture. At the same time, raw data often contain incorrect values, which degrade their quality. For this reason, pre-processing through appropriate data cleaning techniques is a necessary step, which includes a series of actions to ensure the accuracy, completeness and reliability of the data. In this direction, this thesis first presents a literature review of existing methods for the integration of heterogeneous data sources, and then presents cleaning techniques and algorithms that ensure their quality. Furthermore, a practical environment is proposed, where the user can apply the specific algorithms to health data. Given their special importance, it has the ability to homogenize them, clean them and ensure their reliability. As a result, he can evaluate the performance of each method and get more information about the comparative effectiveness of each method.

Details

1010268
Business indexing term
Classification
Title
Αλγόριθμοι ομογενοποίησης και διασφάλισης ποιότητας δεδομένων
Alternate title
Data homogenization and quality assurance algorithms
Number of pages
104
Publication year
2025
Degree date
2025
School code
4463
Source
MAI 87/6(E), Masters Abstracts International
ISBN
9798270217433
University/institution
University of Piraeus (Greece)
University location
Greece
Degree
M.M.
Source type
Dissertation or Thesis
Language
Greek
Document type
Dissertation/Thesis
Dissertation/thesis number
32375334
ProQuest document ID
3283377212
Document URL
https://www.proquest.com/dissertations-theses/αλγόριθμοι-ομογενοποίησης-και-διασφάλισης/docview/3283377212/se-2?accountid=208611
Copyright
Database copyright ProQuest LLC; ProQuest does not claim copyright in the individual underlying works.
Database
2 databases
  • ProQuest One Academic
  • ProQuest One Academic