Έρευνα: Υπολογιστική Ευφυία με απλά λόγια


ΤΟΥ ΔΡΟΣ ΓΕΩΡΓΙΟΥ Μ. ΣΠΥΡΟΥ*
Πολλοί αναρωτιόμαστε όταν ακούμε τον όρο «υπολογιστική ευφυία» πώς γίνεται ένας υπολογιστής να είναι ευφυής. Πολλές φορές μάλιστα αποδίδουμε την έννοια της ευφυίας στην ιδιότητα των υπολογιστών να εκτελούν ταχύτατους υπολογισμούς πολύπλοκων πράξεων σε μεγάλο αριθμό επαναλήψεων. Ωστόσο, πέραν από την ταχύτητα εκτέλεσης πράξεων, τα υπολογιστικά συστήματα μέσω κατάλληλων αλγορίθμων, μπορούν να τύχουν εκπαίδευσης και να κάνουν ενέργειες που δεν έχουν αποκλειστικά αριθμητικό χαρακτήρα αλλά σχετίζονται και με ιδιότητες όπως η κριτική ικανότητα και η ικανότητα γενίκευσης. Τέτοιες ενέργειες είναι η ομαδοποίηση (data clustering) και η ταξινόμηση δεδομένων (data classification).
Η μηχανική μάθηση (machine learning) όπως αναφέρεται βιβλιογραφικά, περιλαμβάνει διάφορες στρατηγικές μάθησης, ανάμεσα στις οποίες κεντρικό ρόλο έχουν η μάθηση με επίβλεψη (supervised learning) και η μάθηση χωρίς επίβλεψη (unsupervised learning).
Στην μάθηση με επίβλεψη, το υπολογιστικό σύστημα εκπαιδεύεται με στόχο να μπορεί να κατατάξει τα δεδομένα εισόδου σε έναν σαφώς καθορισμένο αριθμό και τύπο κλάσεων. Η εκπαίδευση γίνεται παρέχοντας στον υπολογιστή παραδείγματα γνωστής ταξινόμησης, με τη βοήθεια των οποίων παραμετροποιείται ένα μαθηματικό μοντέλο ώστε να μπορεί να κατατάξει νέα δεδομένα, άγνωστης προς αυτό κατηγοριοποίησης. Τα κρίσιμα μεγέθη που αξιοποιούνται κάθε φορά στο μοντέλο ταξινόμησης ορίζονται ως χαρακτηριστικά (features). Φροντίζουμε να ελέγχουμε μέσω αλγορίθμων επιλογής χαρακτηριστικών (feature selection methods) τα πιο σημαντικά, τα οποία είναι αντιπροσωπευτικά για την ταξινόμηση και όσο γίνεται ανεξάρτητα μεταξύ τους. Το μοντέλο ταξινόμησης αναπτύσσεται στον χώρο των επιλεγμένων χαρακτηριστικών (feature space). Τα δεδομένα μας, λοιπόν, συνήθως χωρίζονται σε δεδομένα εκπαίδευσης (training set) και δεδομένα ελέγχου (test set), ενώ αν υπάρχει μικρός αριθμός δεδομένων εφαρμόζουμε στρατηγικές ελέγχου με πολλαπλά υποσύνολα όπου κρατάμε ένα ή περισσότερα δείγματα για έλεγχο εκπαιδεύοντας με όλα τα υπόλοιπα για έναν μεγάλο αριθμό επαναλήψεων. Στο τέλος είμαστε σε θέση να πούμε πόσα δείγματα ταξινομήσαμε σωστά και πόσα λανθασμένα σε κάθε κλάση, υπολογίζοντας τα αληθώς ταξινομημένα ως θετικά (True Positive-TP), αληθώς ταξινομημένα ως αρνητικά (True Negative-TN), ψευδώς ταξινομημένα ως θετικά (False Positive-FP) και ψευδώς ταξινομημένα ως αρνητικά (False Negative-FN), θεωρώντας ότι έχουμε δύο κλάσεις: την θετική και την αρνητική. Με αυτόν τον τρόπο έχουμε την δυνατότητα να μετρήσουμε την ευαισθησία (sensitivity), την ειδικότητα (specificity) και μέσω αυτών την ακρίβεια (accuracy) της ταξινόμησης.
Στην περίπτωση της μάθησης χωρίς επίβλεψη, επιλέγουμε τα χαρακτηριστικά που αντιπροσωπεύουν καλύτερα τα δείγματά μας, δημιουργούμε το χώρο τους (feature space) και επιλέγουμε μια μετρική απόστασης μεταξύ των δεδομένων. Το υπολογιστικό σύστημα τότε, δημιουργεί συστάδες-ομάδες (clusters) από τα δεδομένα προσπαθώντας να ελαχιστοποιήσει την διακύμανση μεταξύ των δειγμάτων μέσα σε κάθε ομάδα (ομοιομορφία) και να μεγιστοποιήσει την διακύμανση μεταξύ των διαφορετικών ομάδων (διαφοροποίηση). Με αυτό τον τρόπο το σύστημα καταλήγει να προτείνει έναν αριθμό από ομάδες δεδομένων. Όπως στην περίπτωση της ταξινόμησης, έτσι και στην περίπτωση της ομαδοποίησης μπορεί να υπάρξει έλεγχος εγκυρότητας (validation) όταν εφαρμόσουμε τον αλγόριθμο σε δεδομένα προ-αποφασισμένης ή προφανούς ομαδοποίησης. Ο αριθμός των επιτυχιών ή αποτυχιών κατά την ομαδοποίηση μπορεί να τροφοδοτήσει στατιστικούς ελέγχους απόδοσης.
Στην περίπτωση της Βιοπληροφορικής υπάρχουν πολλές εφαρμογές της υπολογιστικής ευφυίας. Ενδεικτικά αναφέρουμε εργασίες επιστημόνων της Ομάδας Βιοπληροφορικής του Ινστιτούτου Νευρολογίας & Γενετικής Κύπρου σχετικά με την ταξινόμηση ευρημάτων από πειράματα νέας γενιάς αλληλούχισης (Next Generation Sequencing) [1], ταξινόμηση μετρήσεων γονιδιακής έκφρασης [2], ομαδοποίηση μοριακών μηχανισμών που σχετίζονται με κάποια ασθένεια [3-5], ομαδοποίηση φαρμάκων [6,7] και πεπτιδίων [8].
Η Ομάδα Βιοπληροφορικής του Ινστιτούτου Νευρολογίας & Γενετικής Κύπρου (ΙΝΓΚ) δημιουργήθηκε το 2016 με την υποστήριξη ευρωπαϊκής χρηματοδότησης (EU H2020 ERA Chair grant, BIORISE Project). Η αποστολή της Ομάδας είναι να λειτουργήσει ως πυρήνας αριστείας στην περιοχή της εφαρμοσμένης Βιοπληροφορικής συμβάλλοντας στην πιο έγκαιρη και με μεγαλύτερη ακρίβεια διάγνωση, καθώς και στην στοχευμένη υπόδειξη φαρμάκων και φαρμακευτικών στόχων. Ο στόχος της ομάδας είναι να συνεισφέρει στο όραμα της Ιατρικής ακριβείας (Precision Medicine) και της εξατομικευμένης Ιατρικής (Personalized Medicine). Για τον λόγο αυτό, η Ομάδα Βιοπληροφορικής του ΙΝΓΚ αναπτύσσει έρευνα αιχμής στο πεδίο της Συστημικής Βιοπληροφορικής, παρέχει εκπαίδευση σε μεταπτυχιακό επίπεδο μέσω της Σχολής Μοριακής Ιατρικής Κύπρου, παρέχει υπηρεσίες στα άλλα Τμήματα και Κλινικές του ΙΝΓΚ και επικοινωνεί το πεδίο της Βιοπληροφορικής μέσω διαλέξεων σε μαθητές σχολείων καθώς και στην ευρύτερη κοινωνία.
Βιβλιογραφία
  1. Anastasis Oulas, George Minadakis, Margarita Zachariou, and George Spyrou. Selecting variants of unknown significance through network-based gene-association significantly improves risk prediction for disease-control cohorts. Scientific Reports. 2019 Feb 1
  2. Sakellariou A, Sanoudou D, Spyrou G, “Combining multiple hypothesis testing and affinity propagation clustering drives to accurate, robust and sample size independent classification on gene expression data, BMC Bioinformatics, 2012 Oct 17;13:270.
  3. Andrea C. Kakouri, Christiana C. Christodoulou, Margarita Zachariou, Anastasis Oulas, George Minadakis, Christiana A. Demetriou, Christina Votsi, Eleni-Zamba Papanicolaou, Kyproula Christodoulou, George M. Spyrou. Revealing Clusters of Connected Pathways through Multisource Data Integration in Huntington’s disease and Spastic Ataxia. IEEE Journal of Biomedical and Health Informatics 2018 Aug 30.
  4. G. Minadakis, M. Zachariou, A. Oulas, and G. M. Spyrou, PathwayConnector: finding complementary pathways to enhance functional analysis, Bioinformatics, Aug 14 2018.
  5. Margarita Zachariou, George Minadakis, Anastasis Oulas, Sotiroula Afxenti, George M. Spyrou. Integrating multi-source information on a single network to detect disease-related clusters of molecular mechanisms. J Proteomics. 2018 Mar 13. pii: S1874-3919(18)30104-0. doi: 10.1016/j.jprot.2018.03.009
  6. E. Karatzas, M. M. Bourdakou, G. Kolios & G. M. Spyrou. Drug repurposing in idiopathic pulmonary fibrosis filtered by a bioinformatics-derived composite score. Scientific Reports. 2017 Oct 3;7(1):12569.
  7. Athanasiadis E, Cournia Z, Spyrou G, “ChemBioServer: A web-based pipeline for filtering, clustering and visualization of chemical compounds used in drug discovery” Bioinformatics. 2012 Nov 15;28(22):3002-3
  8. Alexandridou A, Dovrolis N, Tsangaris GT, Nikita K, Spyrou G. “PepServe: a web server for peptide analysis, clustering and visualization”, Nucleic Acids Res. 2011 Jul;39(Web Server issue):W381-4.

    *Κάτοχος της Έδρας Βιοπληροφορικής στο Ινστιτούτο Νευρολογίας και Γενετικής Κύπρου



Comments (0)


This thread has been closed from taking new comments.



Newsletter











407