ΤΟΥ ΔΡΟΣ ΓΕΩΡΓΙΟΥ Μ. ΣΠΥΡΟΥ*
Πολλοί αναρωτιόμαστε όταν ακούμε τον όρο «υπολογιστική ευφυία» πώς γίνεται ένας υπολογιστής να είναι ευφυής. Πολλές φορές μάλιστα αποδίδουμε την έννοια της ευφυίας στην ιδιότητα των υπολογιστών να εκτελούν ταχύτατους υπολογισμούς πολύπλοκων πράξεων σε μεγάλο αριθμό επαναλήψεων. Ωστόσο, πέραν από την ταχύτητα εκτέλεσης πράξεων, τα υπολογιστικά συστήματα μέσω κατάλληλων αλγορίθμων, μπορούν να τύχουν εκπαίδευσης και να κάνουν ενέργειες που δεν έχουν αποκλειστικά αριθμητικό χαρακτήρα αλλά σχετίζονται και με ιδιότητες όπως η κριτική ικανότητα και η ικανότητα γενίκευσης. Τέτοιες ενέργειες είναι η ομαδοποίηση (data clustering) και η ταξινόμηση δεδομένων (data classification).
Η μηχανική μάθηση (machine learning) όπως αναφέρεται βιβλιογραφικά, περιλαμβάνει διάφορες στρατηγικές μάθησης, ανάμεσα στις οποίες κεντρικό ρόλο έχουν η μάθηση με επίβλεψη (supervised learning) και η μάθηση χωρίς επίβλεψη (unsupervised learning).
Στην μάθηση με επίβλεψη, το υπολογιστικό σύστημα εκπαιδεύεται με στόχο να μπορεί να κατατάξει τα δεδομένα εισόδου σε έναν σαφώς καθορισμένο αριθμό και τύπο κλάσεων. Η εκπαίδευση γίνεται παρέχοντας στον υπολογιστή παραδείγματα γνωστής ταξινόμησης, με τη βοήθεια των οποίων παραμετροποιείται ένα μαθηματικό μοντέλο ώστε να μπορεί να κατατάξει νέα δεδομένα, άγνωστης προς αυτό κατηγοριοποίησης. Τα κρίσιμα μεγέθη που αξιοποιούνται κάθε φορά στο μοντέλο ταξινόμησης ορίζονται ως χαρακτηριστικά (features). Φροντίζουμε να ελέγχουμε μέσω αλγορίθμων επιλογής χαρακτηριστικών (feature selection methods) τα πιο σημαντικά, τα οποία είναι αντιπροσωπευτικά για την ταξινόμηση και όσο γίνεται ανεξάρτητα μεταξύ τους. Το μοντέλο ταξινόμησης αναπτύσσεται στον χώρο των επιλεγμένων χαρακτηριστικών (feature space). Τα δεδομένα μας, λοιπόν, συνήθως χωρίζονται σε δεδομένα εκπαίδευσης (training set) και δεδομένα ελέγχου (test set), ενώ αν υπάρχει μικρός αριθμός δεδομένων εφαρμόζουμε στρατηγικές ελέγχου με πολλαπλά υποσύνολα όπου κρατάμε ένα ή περισσότερα δείγματα για έλεγχο εκπαιδεύοντας με όλα τα υπόλοιπα για έναν μεγάλο αριθμό επαναλήψεων. Στο τέλος είμαστε σε θέση να πούμε πόσα δείγματα ταξινομήσαμε σωστά και πόσα λανθασμένα σε κάθε κλάση, υπολογίζοντας τα αληθώς ταξινομημένα ως θετικά (True Positive-TP), αληθώς ταξινομημένα ως αρνητικά (True Negative-TN), ψευδώς ταξινομημένα ως θετικά (False Positive-FP) και ψευδώς ταξινομημένα ως αρνητικά (False Negative-FN), θεωρώντας ότι έχουμε δύο κλάσεις: την θετική και την αρνητική. Με αυτόν τον τρόπο έχουμε την δυνατότητα να μετρήσουμε την ευαισθησία (sensitivity), την ειδικότητα (specificity) και μέσω αυτών την ακρίβεια (accuracy) της ταξινόμησης.
Στην περίπτωση της μάθησης χωρίς επίβλεψη, επιλέγουμε τα χαρακτηριστικά που αντιπροσωπεύουν καλύτερα τα δείγματά μας, δημιουργούμε το χώρο τους (feature space) και επιλέγουμε μια μετρική απόστασης μεταξύ των δεδομένων. Το υπολογιστικό σύστημα τότε, δημιουργεί συστάδες-ομάδες (clusters) από τα δεδομένα προσπαθώντας να ελαχιστοποιήσει την διακύμανση μεταξύ των δειγμάτων μέσα σε κάθε ομάδα (ομοιομορφία) και να μεγιστοποιήσει την διακύμανση μεταξύ των διαφορετικών ομάδων (διαφοροποίηση). Με αυτό τον τρόπο το σύστημα καταλήγει να προτείνει έναν αριθμό από ομάδες δεδομένων. Όπως στην περίπτωση της ταξινόμησης, έτσι και στην περίπτωση της ομαδοποίησης μπορεί να υπάρξει έλεγχος εγκυρότητας (validation) όταν εφαρμόσουμε τον αλγόριθμο σε δεδομένα προ-αποφασισμένης ή προφανούς ομαδοποίησης. Ο αριθμός των επιτυχιών ή αποτυχιών κατά την ομαδοποίηση μπορεί να τροφοδοτήσει στατιστικούς ελέγχους απόδοσης.
Στην περίπτωση της Βιοπληροφορικής υπάρχουν πολλές εφαρμογές της υπολογιστικής ευφυίας. Ενδεικτικά αναφέρουμε εργασίες επιστημόνων της Ομάδας Βιοπληροφορικής του Ινστιτούτου Νευρολογίας & Γενετικής Κύπρου σχετικά με την ταξινόμηση ευρημάτων από πειράματα νέας γενιάς αλληλούχισης (Next Generation Sequencing) [1], ταξινόμηση μετρήσεων γονιδιακής έκφρασης [2], ομαδοποίηση μοριακών μηχανισμών που σχετίζονται με κάποια ασθένεια [3-5], ομαδοποίηση φαρμάκων [6,7] και πεπτιδίων [8].
Η Ομάδα Βιοπληροφορικής του Ινστιτούτου Νευρολογίας & Γενετικής Κύπρου (ΙΝΓΚ) δημιουργήθηκε το 2016 με την υποστήριξη ευρωπαϊκής χρηματοδότησης (EU H2020 ERA Chair grant, BIORISE Project). Η αποστολή της Ομάδας είναι να λειτουργήσει ως πυρήνας αριστείας στην περιοχή της εφαρμοσμένης Βιοπληροφορικής συμβάλλοντας στην πιο έγκαιρη και με μεγαλύτερη ακρίβεια διάγνωση, καθώς και στην στοχευμένη υπόδειξη φαρμάκων και φαρμακευτικών στόχων. Ο στόχος της ομάδας είναι να συνεισφέρει στο όραμα της Ιατρικής ακριβείας (Precision Medicine) και της εξατομικευμένης Ιατρικής (Personalized Medicine). Για τον λόγο αυτό, η Ομάδα Βιοπληροφορικής του ΙΝΓΚ αναπτύσσει έρευνα αιχμής στο πεδίο της Συστημικής Βιοπληροφορικής, παρέχει εκπαίδευση σε μεταπτυχιακό επίπεδο μέσω της Σχολής Μοριακής Ιατρικής Κύπρου, παρέχει υπηρεσίες στα άλλα Τμήματα και Κλινικές του ΙΝΓΚ και επικοινωνεί το πεδίο της Βιοπληροφορικής μέσω διαλέξεων σε μαθητές σχολείων καθώς και στην ευρύτερη κοινωνία.