Συνδετιστικό υπολογιστικό μοντέλο για την ανάγνωση μεμονωμένων πολυσύλλαβων ελληνικών λέξεων και ψευδολέξεων

Παρουσιάστηκε στο 3ο Πανελλήνιο Συνέδριο Γνωστικής Ψυχολογίας. Ιωάννινα, 29 Μαρτίου–1 Απριλίου 2012.

Κωνσταντίνος Δ. Ούτος & Αθανάσιος Πρωτόπαπας
Πανεπιστήμιο Αθηνών

Εισαγωγή/Σκοπός. Τα τελευταία χρόνια υπάρχει κινητικότητα στην ανάπτυξη υπολογιστικών μοντέλων για την ανάγνωση πολυσύλλαβων λέξεων, αλλά κυρίως δισύλλαβων και τρισύλλαβων για την αγγλική γλώσσα. Η ελληνική γλώσσα είναι ορθογραφικά διαφορετική από την αγγλική, όντας διαφανής σε μεγάλο ποσοστό και χρησιμοποιώντας ένα τονικό σημάδι για την κατάδειξη της τονούμενης συλλαβής. Επιπλέον χρησιμοποιεί κυρίως πολυσύλλαβες λέξεις. Η μόνη ασυνέπεια της, είναι η ύπαρξη του φαινομένου ΣiΦ που επηρεάζει την ομαλή γραφοφωνημική μετατροπή ενώ αποτρέπει τη χρήση των υπαρχόντων μοντέλων λόγω αδυναμίας προσυλλαβισμού της λέξης που αυτά απαιτούν (αδυναμία όταν ομόγραφα έχουν φωνολογικές αναπαραστάσεις με άνισο αριθμό συλλαβών). Ένα νέο μοντέλο θα πρέπει να δημιουργηθεί, ειδικά για την ελληνική γλώσσα.
Το μοντέλο. Παρουσιάζεται ένα συνδετιστικό υπολογιστικό μοντέλο ανάγνωσης μεμονωμένων λέξεων για την ελληνική γλώσσα που μπορεί να διαβάσει λέξεις και ψευδολέξεις μήκους από 2 έως 5 συλλαβές και από 4 έως 10 γράμματα. Βασίζεται στην υλοποίηση του «τριγωνικού» μοντέλου των Harm και Seidenberg αφού τροποποιήθηκε να χειρίζεται πολυσύλλαβες λέξεις που φέρουν τονικό σημάδι και να μην κάνει προσυλλαβισμό στην είσοδο. Το μοντέλο εκπαιδεύτηκε χρησιμοποιώντας 120.745 λέξεις από ένα δικτυακό σώμα κειμένων (ΕΘΕΓ) αναλογικά ως προς την συχνότητα εμφάνισης της κάθε λέξης.
Αποτελέσματα. Μετά την εκπαίδευση με 5.000.000 αναγνώσεις λέξεων, 150 λέξεις και 150 ψευδολέξεις (ισοσταθμισμένες και χωρίς αλληλοσυσχετίσεις ως προς το μήκος, τη συχνότητα, τον αριθμό ορθογραφικών γειτόνων, τη διγραμματική συχνότητα και τη διαφάνεια) χρησιμοποιήθηκαν για αξιολόγηση. Το μοντέλο δείχνει καλή ακρίβεια στην ανάγνωση τόσο των λέξεων (98%) όσο και των ψευδολέξεων (96%) αξιολόγησης. Επίσης σε σύγκριση με συμπεριφορικά δεδομένα, ο χρόνος απόκρισης επηρεάζεται από τους ίδιους παράγοντες, εκτός της συχνότητας. Τέλος η ανάγνωση λέξεων χωρίς τονικό σημάδι ήταν 61% σωστή.
Συμπεράσματα. Το μοντέλο είναι το πρώτο που αφορά την ελληνική γλώσσα και τα χαρακτηριστικά της. Τα αποτελέσματα είναι ενθαρρυντικά, ενώ συνεχίζεται η εκπαίδευση και η αξιολόγησή του και ως προς το φαινόμενο ΣiΦ.