Τον απομακρυσμένο 19ο αιώνα, οι ατμομηχανές άρχισαν να αντικαθιστούν τα άλογα ως η κύρια πηγή μηχανικής ισχύος. Για να αξιολογήσουν και να συγκρίνουν την απόδοση τους, εφευρέθηκε ο όρος «ίππος», που ποσοτικοποιούσε την ικανότητα μιας μηχανής να εκτελεί έργο ισοδύναμο με εκείνο ενός αλόγου. Ήταν ένα σημαντικό ορόσημο της βιομηχανικής επανάστασης.
Ωστόσο, η ισχύς και η αποδοτικότητα δεν είναι το ίδιο. Η ισχύς αναφέρεται στον ρυθμό εκτέλεσης του έργου, ενώ η αποδοτικότητα είναι η ικανότητα εκτέλεσης του έργου με επιτυχία και ελάχιστες απώλειες. Με την έλευση και ραγδαία εξάπλωση της τεχνητής νοημοσύνης (AI), προέκυψε το ερώτημα πώς να μετρηθεί η «ισχύς» και η «αποδοτικότητά» της με ουσιαστικό τρόπο.
Αποδείχθηκε ότι αυτό είναι ένα πολύ δύσκολο έργο λόγω της ασάφειας στον ορισμό της AI. Η Τεχνητή Νοημοσύνη γενικά νοείται ως η ικανότητα ενός υπολογιστή να μαθαίνει, να λαμβάνει αποφάσεις και να εκτελεί ενέργειες που σχετίζονται με την ανθρώπινη ευφυΐα. Ωστόσο, αυτός ο ορισμός ποικίλλει ανάλογα με τα συμφραζόμενα και τις εφαρμογές.

Κατανόηση της Αξιολόγησης ΤΝ
Τα συστήματα AI συχνά καλούνται να εκτελούν εργασίες που απαιτούν ανθρώπινη νοημοσύνη, όπως αναγνώριση εικόνας, επεξεργασία φυσικής γλώσσας και λήψη αποφάσεων. Η αποτελεσματική αξιολόγηση βοηθά στην εκτίμηση της απόδοσης των εφαρμογών AI και εντοπίζει προκαταλήψεις και σφάλματα στην ανάπτυξη τους.
Στάδια αξιολόγησης ΤΝ
Καθορισμός του έργου. Ένα θεμελιώδες βήμα που περιλαμβάνει σαφή περιγραφή του προβλήματος προς επίλυση — τεχνικά και επιχειρησιακά.
Συλλογή δεδομένων. Απαιτείται συγκέντρωση ή δημιουργία συνόλου δεδομένων αντιπροσωπευτικών του κοινού στόχου και των στόχων.
Ανάπτυξη μοντέλου. Σε αυτό το στάδιο δημιουργούνται οι αλγόριθμοι που θα λύσουν το συγκεκριμένο πρόβλημα.
Αξιολόγηση μοντέλου. Εδώ χρησιμοποιούνται μετρικές για την αξιολόγηση της αποτελεσματικότητας, συγκρίνοντας με αναφορές ή υπάρχουσες λύσεις.
Ενσωμάτωση. Επιτυχημένα μοντέλα ενσωματώνονται στις ροές εργασίας και αξιολογούνται συνεχώς.
Παρακολούθηση και υποστήριξη. Περιλαμβάνει τακτικό έλεγχο απόδοσης, μεταβολών στα δεδομένα και άλλων παραγόντων.
Δείκτες Αξιολόγησης AI
Η Τεχνητή Νοημοσύνη αξιολογείται βάσει μετρικών. Μια μετρική είναι ένας αντικειμενικός δείκτης της επιτυχίας ενός προϊόντος. Διαφορετικά μοντέλα αξιολογούνται βάσει των εργασιών τους.
Η επιλογή μετρικής πρέπει να ευθυγραμμίζεται με το έργο και τον τομέα εφαρμογής. Σε σύνθετα καθήκοντα, αναλύονται ξεχωριστά οι μετρικές κάθε ενέργειας. Συχνά συνδυάζονται πολλές μετρικές και συγκρίνονται με κάποιο benchmark.
Benchmark είναι ένα πρότυπο που χρησιμοποιείται για μέτρηση ή αξιολόγηση απόδοσης. Συνήθως πρόκειται για dataset δημιουργημένο από ειδικούς για αξιολόγηση μοντέλων συγκριτικά με άλλα ή με προκαθορισμένα πρότυπα, όπως σε μοντέλα γλώσσας όπου αξιολογούνται μεταφράσεις, αναλύσεις συναισθήματος κ.λπ.
LLMs και η Αξιολόγησή τους
Τα μεγάλα γλωσσικά μοντέλα (LLMs) είναι νευρωνικά δίκτυα εκπαιδευμένα σε δισεκατομμύρια λέξεις για να κατανοούν την ανθρώπινη γλώσσα. Μπορούν να μεταφράζουν, να δημιουργούν κείμενα και κώδικα, να απαντούν σε ερωτήσεις, να συνοψίζουν και να δημιουργούν καλλιτεχνικό περιεχόμενο.
Ένα χαρακτηριστικό παράδειγμα είναι το ChatGPT της OpenAI. Η τελευταία έκδοση, GPT-4, υποστηρίζει πολλαπλές μορφές — κείμενο, εικόνα, βίντεο και ήχο — κάτι που ανοίγει τον δρόμο για πιο διαδραστικές και φυσικές εμπειρίες ανθρώπου-μηχανής.
Η Hugging Face παρέχει το Open LLM leaderboard, μια πλατφόρμα που αξιολογεί και κατατάσσει την αποτελεσματικότητα LLMs βάσει benchmarks. Αυτές περιλαμβάνουν μεταφράσεις, απαντήσεις με βάση συμφραζόμενα, δημιουργία συνεκτικών κειμένων κ.λπ. Οι βασικοί δείκτες είναι:
- AI2 Reasoning Challenge: Ερωτήσεις φυσικών επιστημών που απαιτούν λογική σκέψη και γνώση υλικών.
- HellaSwag: Προκλήσεις που απαιτούν κατανόηση συμφραζομένων και διαισθητική ερμηνεία ασαφών οδηγιών.
- MMLU: Εκτίμηση σε 57 τομείς — μαθηματικά, νομικά, πληροφορική κ.ά.
- TruthfulQA: Δοκιμάζει την ακρίβεια της πληροφορίας που παράγεται, ελέγχοντας την αποφυγή ψευδών δεδομένων.
Κύριες Μετρικές για Αξιολόγηση LLM
- Accuracy: Ποσοστό σωστών προβλέψεων σε σχέση με το σύνολο. Ιδανική για κατηγοριοποίηση.
- Recall: Ποσοστό των πραγματικών θετικών που αναγνωρίζονται σωστά. Σημαντικό όταν η παράλειψη στοιχίζει.
- F1-score: Αρμονικός μέσος Precision & Recall, κατάλληλο για ανισόρροπες κλάσεις.
- Coherence: Λογική συνοχή απάντησης, αξιολογείται χειρωνακτικά ή με perplexity.
- Relevance: Συνάφεια της απάντησης με το αίτημα και τα συμφραζόμενα.
- Hallucination: Δείκτης παραγωγής ψευδών ή παραπλανητικών πληροφοριών.
- Question-answering Accuracy: Αξιολόγηση ικανότητας σωστής και χρήσιμης απάντησης.
- Toxicity: Έλεγχος για προσβλητικό ή επιθετικό περιεχόμενο.
- BLEU: Μετρική για μεταφράσεις — συγκρίνει παραγόμενες και πρότυπες μεταφράσεις.
- METEOR: Συνυπολογίζει συνώνυμα, μορφολογικές παραλλαγές και σειρά λέξεων.
- TER: Αριθμός αλλαγών για μετατροπή της μετάφρασης στην πρότυπη.
- Levenshtein Distance: Ελάχιστος αριθμός αλλαγών χαρακτήρων για μετατροπή κειμένου.
- ROUGE: Χρησιμοποιείται σε σύνοψη και μετάφραση — συγκρίνει επικαλύψεις n-grams.
Μπορεί η ΤΝ να ελεγχθεί με τεστ IQ;
Πείραμα της DeepMind προσπάθησε να αξιολογήσει αφηρημένη σκέψη με καθήκοντα τύπου IQ. Το AI απάντησε σωστά στο 75% των περιπτώσεων.
Ο Maxim Lott ανέπτυξε προσαρμοσμένο τεστ IQ για ΤΝ με λεκτικές περιγραφές εικόνων. Το Claude-3 έλαβε 101 βαθμούς, το ChatGPT-4 πήρε 85. Ο μέσος ανθρώπινος IQ είναι 100.
Παρά τα εντυπωσιακά αποτελέσματα, η "νοημοσύνη" της ΤΝ διαφέρει θεμελιωδώς από την ανθρώπινη — έχει άλλες δυνατότητες και περιορισμούς.
Συμπεράσματα
Η αξιολόγηση της ΤΝ απαιτεί συνδυασμό τεχνικών και ηθικών προσεγγίσεων. Η κατανόηση του τρόπου λειτουργίας και των παραμέτρων που την επηρεάζουν είναι κρίσιμη για την υπεύθυνη και αποδοτική χρήση της.