Έρευνα Harvard: Μοντέλο AI ξεπέρασε ανθρώπους γιατρούς σε διαγνώσεις στα Επείγοντα

Οι ερευνητές διεξήγαγαν μια σειρά πειραμάτων για να μετρήσουν πώς τα μοντέλα της OpenAI συγκρίνονται με την κρίση ανθρώπινων ιατρών.

Newsroom
3'

Μια νέα μελέτη ρίχνει φως στις δυνατότητες των μεγάλων γλωσσικών μοντέλων (LLMs) στον ιατρικό τομέα, αποκαλύπτοντας ότι η Τεχνητή Νοημοσύνη μπορεί να προσφέρει πιο ακριβείς διαγνώσεις σε πραγματικά περιστατικά στα επείγοντα σε σχέση με ανθρώπινους γιατρούς.

Η έρευνα, η οποία δημοσιεύτηκε στο επιστημονικό περιοδικό Science, διεξήχθη από ομάδα γιατρών και επιστημόνων πληροφορικής της Ιατρικής Σχολής του Harvard (Harvard Medical School) και του ιατρικού κέντρου Beth Israel Deaconess. Οι ερευνητές διεξήγαγαν μια σειρά πειραμάτων για να μετρήσουν πώς τα μοντέλα της OpenAI συγκρίνονται με την κρίση ανθρώπινων ιατρών.

Οι ερευνητές επικεντρώθηκαν σε 76 ασθενείς που επισκέφθηκαν τα επείγοντα του νοσοκομείου Beth Israel. Σύγκριναν τις διαγνώσεις δύο παθολόγων (internal medicine attending physicians) με εκείνες που παρήγαγαν τα μοντέλα o1 και 4o της OpenAI. Η αξιολόγηση των διαγνώσεων έγινε από δύο άλλους γιατρούς, οι οποίοι δεν γνώριζαν ποιες προέρχονταν από ανθρώπους και ποιες από το AI.

Σύμφωνα με τα ευρήματα, το μοντέλο o1 είχε “ακριβή ή πολύ κοντινή διάγνωση” στο 67% των περιπτώσεων κατά την αρχική διαλογή (triage). Τα αντίστοιχα ποσοστά για τους δύο ανθρώπους γιατρούς ήταν 55% και 50%. Η διαφορά αυτή ήταν πιο έντονη ακριβώς σε αυτό το πρώτο στάδιο της διαλογής, όπου υπάρχουν οι λιγότερες διαθέσιμες πληροφορίες και η μεγαλύτερη πίεση για λήψη σωστής απόφασης.

Είναι σημαντικό να σημειωθεί ότι τα δεδομένα δεν υπέστησαν καμία απολύτως προεπεξεργασία. Η AI τροφοδοτήθηκε με τις ίδιες ακριβώς πληροφορίες που υπήρχαν στον ηλεκτρονικό φάκελο υγείας τη στιγμή της διάγνωσης.

Παρά τα εντυπωσιακά στατιστικά, οι συγγραφείς της μελέτης ξεκαθαρίζουν ότι η AI δεν είναι έτοιμη να λαμβάνει πραγματικές αποφάσεις ζωής ή θανάτου στα επείγοντα, τονίζοντας την επείγουσα ανάγκη για κλινικές δοκιμές σε πραγματικές συνθήκες. Παράλληλα, τα μοντέλα δοκιμάστηκαν μόνο με δεδομένα κειμένου, καθώς τα σημερινά συστήματα εμφανίζουν περιορισμούς όταν καλούνται να αναλύσουν δεδομένα που δεν είναι σε μορφή κειμένου.

Η έρευνα, ωστόσο, προκάλεσε την αντίδραση γιατρών της πρώτης γραμμής, όπως αναφέρει το TechCrunch. Η Kristen Panthagani, γιατρός επειγόντων περιστατικών, σημείωσε ότι πρόκειται για μια ενδιαφέρουσα μελέτη η οποία όμως οδήγησε σε “υπερβολικούς τίτλους ειδήσεων”.

Η ίδια εντοπίζει δύο βασικά προβλήματα στην ερμηνεία των αποτελεσμάτων:

Λάθος ειδικότητα: Η σύγκριση της AI έγινε με παθολόγους και όχι με γιατρούς επειγόντων (ER physicians). “Αν πρόκειται να συγκρίνουμε τα εργαλεία AI με την κλινική ικανότητα των γιατρών, θα πρέπει να ξεκινήσουμε συγκρίνοντας με γιατρούς που ασκούν πραγματικά αυτή την ειδικότητα”, ανέφερε.

Διαφορετική στοχοθεσία: Όπως εξήγησε η Dr. Panthagani, ο πρωταρχικός στόχος ενός γιατρού στα επείγοντα την πρώτη φορά που βλέπει έναν ασθενή δεν είναι να μαντέψει την τελική διάγνωση, αλλά να καθορίσει αν ο ασθενής πάσχει από κάτι που θα μπορούσε να τον σκοτώσει.

Μοιραστείτε αυτό το άρθρο
ΑπόNewsroom
Ακολουθήστε
Tο πρώτο ειδησεογραφικό πόρταλ στην Ελλάδα για τις startups, που αναδεικνύει τα νέα και τη δυναμική του ελληνικού οικοσυστήματος. Εκτός από την καταγραφή του ελληνικού οικοσυστήματος καλύπτει τα τεκταινόμενα και τις διεθνείς τάσεις σε ό,τι αφορά στις startups, τις επενδύσεις, τις νομικές και φορολογικές ρυθμίσεις που αφορούν στα επιχειρηματικά οικοσυστήματα της Ευρώπης και του κόσμου.