Η Perplexity σηκώνει το γάντι με το αναβαθμισμένο Deep Research

Το Perplexity Deep Research πέτυχε το χαμηλότερο μέσο χρόνο απόκρισης στα 459,6 δευτερόλεπτα διατηρώντας παράλληλα τις υψηλότερες βαθμολογίες ακρίβειας

Βαγγέλης Γραικόπουλος
4'

Η Perplexity ανακοίνωσε την αναβάθμιση του εργαλείο Deep Research ώστε να λειτουργεί με το μοντέλο Claude Opus 4.5 της Anthropic, συνδυάζοντας προηγμένες δυνατότητες λογικής σκέψης με την ιδιόκτητη μηχανή αναζήτησης της εταιρείας και την υποδομή sandbox. Η αναβάθμιση είναι άμεσα διαθέσιμη για συνδρομητές Max και θα κυκλοφορήσει για χρήστες Pro τις επόμενες ημέρες.

Η εταιρεία τεχνητής νοημοσύνης για αναζήτηση κυκλοφόρησε επίσης το DRACO, ένα νέο ανοιχτού κώδικα σύστημα αξιολόγησης σχεδιασμένο να αξιολογεί agents βαθιάς έρευνας με βάση πραγματικά μοτίβα χρήσης και όχι απομονωμένες δεξιότητες.

Το Benchmark δείχνει την Perplexity να προηγείται στην ακρίβεια

Το Deep Research Accuracy, Completeness, and Objectivity (DRACO) Benchmark περιλαμβάνει 100 εργασίες σε 10 τομείς: Ακαδημαϊκά, Χρηματοοικονομικά, Νομικά, Ιατρική, Τεχνολογία, Γενικές Γνώσεις, UX Design, Προσωπικός Βοηθός, Αγορές και Needle in a Haystack. Κάθε εργασία αξιολογείται με βάση περίπου 40 κριτήρια που ορίζονται από ειδικούς σε τέσσερις διαστάσεις: πραγματική ακρίβεια, εύρος και βάθος ανάλυσης, ποιότητα παρουσίασης και ποιότητα παραπομπών.

Σύμφωνα με το άρθρο της Perplexity, το εργαλείο Deep Research της επέτυχε κανονικοποιημένο σκορ 67,15%, σε σύγκριση με 58,97% για το Google Gemini Deep Research και 52,06% για το OpenAI Deep Research που χρησιμοποιεί το μοντέλο o3. Η εταιρεία ανέφερε ότι οι κατατάξεις παρέμειναν συνεπείς σε διαφορετικά μοντέλα αξιολόγησης, συμπεριλαμβανομένων των GPT-5.2 και Sonnet-4.5.

Οι μεγαλύτερες διαφορές απόδοσης εμφανίστηκαν στους τομείς Ιατρική, Γενικές Γνώσεις και Τεχνολογία, όπου η Perplexity αναφέρει ότι ξεπέρασε το δεύτερο καλύτερο σύστημα κατά 9-12 ποσοστιαίες μονάδες. Η υψηλότερη απόλυτη απόδοση της εταιρείας ήταν στον τομέα Νομικών με 86,0% και στα Ακαδημαϊκά με 80,2%.

Benchmark Σχεδιασμένο Γύρω από την Πραγματική Χρήση

Σε αντίθεση με τα παραδοσιακά benchmarks που δοκιμάζουν απομονωμένες δεξιότητες όπως η ανάκτηση γεγονότων ή η γνώση τετριμμένων πληροφοριών, το DRACO κατασκευάστηκε από ανωνυμοποιημένα αιτήματα του Perplexity Deep Research και εμπλουτίστηκε για να δημιουργήσει σύνθετες, ανοιχτές εργασίες που αντικατοπτρίζουν τις πραγματικές ερευνητικές ανάγκες.

«Τα περισσότερα benchmarks δοκιμάζουν απομονωμένες δεξιότητες όπως η ανάκτηση γεγονότων ή η γνώση τετριμμένων πληροφοριών. Αλλά η πραγματική έρευνα απαιτεί σύνθεση από πολλές πηγές, διεισδυτική ανάλυση και αξιόπιστες πηγές», δήλωσε η Perplexity στην ανακοίνωσή της στο X.

Το benchmark μετρά επίσης τους συμβιβασμούς απόδοσης. Το Perplexity Deep Research πέτυχε το χαμηλότερο μέσο χρόνο απόκρισης στα 459,6 δευτερόλεπτα διατηρώντας παράλληλα τις υψηλότερες βαθμολογίες ακρίβειας, σύμφωνα με τη δημοσίευση.

Κυκλοφορία ανοιχτού κώδικα

Η Perplexity έχει διαθέσει το DRACO πλήρως ανοιχτού κώδικα, κυκλοφορώντας το benchmark, τα κριτήρια αξιολόγησης και τη μεθοδολογία. Το σύνολο δεδομένων είναι διαθέσιμο στο Hugging Face.

Η αναβάθμιση ακολουθεί την αρχική κυκλοφορία του Deep Research της Perplexity τον Φεβρουάριο 2025, που εισήγαγε δυνατότητες πολλαπλών ερωτημάτων και διασταυρωμένης επαλήθευσης πηγών. Η εταιρεία έχει συνεχίσει να βελτιώνει το προϊόν, με τον CEO Aravind Srinivas να αναγνωρίζει ότι “ειδικά για τα χρηματοοικονομικά, η ακρίβεια των δεδομένων είναι απαραίτητη και πολύ σημαντική.”

Η Perplexity, η οποία υπέγραψε μια συμφωνία cloud αξίας 750 εκατομμυρίων δολαρίων με τη Microsoft τον Ιανουάριο, έχει τοποθετήσει το Deep Research ως κεντρικό στοιχείο της στρατηγικής της για την παροχή αναλύσεων ερευνητικού επιπέδου που ανταγωνίζονται τις προσφορές της Google και της OpenAI.

Μοιραστείτε αυτό το άρθρο