Η γαλλική AI Startup ανάπτυξης μεγάλων γλωσσικών μοντέλων, Mistral, παρουσίασε ένα νέο API για προγραμματιστές που χειρίζονται πολύπλοκα έγγραφα PDF. Το Mistral OCR είναι ένα API οπτικής αναγνώρισης χαρακτήρων (OCR) που μπορεί να μετατρέψει οποιοδήποτε PDF σε αρχείο κειμένου, σε προσβάσιμα κείμενα που μπορούν να επεξεργαστούν μοντέλα τεχνητής νοημοσύνης.
Σύμφωνα με τον συνιδρυτή και επικεφαλής επιστημονικό υπεύθυνο της Mistral, Guillaume Lample, πολλοί οργανισμοί έχουν συσσωρεύσει έγγραφα σε μορφή PDF ή παρουσιάσεις που είναι δύσκολα προσβάσιμα σε συστήματα τεχνητής νοημοσύνης, ιδιαίτερα σε συστήματα Αναζήτησης με Ενισχυμένη Δημιουργία (RAG). Με τη βοήθεια του Mistral OCR, οι πελάτες μπορούν τώρα να μετατρέπουν πολύπλοκα έγγραφα σε αναγνώσιμα περιεχόμενα σε όλες τις γλώσσες, διευκολύνοντας την πρόσβαση και την επεξεργασία τους από AI μοντέλα.
Το Mistral OCR ξεχωρίζει από άλλα εργαλεία OCR λόγω της ικανότητάς του να χειρίζεται σύνθετες δομές εγγράφων, μαθηματικές εκφράσεις και κείμενα σε γλώσσες εκτός των αγγλικών. Το Mistral OCR είναι διαθέσιμο στην πλατφόρμα API της ίδιας της Mistral ή μέσω των συνεργατών της στο cloud (AWS, Azure, Google Cloud Vertex, κ.λπ.), αλλά και για εγκατάσταση σε τοπικό επίπεδο, επιτρέποντας την εύκολη ενσωμάτωσή της σε συστήματα RAG. Αυτό καθιστά το Mistral OCR ιδανικό για εταιρείες που διαχειρίζονται μεγάλες ποσότητες εγγράφων, όπως νομικές εταιρείες που χρειάζονται ταχεία επεξεργασία εκτενών εγγράφων.
Η Mistral χρησιμοποιεί επίσης το Mistral OCR για τον δικό της βοηθό τεχνητής νοημοσύνης Le Chat. Όταν ένας χρήστης ανεβάζει ένα αρχείο PDF, η εταιρεία χρησιμοποιεί το Mistral OCR στο παρασκήνιο για να κατανοήσει τι υπάρχει στο έγγραφο πριν επεξεργαστεί το κείμενο.
Οι εταιρείες και οι προγραμματιστές πιθανότατα θα χρησιμοποιήσουν το Mistral OCR με ένα σύστημα RAG (Retrieval-Augmented Generation) για να χρησιμοποιούν πολυτροπικά έγγραφα ως είσοδο σε ένα LLM. Υπάρχουν πολλές πιθανές περιπτώσεις χρήσης, όπως για παράδειγμα, δικηγορικά γραφεία θα μπορούσαν να το χρησιμοποιούν για να περάσουν γρήγορα τεράστιους όγκους εγγράφων.
Το RAG είναι μια τεχνική που χρησιμοποιείται για την ανάκτηση δεδομένων και τη χρήση τους ως πλαίσιο με ένα μοντέλο δημιουργικής τεχνητής νοημοσύνης.
