Η Microsoft λανσάρει το MAI-Image-2 και αλλάζει τον χάρτη του Visual AI

Ξεπερνώντας κάθε προσδοκία στα tests φωτορεαλισμού και ταχύτητας, το MAI-Image-2 φέρνει το μέλλον του design στα Windows

Βαγγέλης Γραικόπουλος
4'

Η Microsoft παρουσίασε το MAI-Image-2, ένα μοντέλο κειμένου-σε-εικόνα δεύτερης γενιάς που τοποθετεί την εταιρεία ανάμεσα στα τρία κορυφαία εργαστήρια δημιουργίας εικόνων με AI στον κόσμο, σύμφωνα με την κατάταξη του Arena.ai που βασίζεται σε crowdsourcing.

Το μοντέλο, που κατασκευάστηκε από την ομάδα Υπερνοημοσύνης AI της Microsoft υπό την ηγεσία του Mustafa Suleyman, διατίθεται σταδιακά στο Copilot και το Bing Image Creator και σύντομα θα είναι διαθέσιμο σε προγραμματιστές μέσω του Microsoft Foundry.

Ο CEO Satya Nadella προώθησε την κυκλοφορία στο X, γράφοντας ότι το μοντέλο είναι «διαθέσιμο τώρα στο MAI Playground για τα πάντα, από ζωντανό ρεαλισμό μέχρι λεπτομερή infographics».

Ένα άλμα από την ένατη θέση στην τριάδα

Το MAI-Image-2 βρίσκεται επί του παρόντος στην πέμπτη θέση στην κατάταξη μεμονωμένων μοντέλων της Arena.ai, αλλά η Microsoft διεκδικεί την τρίτη καλύτερη θέση στην κατηγορία «οικογένειας μοντέλων», ακολουθώντας μόνο την Google και το GPT-Image-1.5 της OpenAI. Αυτό αποτελεί ένα άλμα σε σχέση με το MAI-Image-1, το οποίο εμφανίστηκε στην ένατη θέση στην ίδια κατάταξη όταν κυκλοφόρησε τον Οκτώβριο του 2025.

Σύμφωνα με την ανάρτηση στο ιστολόγιο της Microsoft, το μοντέλο αναπτύχθηκε σε συνεργασία με φωτογράφους, σχεδιαστές και καλλιτέχνες οπτικών τεχνών, με έμφαση στην παραγωγή εικόνων με φυσικό φωτισμό και ακριβείς αποχρώσεις δέρματος. Η εταιρεία επισήμανε επίσης την ικανότητά του να αποδίδει αξιόπιστα κείμενο μέσα στις εικόνες — χρήσιμο για αφίσες, infographics και διαγράμματα.

Φιλοδοξίες για επιχειρήσεις και αλλαγές στη διοίκηση

Η πρόσβαση στο API είναι πλέον διαθέσιμη για επιλεγμένους εταιρικούς πελάτες, συμπεριλαμβανομένου του γίγαντα της διαφήμισης WPP, ενώ η ευρύτερη πρόσβαση για προγραμματιστές μέσω του Microsoft Foundry αναμένεται να είναι διαθέσιμη «σύντομα». Η Microsoft δεν έχει αποκαλύψει τεχνικές προδιαγραφές, τιμολόγηση ή λεπτομέρειες σχετικά με τα δεδομένα εκπαίδευσης.

Η κυκλοφορία έρχεται λίγες μόνο μέρες μετά από μια αναδιοργάνωση στη διοίκηση της Microsoft AI. Τη Δευτέρα, ο Nadella ανακοίνωσε ότι ο Suleyman θα αποσυρθεί από τον ευρύτερο ρόλο του ως CEO της Microsoft AI για να επικεντρωθεί αποκλειστικά στην ομάδα Superintelligence και στην ανάπτυξη του πρωτοποριακού μοντέλου της. Ο πρώην στέλεχος της Snap, Jacob Andreou, προήχθη για να επιβλέψει την ενοποιημένη διεύθυνση Copilot.

Μείωση της εξάρτησης από την OpenAI

Ο γρήγορος ρυθμός κυκλοφορίας εσωτερικών μοντέλων υπογραμμίζει την προσπάθεια της Microsoft για αυτάρκεια στην τεχνητή νοημοσύνη. Η εταιρεία παρουσίασε το πρώτο της φωνητικό μοντέλο και την προεπισκόπηση του κειμενικού μοντέλου τον Αύγουστο του 2025, ακολουθούμενα από το MAI-Image-1 τον Οκτώβριο. Μια αναδιαπραγματευμένη συμφωνία με την OpenAI στα τέλη του 2024 έδωσε στη Microsoft την ελευθερία να επιδιώξει την τεχνητή γενική νοημοσύνη ανεξάρτητα.

Όπως σημείωσε το The Next Web, «πριν από ένα χρόνο, η Microsoft δημιουργούσε εικόνες για το Bing και το Copilot σχεδόν εξ ολοκλήρου με τα μοντέλα της OpenAI». Αυτή η εξάρτηση μειώνεται πλέον εμφανώς, αν και το χάσμα μεταξύ του MAI-Image-2 και των κορυφαίων μοντέλων από τη Google και την OpenAI παραμένει, σύμφωνα με το The Decoder, «σημαντικό».

Μοιραστείτε αυτό το άρθρο