Η DeepL επεκτείνει τη δραστηριότητά της από τη μετάφραση κειμένου στη ζωντανή μετάφραση φωνής, στοχεύοντας συναντήσεις, call centers και εργαζομένους πρώτης γραμμής. Η κίνηση την τοποθετεί απέναντι σε σειρά νεοφυών εταιρειών που επενδύουν επιθετικά στη φωνητική τεχνητή νοημοσύνη.
Η γερμανική DeepL, γνωστή μέχρι σήμερα κυρίως για τα εργαλεία μετάφρασης κειμένου και εγγράφων, κάνει ένα στρατηγικό άλμα λανσάροντας μια ολοκληρωμένη σουίτα φωνητικής μετάφρασης. Η νέα υπηρεσία καλύπτει σενάρια από εταιρικές συναντήσεις και διαδικτυακές κλήσεις έως συνομιλίες στο κινητό και ομαδική επικοινωνία εργαζομένων πρώτης γραμμής, ενώ συνοδεύεται από API για ενσωμάτωση σε εταιρικά συστήματα, όπως κέντρα τηλεξυπηρέτησης.
Είσοδος στη ζωντανή μετάφραση φωνής και εταιρικές χρήσεις
«Μετά από τόσα χρόνια στη μετάφραση κειμένου, η φωνή ήταν το φυσικό επόμενο βήμα για εμάς», δήλωσε ο διευθύνων σύμβουλος της DeepL, Γιάρεκ Κουτιλόφσκι. Η εταιρεία αναγνωρίζει ότι η πραγματική πρόκληση στη ζωντανή μετάφραση είναι η ισορροπία μεταξύ χαμηλής καθυστέρησης και υψηλής ακρίβειας – δηλαδή πόσο γρήγορα ακούγεται το μεταφρασμένο ηχητικό χωρίς να θυσιάζεται η ποιότητα.
Η DeepL λανσάρει πρόσθετα (add-ons) για πλατφόρμες όπως Zoom και Microsoft Teams. Οι συμμετέχοντες σε μια κλήση θα μπορούν είτε να ακούν σε πραγματικό χρόνο τη μετάφραση όσων μιλούν σε άλλη γλώσσα, είτε να παρακολουθούν ταυτόχρονα μεταφρασμένο κείμενο στην οθόνη. Το πρόγραμμα βρίσκεται σε φάση early access, με την εταιρεία να καλεί οργανισμούς να εγγραφούν σε λίστα αναμονής.
Παράλληλα, διατίθεται προϊόν για συνομιλίες μέσω κινητού και web, τόσο για δια ζώσης όσο και για απομακρυσμένη επικοινωνία. Ιδιαίτερο ενδιαφέρον για επιχειρησιακά περιβάλλοντα έχει η δυνατότητα ομαδικής συνομιλίας, π.χ. σε εκπαιδευτικά σεμινάρια ή workshops, όπου οι συμμετέχοντες συνδέονται μέσω QR code και λαμβάνουν μετάφραση στη γλώσσα τους.
Τεχνολογικό πλεονέκτημα, ανταγωνισμός και προοπτικές
Η DeepL υπογραμμίζει ότι ελέγχει ολόκληρη τη στοίβα της φωνητικής μετάφρασης. Σήμερα η διαδικασία βασίζεται σε τρία βήματα: αναγνώριση ομιλίας (speech-to-text), μετάφραση κειμένου και εκ νέου μετατροπή σε φωνή. Η εταιρεία θεωρεί ότι τα χρόνια επένδυσης στη μετάφραση κειμένου της δίνουν ανταγωνιστικό πλεονέκτημα στην ποιότητα. Ωστόσο, ο μεσοπρόθεσμος στόχος είναι ένα ενιαίο μοντέλο end-to-end, που θα μεταφράζει απευθείας από φωνή σε φωνή χωρίς ενδιάμεσο κείμενο, μειώνοντας περαιτέρω την καθυστέρηση.
Η αγορά στην οποία εισέρχεται η DeepL είναι ήδη ιδιαίτερα πυκνή. Η αμερικανική Sanas, που πέρυσι άντλησε 65 εκατ. δολάρια, χρησιμοποιεί τεχνητή νοημοσύνη για να τροποποιεί σε πραγματικό χρόνο την προφορά εργαζομένων σε call centers, ώστε να γίνονται πιο κατανοητοί στους πελάτες. Η Camb.AI, με έδρα το Ντουμπάι, εστιάζει στη σύνθεση φωνής και τη μετάφραση για εταιρείες media και ψυχαγωγίας, βοηθώντας στη μαζική μεταγλώττιση και τοπικοποίηση βίντεο.
Ακόμη πιο άμεσο ανταγωνιστή συνιστά η Palabra, που αναπτύσσει μηχανή ζωντανής μετάφρασης λόγου με στόχο να διατηρεί όχι μόνο το νόημα αλλά και το ηχόχρωμα της αρχικής φωνής του ομιλητή. Η προσέγγιση αυτή βρίσκεται πολύ κοντά στο όραμα της DeepL για φυσικότερη, ανθρώπινη εμπειρία.
Ο Κουτιλόφσκι εκτιμά ότι η τεχνητή νοημοσύνη θα αναδιαμορφώσει ριζικά την εξυπηρέτηση πελατών τα επόμενα χρόνια. Ένα αξιόπιστο «στρώμα μετάφρασης» επιτρέπει σε επιχειρήσεις να παρέχουν υποστήριξη σε γλώσσες όπου το εξειδικευμένο προσωπικό είναι δυσεύρετο και ακριβό, μειώνοντας τα κόστη και διευρύνοντας τις αγορές στις οποίες μπορούν να δραστηριοποιηθούν.
Κρίσιμο στοιχείο για τις επιχειρήσεις είναι επίσης η δυνατότητα προσαρμογής λεξιλογίου: η DeepL αναφέρει ότι το σύστημά της μπορεί να μαθαίνει και να ενσωματώνει εξειδικευμένους όρους κλάδου, ονόματα εταιρειών και προσώπων, κάτι που αυξάνει την αξιοπιστία σε τεχνικές ή ρυθμιστικά ευαίσθητες συνομιλίες.
Σχόλιο
: Η κίνηση της DeepL επιβεβαιώνει ότι η επόμενη μεγάλη μάχη στην τεχνητή νοημοσύνη δεν είναι μόνο στα chatbots αλλά στη φωνητική επικοινωνία σε πραγματικό χρόνο. Για τις διεθνοποιημένες επιχειρήσεις –συμπεριλαμβανομένων ελληνικών με παρουσία σε πολλαπλές αγορές– τέτοιες λύσεις μπορούν να μειώσουν δραστικά το κόστος γλωσσικής υποστήριξης και να αναβαθμίσουν την εμπειρία πελάτη. Το ερώτημα θα είναι πόσο γρήγορα θα ωριμάσουν τα μοντέλα end-to-end και πώς θα ρυθμιστούν ζητήματα ιδιωτικότητας, δεδομένου ότι τεράστιοι όγκοι φωνητικών δεδομένων θα περνούν από τα συστήματα αυτών των εταιρειών.






