Το μυστικό εργαστήριο της Amazon που απειλεί την κυριαρχία της Nvidia

Η Amazon ανοίγει σπάνια τις πόρτες του εργαστηρίου Trainium στο Όστιν, αποκαλύπτοντας την καρδιά της στρατηγικής της στην τεχνητή νοημοσύνη. Το custom chip Trainium, ήδη υιοθετημένο από Anthropic, OpenAI και Apple, στοχεύει ευθέως στο πανίσχυρο προβάδισμα της Nvidia.

Η Amazon Web Services (AWS) επιχειρεί τη μεγαλύτερη ίσως τεχνολογική αντεπίθεση απέναντι στην Nvidia, επενδύοντας μαζικά σε δικά της τσιπ τεχνητής νοημοσύνης. Στο επίκεντρο βρίσκεται το Trainium, το custom AI chip που σχεδιάζεται στο εργαστήριο της AWS στο Όστιν και έχει ήδη κερδίσει πελάτες-κολοσσούς όπως η Anthropic, η OpenAI και η Apple.

Συμμαχίες δισεκατομμυρίων και πίεση στη Nvidia

Λίγο μετά την ανακοίνωση της επένδυσης ύψους 50 δισ. δολαρίων της Amazon στην OpenAI, η AWS άνοιξε για πρώτη φορά σε δημοσιογραφική κάμερα το chip lab όπου γεννήθηκε το Trainium. Η συμφωνία προβλέπει ότι η AWS θα είναι ο αποκλειστικός πάροχος υποδομών για το νέο εργαλείο agents της OpenAI, Frontier, προσφέροντας 2 γιγαβάτ υπολογιστικής ισχύος Trainium. Πρόκειται για δέσμευση-μαμούθ, τη στιγμή που Anthropic και η πλατφόρμα Bedrock της ίδιας της Amazon «καταναλώνουν» Trainium γρηγορότερα απ’ ό,τι η εταιρεία μπορεί να παράγει.

Σήμερα υπάρχουν 1,4 εκατ. Trainium chips σε τρεις γενιές, με πάνω από 1 εκατ. Trainium2 να τροφοδοτούν το Claude της Anthropic. Το Trainium, που αρχικά σχεδιάστηκε για ταχύτερο και φθηνότερο training μοντέλων, έχει πλέον βελτιστοποιηθεί και για inference – το στάδιο εκτέλεσης των μοντέλων, που αποτελεί τη βασική «στενωπό» κόστους και απόδοσης στην αγορά.

Η Amazon υποστηρίζει ότι ο συνδυασμός του νέου Trainium3 με τους ειδικούς Trn3 UltraServers και τα Neuron switches μειώνει έως και 50% το κόστος για αντίστοιχη απόδοση σε σχέση με κλασικούς cloud servers, προσφέροντας μια ρεαλιστική εναλλακτική απέναντι στις ακριβές και δυσεύρετες GPU της Nvidia. Το δίκτυο επιτρέπει διασύνδεση τύπου mesh, ώστε κάθε Trainium3 να «μιλά» με κάθε άλλο, μειώνοντας δραστικά την καθυστέρηση.

Το εργαστήριο στο Όστιν και η κουλτούρα «bring-up»

Η μονάδα custom chips της Amazon γεννήθηκε με την εξαγορά της ισραηλινής Annapurna Labs το 2015, και έκτοτε έχει αναπτύξει μια πλήρη γκάμα: Graviton (ARM server CPU), Inferentia (chip inference) και Trainium. Στο λαμπερό κτίριο στο Όστιν, πίσω από τα τυπικά open space γραφεία, κρύβεται ένα βιομηχανικού τύπου εργαστήριο, όπου γίνεται το λεγόμενο «silicon bring-up»: η πρώτη ενεργοποίηση ενός chip μετά από περίπου 18 μήνες σχεδιασμού.

Οι μηχανικοί περιγράφουν νύχτες-«lock in», με ομάδες να δουλεύουν 24/7 για εβδομάδες ώστε να διορθώσουν προβλήματα πριν από τη μαζική παραγωγή. Χαρακτηριστικό επεισόδιο: στο πρωτότυπο Trainium3, οι διαστάσεις για το air-cooled σύστημα ψύξης δεν ταίριαζαν και η ομάδα κατέφυγε κυριολεκτικά σε τροχό για να τροποποιήσει μεταλλικά μέρη επί τόπου. Στην τελική του μορφή, το Trainium3 είναι 3-nanometer chip, κατασκευασμένο από την TSMC, με υγρή ψύξη κλειστού κυκλώματος για ενεργειακή αποδοτικότητα.

Στο εργαστήριο δεσπόζει ένας «τοίχος» με όλες τις γενιές των λεγόμενων sleds – των δίσκων που φιλοξενούν Trainium, Graviton και τις συνοδευτικές πλακέτες. Συστοιχίες από αυτά τα sleds, σε racks με custom networking, αποτελούν την υποδομή πίσω από clusters όπως το Project Rainier, που με 500.000 Trainium2 θεωρείται ένα από τα μεγαλύτερα AI compute clusters παγκοσμίως.

Στρατηγική πλατφόρμα, όχι απλώς ένα chip

Η AWS δεν περιορίζεται στο chip. Σχεδιάζει ολόκληρο το σύστημα: από τους servers και τα δικτυακά Neuron switches μέχρι την πλατφόρμα Nitro για εικονικοποίηση και τα συστήματα υγρής ψύξης στα data centers. Σε ιδιωτικό data center στο Όστιν, σειρές Trn3 UltraServers με Graviton, Trainium3 και Nitro λειτουργούν αποκλειστικά για testing και βελτιστοποίηση, υπό συνθήκες υψηλού θορύβου και θερμικού φορτίου.

Κρίσιμο στοιχείο για την εμπορική διείσδυση είναι η μείωση του «κόστους μετάβασης» από Nvidia. Η υποστήριξη PyTorch και η συμβατότητα με πολλά μοντέλα του Hugging Face επιτρέπουν –σύμφωνα με την AWS– μετάβαση με ουσιαστικά «μία γραμμή αλλαγής» και επαν-μεταγλώττιση. Παράλληλα, η συνεργασία με την Cerebras για συνδυασμό inference chip και Trainium υπόσχεται ακόμη χαμηλότερη καθυστέρηση.

Ο διευθύνων σύμβουλος της Amazon, Andy Jassy, έχει χαρακτηρίσει το Trainium ήδη πολυδισεκατομμυριούχο business unit για την AWS και μία από τις τεχνολογίες που τον ενθουσιάζουν περισσότερο. Ο στόχος είναι σαφής: να μετατραπεί η πλατφόρμα Bedrock, που βασίζεται σε Trainium για το μεγαλύτερο μέρος του inference, σε νέο «δεύτερο EC2» για την εποχή της τεχνητής νοημοσύνης.

Σχόλιο SBCTV : Η στρατηγική της Amazon θυμίζει το κλασικό της μοντέλο: πρώτα κατανοεί τη ζήτηση (σε αυτή την περίπτωση, υπολογιστική ισχύ AI) και στη συνέχεια χτίζει in-house, καθετοποιημένη λύση που πιέζει τιμές και κλειδώνει πελάτες στο οικοσύστημα AWS. Αν η υπόσχεση «μισό κόστος για αντίστοιχη απόδοση» επαληθευτεί σε μεγάλη κλίμακα και το εμπόδιο μετάβασης από Nvidia μειωθεί πραγματικά σε «μία γραμμή κώδικα», τότε η Trainium πλατφόρμα δεν είναι απλώς τεχνική καινοτομία, αλλά γεωπολιτικό όπλο στην παγκόσμια μάχη για την κυριαρχία στην τεχνητή νοημοσύνη.

#Amazon #AWS #Trainium #Nvidia #AI #Chips #Anthropic #OpenAI

Τελευταία Νέα

Ακολουθήστε το στο Google News και μάθετε πρώτοι όλες τις ειδήσεις.