22 აგვისტოს, Nvidia-მ წარმოადგინა ხელოვნური ინტელექტის პროგრამული უზრუნველყოფისა და ქსელური ტექნოლოგიების ახალი მიღწევები, რომლებიც შექმნილია ხელოვნური ინტელექტის ინფრასტრუქტურისა და მოდელების განლაგების დასაჩქარებლად.

ტექნოლოგიურმა გიგანტმა Spectrum-XGS დააანონსა , რომელიც მისი Spectrum-X პლატფორმის „გიგამასშტაბიანი“ გაფართოებაა — Ethernet კომუტატორები, რომლებიც სპეციალურად ხელოვნური ინტელექტის სამუშაო დატვირთვებისთვისაა შექმნილი. მიუხედავად იმისა, რომ Spectrum-X მონაცემთა ცენტრში მთელ კლასტერებს აკავშირებს, რაც მოდელებს შორის მონაცემთა დიდი რაოდენობით გადაცემის საშუალებას იძლევა, Spectrum-XGS კიდევ ერთი ნაბიჯით წინ მიდის: ის აკავშირებს და კოორდინაციას უწევს მრავალ მონაცემთა ცენტრს.

„თქვენ გსმენიათ ისეთი ტერმინები, როგორიცაა „მასშტაბირება“ და „მასშტაბირება გარეთ“. ახლა ჩვენ წარმოგიდგენთ ახალ ტერმინს, სახელწოდებით „მასშტაბირება მთელ სკალაზე “, - თქვა დეივ სალვატორემ, Nvidia-ს დაჩქარებული გამოთვლითი პროდუქტების დირექტორმა. „ ეს კომუტატორები სპეციალურად შექმნილია იმისთვის, რომ სხვადასხვა მონაცემთა ცენტრებმა ერთად იმუშაონ, ერთმანეთთან დაუკავშირდნენ და არსებითად ერთი გიგანტური გრაფიკული პროცესორის მსგავსად იმოქმედონ“.

სინამდვილეში ეს შემდეგს ნიშნავს: მასშტაბირება  ნიშნავს უფრო დიდი მანქანების მეშვეობით სიმძლავრის გაზრდას, მასშტაბირება კი  - მათი რაოდენობის გაზრდას ერთ ცენტრში. თუმცა, არსებობს შეზღუდვები - მონაცემთა ცენტრები შეზღუდულია ხელმისაწვდომი ენერგიით და სითბოს გაფანტვის უნარით, წინააღმდეგ შემთხვევაში ეფექტურობა მცირდება. ეს ფაქტორები ზღუდავს გამოთვლითი სიმძლავრის ზრდას კონკრეტულ მომენტში.

სალვატორის თქმით, სისტემა მინიმუმამდე ამცირებს შეფერხებებს და ე.წ. ჯიტერს  — პაკეტების მიწოდების დროის რყევებს. ხელოვნური ინტელექტის ქსელების კონტექსტში ეს კრიტიკულად მნიშვნელოვანია: სწორედ ამაზეა დამოკიდებული, თუ რამდენად შეუძლიათ გრაფიკულ პროცესორებს მონაცემების სრულად გაცვლა სხვადასხვა საიტებს შორის.

შედარებისთვის, მაისში წარმოდგენილი ქსელური ურთიერთდაკავშირება, NVLink Fusion, ღრუბლოვან პროვაიდერებს საშუალებას აძლევს, მასშტაბირება მოახდინონ მონაცემთა ცენტრების მეშვეობით, რათა ერთდროულად მილიონობით გრაფიკული პროცესორი იყოს მხარდაჭერილი. ერთად, NVLink Fusion და Spectrum-XGS ქმნიან ხელოვნური ინტელექტის ინფრასტრუქტურის მასშტაბირების ორ ფენას: ერთი ერთ მონაცემთა ცენტრში და მეორე რამდენიმე მონაცემთა ცენტრში.

ხელოვნური ინტელექტის მოდელების მომსახურების უკეთესი გზების პოვნა

Dynamo  არის Nvidia-ს ინფერენციის ჩარჩო, რომელიც გულისხმობს მოდელების გაშვებას და მათთან ერთად მონაცემების დამუშავებას.

კომპანია იკვლევს განლაგების ახალ მეთოდს , რომელსაც დეზაგრეგირებული მომსახურება ეწოდება , სადაც პროცესები იყოფა: წინასწარი შევსება (კონტექსტის შექმნა) ხორციელდება ზოგიერთ გრაფიკულ პროცესორზე ან სერვერზე, ხოლო დეკოდირება (ტოკენების გენერირება) - სხვებზე.

ეს განსაკუთრებით მნიშვნელოვანია აგენტებზე დაფუძნებული ხელოვნური ინტელექტის ამჟამინდელ ეპოქაში : ინფერენცია, რომელიც ოდესღაც მეორეხარისხოვან ამოცანად ითვლებოდა სასწავლო მოდელებთან შედარებით, ახლა სერიოზულ გამოწვევად იქცევა. თანამედროვე მსჯელობის მოდელები არაპროპორციულად მეტ ტოკენს ქმნიან, ვიდრე წინა მოდელები. Dynamo გვთავაზობს ამ დატვირთვის მართვის უფრო სწრაფ, ეკონომიურ და ეფექტურ გზას.

„მაგალითად, ავიღოთ GPT-OSS მოდელის ინტერაქტიულობა “, - აღნიშნა სალვატორმა. „ ჩვენ მოვახერხეთ წამში ტოკენების გენერირების სიჩქარის თითქმის 4-ჯერ გაზრდა. DeepSeek-ზე კი მაჩვენებლებიც შთამბეჭდავია - 2.5-ჯერ მეტი“.

Nvidia ასევე ავითარებს სპეკულაციურ დეკოდირებას. იდეა იმაში მდგომარეობს, რომ მეორე, უფრო პატარა მოდელი დაკავშირებულია მთავარი მოდელის დასახმარებლად, რომელიც წინასწარ იცვლის შესაძლო პასუხებს, რაც აჩქარებს პროცესს. „ის ასე მუშაობს: არსებობს დამხმარე დრაფტის მოდელი, რომელიც ცდილობს იწინასწარმეტყველოს შემდეგი ტოკენები, რომელთა გენერირებაც მთავარ მოდელს შეუძლია “, - განმარტა სალვატორმა.

ვინაიდან უხეში მოდელი უფრო სწრაფია, თუმცა ნაკლებად ზუსტი, ის რამდენიმე ვარიანტს გვთავაზობს და მთავარი მათ ამოწმებს.

„რაც უფრო მეტ შესაბამისობას ავლენს დრაფტის მოდელი სწორად, მით უფრო მაღალია საბოლოო შესრულება “, - განაგრძო სალვატორმა. „ ამ ტექნიკის წყალობით ჩვენ უკვე ვხედავთ 35%-მდე აჩქარებას “.

ძირითადი ხელოვნური ინტელექტის მოდელი კანდიდატებზე პარალელურ ტესტებს ატარებს საკუთარი ალბათობის განაწილების მიხედვით და მხოლოდ იმ ტოკენებს იღებს, რომლებიც მის პროგნოზებს ემთხვევა. დანარჩენი უბრალოდ უგულებელყოფილია. ეს რეაგირების შეყოვნებას 200 მილიწამზე დაბალ დონეზე ინარჩუნებს, რაც პროცესს „ჭეშმარიტად ინტერაქტიულს“ ხდის, Salvator-ის თქმით.