Çindən süni intellekt sahəsində sensasion YENİLİK

Çindən süni intellekt sahəsində sensasion YENİLİKÇinin süni intellekt sahəsində fəaliyyət göstərən startapı DeepSeek, sensasion bir açıqlama edərək, aparıcı süni intellekt şirkətlərinin modellərinə bənzər bir modeli 11 dəfə daha az hesablama gücü ilə hazırladıqlarını elan edib.

Lent.az xəbər verir ki, DeepSeek-in təqdim etdiyi məlumatlara görə, OpenAI, Meta və Anthropic kimi nəhənglərin modellərinə bənzər DeepSeek-V3 adlı dil modeli cəmi 2 ay ərzində 2.048 Nvidia H800 GPU-sundan ibarət bir qrup vasitəsilə 671 milyard parametr üzərində öyrədilib. Bu, təxminən 2.8 milyon GPU saatı deməkdir. Müqayisə üçün, Meta-nın 405 milyard parametrə malik Llama 3 modelini 54 gün ərzində 16.384 H100 GPU istifadə edərək öyrətməsi üçün 11 dəfə daha çox hesablama gücü (30.8 milyon GPU saatı) tələb olunub.

DeepSeek, qabaqcıl əlaqə xətti (pipeline) alqoritmləri, optimallaşdırılmış rabitə çərçivəsi və FP8 aşağı dəqiqlikli hesablama üsulundan istifadə edərək bu cür miqyaslı modellər üçün adətən tələb olunan hesablama və yaddaş ehtiyaclarını əhəmiyyətli dərəcədə azaltdığını iddia edir. Şirkət, DeepSeek-V3 modelinin hesablama tələblərini azaltmaq üçün onlarla optimizasiya texnikası tətbiq etdiyini vurğulasa da, bir neçə əsas texnologiya bu nəticələrin əldə olunmasında həlledici rol oynayıb. DeepSeek, DualPipe adlı alqoritmdən istifadə edərək həm hesablama, həm də rabitə mərhələlərində effektivliyi artırdığını bildirir. Bu alqoritm, xüsusilə MoE arxitekturasının tələb etdiyi qovşaqlararası ekspert paralelliyi üçün təlim darboğazlarını minimuma endirib. Beləliklə, sıfıra yaxın rabitə yükü ilə 14.8 trilyon simvolun işlənməsi mümkün olub.

Bundan əlavə, DeepSeek rabitə zamanı istifadə olunan qovşaqların sayını hər simvol üçün maksimum 4 qovşaqla məhdudlaşdırıb. Bu yanaşma trafiki azaldıb və rabitənin hesablama ilə effektiv şəkildə üst-üstə düşməsinə imkan verib. Performans baxımından, şirkət DeepSeek-V3 MoE modelinin bəzi göstəricilər üzrə GPT-4x, Claude-3.5-Sonnet və LLama-3.1 modelləri ilə müqayisə edilə bilən, bəzən isə onları ötüb, keçən nəticələr verdiyini bildirir. Lakin bu iddiaların müstəqil tədqiqatçılar tərəfindən təsdiqlənməsinə ehtiyac var. Şirkət modeli və onun parametrlərini açıq mənbə kimi təqdim edib, buna görə də yaxın vaxtlarda müqayisəli testlərin aparılması gözlənilir.

DeepSeek-V3 modeli parametrlərin sayı və ya məntiqi düşünmə qabiliyyətləri baxımından GPT-4 və ya Llama-3 kimi qabaqcıl modellərdən geri qalsa da, məhdud resurslarla yüksək səviyyəli bir MoE modelinin hazırlanmasının mümkün olduğunu nümayiş etdirir. Təbii ki, bu, çoxlu optimizasiya və aşağı səviyyəli proqramlaşdırma tələb edir, lakin nəticələr olduqca ümidverici görünür. DeepSeek komandası, DeepSeek-V3 modelinin tətbiqinin inkişaf etmiş avadanlıqla yanaşı, prefilling və dekodlaşdırma mərhələlərini bir-birindən ayıran xüsusi paylama strategiyası tələb etdiyini, bunun isə resurs çatışmazlığı səbəbindən kiçik şirkətlər üçün əlçatmaz ola biləcəyini etiraf edir.


Sonxeber.az
Telegramda izləyin
Dünyada   Baxılıb: 941   Tarix: 28 dekabr 2024  

Şikayətiniz varsa Whatsapp: 077 7125666

Facebookda Paylaş


Oxşar xəbərlər

.

Britaniyada ölümcül qan xərçəngi diaqnozu qoyulan kişi yeddi ildən sonra həqiqəti öyrəndi

Britaniyada ailə başçısı olan kişi əslində mövcud olmayan sağalmaz xərçəngdən yeddi il ağır müalicə alıb. -ın xəbərinə görə, bu barədə "Mirror" nəşri yazıb. Məlumata görə, 41 yaşlı Saymon Pirson adlı şəxsə nadir qan xərçəngi növü və genetik xəstəlik diaqnozu qoyulub, amma sonradan onun sağla

23 may
.

Kaliforniyada kimyəvi maddə sızması ilə əlaqədar fövqəladə vəziyyət elan edildi

ABŞ-nin Kaliforniya ştatının qubernatoru Qevin Nyusom ştatda baş verən kimyəvi maddə sızması ilə əlaqədar Orinc dairəsində fövqəladə vəziyyət rejimi elan etdiyini bildirib. xəbər verir ki, Nyusom bu barədə "X" sosial şəbəkəsində yazıb. Xatırladaq ki, hadisə mayın 21-də "GKN Aerospace"

24 may
.

CHP Qurultayı ilə bağlı istintaqda 9 şübhəli həbs edilib

İstanbul Baş Prokurorluğu tərəfindən Cümhuriyyət Xalq Partiyasının (CHP) 38-ci qurultayında səsvermə iradəsinə müdaxilə edildiyi iddiaları ilə bağlı aparılan istintaq çərçivəsində saxlanılan 13 şübhəlidən 9-u həbs edilib. "Report" xəbər verir ki, bu barədə "TRT Haber" məlumat yayıb

24 may
.

Pentaqon rəhbəri hərbçilərin sayını artırmağı planlaşdırır

ABŞ, ordusundakı hərbçilərin sayını 2027-ci ilə qədər artırmağı planlaşdırır. "Report" xəbər verir ki, bu barədə Pentaqon rəhbəri Pit Heqset bildirib. "Gələn il ordunun sayını artırdığımız zaman daha da böyük olacaq", - deyə o bildirib. Pentaqon rəhbəri əlavə edib ki, ABŞ ordusu 2026-c

24 may
.

"Hyundai" 400 mindən çox avtomobili geri çağırır - SƏBƏB

Cənubi Koreyanın avtomobil istehsalçısı "Hyundai Motor" proqram təminatındakı xəta səbəbindən ABŞ-dən 421 mindən çox avtomobilini geri çağırır. xəbər verir ki, bu barədə ABŞ-nin Milli Yol Hərəkəti Təhlükəsizliyi İdarəsi məlumat yayıb. Məlumata görə, sözügedən problem avtomobillərdə qəfil v

23 may
.

Sakit okeandakı vulkan püskürməsinin iqlimə təsirləri - Elmi araşdırma

Alimlər 2022-ci ildə "Hunga Tonga-Hunga Ha'apai" sualtı vulkanının püskürməsinin atmosferə gözlənilməz təsir göstərdiyini aşkar ediblər. xəbər verir ki, bu barədə "Haber Global" məlumat yayıb. Yeni tədqiqata görə, kütləvi püskürmə istixana effekti yaradan metan qazının parçalanmasın

24 may
.

"The Guardian": Britaniyanın Aİ-yə vahid mal bazarı yaratmaq təklifi rədd edilib

Böyük Britaniya hökuməti ikitərəfli münasibətlərin dərinləşdirilməsinin bir hissəsi olaraq Avropa İttifaqına (Aİ) vahid mal bazarını yaratmağı təklif edib, lakin təklif qəbul olunmayıb. "Report" xəbər verir ki, "The Guardian" qəzeti bu barədə mənbələrə istinadən məlumat yayıb. Məlumat

23 may
.

İran BMT-də nüvə silahları ilə bağlı yekun sənədin təsdiqlənməsinə mane olub

Nüvə Silahlarının Yayılmaması Müqaviləsinin (NPT) on birinci İcmal Konfransı Nyu-Yorkda BMT binasında üç həftəlik müzakirə və araşdırmalardan sonra heç bir nəticə əldə olunmadan öz işini başa çatdırıb. "Report" xəbər verir ki, bunu İranın xarici işlər nazirinin müavini Kazım Qəribabadi "X"

24 may
.

Çexiya Prezidenti ABŞ-nin NATO daxilində gözlənilməz qərarlarından narahatdır

Çexiya Prezidenti Petr Pavel ABŞ rəhbərliyinin NATO daxilində qeyri-müəyyənliyə səbəb olan gözlənilməz hərəkətlərindən narahatdır. "Report"un məlumatına görə, bu barədə CTK agentliyi xəbər verib. "Məni hazırda NATO daxilində gördüyümüz qeyri-müəyyənlik və gözlənilməzlik narahat edir"

24 may