Chcesz porozmawiać z zaawansowanym chatbotem, ale nie stać cię na drogi abonament? W takim razie najnowsze dziecko chińczyków może być dokładnie tym, czego szukasz.
DeepSeek, czyli chińska firma skupiająca się na rozwoju sztucznej inteligencji, wypuściła właśnie nową odsłonę swojego dużego modelu językowego (tzw. LLM) znanego jako DeepSeek-V3-0324. Rozwiązanie o oszałamiającym rozmiarze 641 GB zostało publicznie udostępnione na platformie dla wszelkiej maści narzędzi i projektów AI – Hugging Face – bez wcześniejszego rozgłosu, co zaskoczyło wielu użytkowników.
Dzięki nowej licencji, LLM można wykorzystać komercyjnie
Model wyróżnia się na tle innych wykorzystaniem licencji MIT. Pozwala ona na darmowe, komercyjne wykorzystanie sztucznej inteligencji przez użytkowników. Warto też zaznaczyć, że DeepSeek V3 możemy uruchamiać lokalnie, nawet na sprzęcie Apple. Podobno w przypadku Apple Mac Studio z układem Apple M3 Ultra możemy osiągnąć prędkość przetwarzania przekraczającą nawet 20 tokenów na sekundę.
Według samego DeepSeek, przeprowadzone przez nich benchmarki wykazały znaczną poprawę w stosunku do poprzednich wersji. Model przeszedł rygorystyczne testy wewnętrzne i osiągnął doskonałe wyniki, prawdopodobnie przewyższając wszystkie konkurencyjne modele. W przeciwieństwie jednak do swoich odpowiedników, DeepSeek-V3-0324 dostępny jest do pobrania i użytkowania całkowicie za darmo.
Pod względem technicznym, model opiera się na architekturze mixture-of-experts (MoE). Wykorzystuje on selektywnie około 37 miliardów z 685 miliardów parametrów na jedno zadanie, co zwiększa efektywność poprzez ograniczenie zapotrzebowania na moc obliczeniową, jednocześnie zachowując wysoką wydajność. Model korzysta także z technologii Multi-Head Latent Attention (MLA) i Multi-Token Prediction (MTP), które poprawiają retencję kontekstu oraz przyspieszają generowanie odpowiedzi.
Najnowsze Komentarze