Podczas wczorajszej konferencji lider na rynku sztucznej inteligencji zaprezentował swój nowy model LLM. Jego szalenie wysoka wydajność zostawia konkurencję w tyle.
GPT-4o („o” od „omni”) jest krokiem w kierunku bardziej naturalnej interakcji człowiek-komputer. Nowy flagowy model OpenAI akceptuje dane wejściowe w formie dowolnej kombinacji tekst, dźwięk i obraz, oraz generuje takie same odpowiedzi. Można więc do niego pisać, mówić lub wysyłać filmy i obrazy. Podobno czas reakcji na polecenia głosowe to zaledwie 232 ms, ze średnią 320 ms, co jest zbliżone do czasu reakcji człowieka.
GPT-4o dostaną zarówno użytkownicy płatni, jak i darmowi

W tradycyjnych testach porównawczych, GPT-4o osiąga wydajność na poziomie GPT-4 Turbo w zakresie tekstu, rozumowania i inteligencji kodowania, jednocześnie ustanawiając nowe, wysokie standardy w zakresie wielojęzyczności, audio i funkcji wizyjnych. OpenAI podkreśla znaczną poprawę w przypadku tekstów oraz kodu w języku innym niż angielski.
Liczne udostępnione materiały wideo pokazują GPT-4o w różnych scenariuszach. Nowy model pozwala na naturalną rozmowę, oferując różne rodzaje głosów i jego płynne dostosowywanie do sytuacji – od bardziej naturalnego, po typowo robotyczny. Pokazano jak AI pomaga z pracą domową, nauką nowych języków, czy zastępowaniem wzroku osobom niewidomym. Oczywiście w grę wchodzą też bardziej przyziemne zastosowania jak opowiadanie żartów.
OpenAI wypuszcza aplikację na komputery z systemem operacyjnym Windows i MacOS, poprawia aplikację mobilną oraz interfejs webowy. ChatGPT ma zaś otrzymać tryb „Memory”, który umożliwi dostęp do wcześniejszych zapytań. Ma się to przełożyć na trafniejsze odpowiedzi oraz wrażenie obcowania z drugim człowiekiem, a nie AI.
GPT-4o będzie stopniowo wprowadzane w najbliższych tygodniach. Co ciekawe dostęp do nowego modelu mają uzyskać zarówno użytkownicy płatni, jak i darmowi. W drugim przypadku warto też wspomnieć o udostępnieniu sklepu GPT.

Najnowsze Komentarze