Wygląda na to, że naukowcy należący do Google i Uniwersytetu Stanford mogli rozwiązać jeden z największych problemów ze sztuczną inteligencją. Jeśli wierzyć ich badaniom, nowe narzędzie, SAFE, jest w stanie wykryć, kiedy AI zaczyna halucynować.
Jednym z najbardziej problematycznych zachowań chatbotów opartych na sztucznej inteligencji jest ich tendencja do tak zwanego „halucynowania”. Chodzi o sytuację, kiedy AI przekonująco odpowiada na pytanie, podając na poparcie swojej tezy wymyślone informacje. Sztuczna inteligencja wymyśla fałszywe źródła, próbując zadowolić użytkownika.
Nowe narzędzie trafne w prawie 75% przypadków
Zapobieganie halucynacjom w modelach AI stanowi duże wyzwanie dla ich projektantów. Wygląda jednak na to, że Google DeepMind oraz Uniwersytet Stanford znaleźli pewne obejście tego problemu, o czym informuje redakcja Marktechpost.com.
Badacze stworzyli nowy system oparty o LLM (Large Language Model) – Ewaluator faktualności z augmentacją wyszukiwania, czyli SAFE (Search-Augmented Factuality Evaluator). Uogólniając, sprawdza on zgodność odpowiedzi generowanych przez chatboty z rzeczywistością. Wyniki ich badań są dostępne na portalu arXiv, wraz z eksperymentalnym kodem i użytymi zestawami danych.
System analizuje, przetwarza i ocenia odpowiedzi w czterech krokach, aby zweryfikować ich dokładność i zgodność z prawdą. Po pierwsze, SAFE dzieli odpowiedź na poszczególne fragmenty, a następnie przegląda je i porównuje z wynikami wyszukiwania w Google. System sprawdza również trafność i dokładność przywołanych faktów w stosunku do oryginalnej treści zadanego pytania.
Aby ocenić wydajność SAFE, badacze stworzyli zestaw danych LongFact, zawierający około 16 000 faktów. Następnie przetestowali oni swój system na 13 modelach LLM należących do czterech największych rodzin AI (Claude, Gemini, GPT, PaLM-2). W 72% przypadków SAFE dostarczył takie same wyniki jak element ludzki. W przypadkach specjalnie przygotowanych niezgodności, SAFE wykrył je poprawnie w 76% przypadków.
Najnowsze Komentarze