W miarę jak ryzyko związane ze sztuczną inteligencją (AI) osiąga nowy poziom, grupa badaczy opracowała narzędzie monitorujące do oznaczania szkodliwych wyników powiązanych z dużymi modelami językowymi (LLM).
AutoGPT, opracowany we współpracy z badaczami firmy Microsoft (NASDAQ: MSFT) i naukowcami z Northeastern University, może podobno wstrzymywać wykonywanie szkodliwych wyników w czasie rzeczywistym. Według raportu narzędzie do monitorowania sztucznej inteligencji wykazało imponujące wyniki podczas wdrażania z wiodącymi LLM, takimi jak ChatGPT firmy OpenAI i Bard firmy Google (NASDAQ: GOOGL), w tłumieniu ataków na kod.
„Projektujemy podstawowy monitor bezpieczeństwa, który jest wystarczająco elastyczny, aby monitorować istniejących agentów LLM, i korzystając z symulowanego agenta kontradyktoryjnego, mierzymy jego zdolność do identyfikowania i zatrzymywania niebezpiecznych sytuacji” – czytamy w raporcie.
Korzystając z symulowanego agenta, narzędzie wykazało się kompetencją w identyfikowaniu i powstrzymywaniu zagrożeń, stosując jednocześnie wiele warstw ochronnych, w tym końcową kontrolę człowieka w celu wyeliminowania zagrożenia.
„Działania agentów są kontrolowane przez kontekstowy monitor, który egzekwuje rygorystyczne granice bezpieczeństwa, aby zatrzymać niebezpieczny test, a podejrzane zachowania są oceniane i rejestrowane w celu sprawdzenia przez ludzi” – czytamy w raporcie.
W raporcie „Bezpieczne testowanie agentów modelu językowego na wolności” zauważono, że istniejące narzędzia monitorujące mogły wykazać się biegłością w kontrolowanych środowiskach, ale zawodziły w rzeczywistych scenariuszach. Naukowcy napisali, że przyczyną słabych wyników są liczne możliwości wektorów szkód wynikających ze stosowania sztucznej inteligencji.
Badacze zauważyli, że nawet próby bezpiecznego korzystania ze sztucznej inteligencji mogą skutkować kilkoma niezamierzonymi zagrożeniami wynikającymi z pozornie niegroźnych podpowiedzi. Aby osiągnąć ponadprzeciętne wyniki, badacze przeszkolili narzędzie, korzystając z pamięci podręcznej zawierającej 2000 sprawdzonych interakcji międzyludzkich w ramach prawie 30 różnych zadań i celowo dodając niebezpieczne parametry.
Model, przetestowany na wiodących LLM, był w stanie rozróżnić szkodliwe i bezpieczne dane wejściowe w 90% przypadków w wielu środowiskach testowych. Według raportu badacze zasugerowali wdrożenie narzędzia monitorującego do różnych zastosowań, takich jak wzmacnianie sygnału szkoleniowego agenta i określanie, kiedy należy eskalować problemy w celu uzyskania zatwierdzenia przez użytkownika.
Ponure ryzyko dla sztucznej inteligencji
W październiku badacze sztucznej inteligencji z Anthropic ujawnili w swoim raporcie, że kilka LLM w swoich odpowiedziach na podpowiedzi użytkowników woli pochlebstwa niż odpowiedzi zgodne z prawdą. Raport stanowi część niepotrzebnej listy potencjalnych pułapek związanych ze stosowaniem sztucznej inteligencji, ponieważ organy regulacyjne trąbią alarmowo w związku z wdrażaniem nowych technologii.
OpenAI, twórcy ChatGPT, uruchomili nową jednostkę ds. gotowości, aby przeciwdziałać zagrożeniom AI dla cyberbezpieczeństwa i innych krytycznych sektorów globalnej gospodarki. Z drugiej strony Meta (NASDAQ: META) rozwiązała swój zespół ds. odpowiedzialnej sztucznej inteligencji (RAI) po wewnętrznej restrukturyzacji, co pokrzyżowało ambitne plany firmy dotyczące bezpiecznego opracowywania nowych narzędzi sztucznej inteligencji.
„Poważnie podchodzimy do pełnego spektrum zagrożeń bezpieczeństwa związanych ze sztuczną inteligencją, od systemów, które mamy dzisiaj, po najdalsze zakątki superinteligencji” – stwierdził OpenAI. „Aby wspierać bezpieczeństwo wysokowydajnych systemów sztucznej inteligencji, rozwijamy nasze podejście do gotowości na wypadek katastrof”.
Obejrzyj: Sztuczna inteligencja i blockchain będą niezwykle ważne – oto dlaczego
Autor : BitcoinSV.pl
Źródło : AI monitoring agent eyed to prevent harmful output in real-world scenarios – CoinGeek