Badanie MIT pokazuje, że generatory obrazów AI mogą działać 30 razy szybciej

Naukowcy z Massachusetts Institute of Technology (MIT) poczynili znaczne postępy, próbując sprawić, by generatory obrazów sztucznej inteligencji (AI) działały 30 razy szybciej w wyniku eksperymentów nad nową techniką.

W swoim artykule przygotowanym do druku eksperci stwierdzili, że technika ta polega na połączeniu wieloetapowych procesów stosowanych w modelach dyfuzyjnych w jeden etap. Metoda ta, nazwana „destylacją z dopasowaniem dystrybucji (DMD),” pozwala nowym modelom sztucznej inteligencji odzwierciedlać możliwości istniejących generatorów obrazów bez konieczności przechodzenia przez „100-etapowy proces”.

Modele dyfuzji, takie jak Midjourney i Stable Diffusion, zazwyczaj opierają się na skomplikowanym procesie od wejścia do wyjścia. Większość modeli opiera się na kreatorze informacji o obrazie, dekoderze i wielu etapach „usuwania szumu”, co jest długotrwałym procesem, który dodatkowo komplikuje jakość obrazu.

DMD przyjmuje podejście „nauczyciel-uczeń”, aby położyć podwaliny pod oszczędne modele, które będą działać w taki sam sposób, jak skomplikowane generatory obrazów AI. Bliższe spojrzenie na działanie DMD ujawnia integrację generatywnych sieci kontradyktoryjnych (GAN) z modelami dyfuzyjnymi, otwierając liczne możliwości.

Naukowcy wskazują na różne korzyści związane z DMD, w tym oszczędność mocy obliczeniowej i czasu. Zauważyli również, że DMD skróciło czas generowania obrazu z 2,59 sekundy do oszałamiających 90 milisekund, nie wpływając przy tym na jakość wyników.

„Nasza praca to nowatorska metoda, która 30-krotnie przyspiesza obecne modele dyfuzji, takie jak Stable Diffusion i DALLE-3” – powiedział główny badacz Tianwei Yin. „To udoskonalenie nie tylko znacznie skraca czas obliczeń, ale także pozwala zachować, jeśli nie przekroczyć, jakość generowanych treści wizualnych”.

DMD osiąga ten cel, opierając się na dwóch kluczowych elementach – stracie regresyjnej i stracie z dopasowania dystrybucji. Pierwszy komponent usprawnia proces uczenia, natomiast strata dopasowania rozkładu zapewnia korelację z częstotliwością występowania w świecie rzeczywistym.

„Zmniejszanie liczby interakcji jest Świętym Graalem modeli dyfuzyjnych od ich powstania” – powiedział badacz Fredo Durand. „Jesteśmy bardzo podekscytowani możliwością wreszcie umożliwienia jednoetapowego generowania obrazów, co radykalnie obniży koszty obliczeń i przyspieszy proces”.

LLM nie zostały pominięte

Podczas gdy badacze postępują w zakresie modeli dyfuzji, dużych modeli językowych
(LLM) i inne powstające technologie cieszą się sporym udziałem innowacji. W połowie marca grupa chińskich badaczy zaprezentowała nową technikę kompresji dla LLM, umożliwiającą obejście ograniczeń sprzętowych podczas ich wdrażania.

Stosując technikę polegającą na przycinaniu niepotrzebnych parametrów, badacze zauważyli, że użytkownicy mogliby zaoszczędzić fortunę na kosztach wnioskowania bez konieczności szkolenia w zakresie nowych trybów. W artykule badawczym, nazwanym ShortGPT, zauważono, że metoda ta „znacznie przewyższa poprzednie, najnowocześniejsze metody (SOTA) w przycinaniu modeli”.

Aby sztuczna inteligencja (AI) działała zgodnie z prawem i prosperowała w obliczu rosnących wyzwań, musi zintegrować korporacyjny system blockchain, który zapewni jakość wprowadzanych danych i własność, umożliwiając im bezpieczeństwo danych, a jednocześnie gwarantując niezmienność danych. Sprawdź relacje CoinGeek na temat tej powstającej technologii, aby dowiedzieć się więcej, dlaczego łańcuch bloków korporacyjnych będzie podstawą sztucznej inteligencji.

Obejrzyj: Blockchain może zwiększyć odpowiedzialność za sztuczną inteligencję

Autor : BitcoinSV.pl

Źródło : MIT study reveals AI-image generators can run 30 times faster – CoinGeek