Dziedzina generowania obrazów za sprawą AI widziała w ostatnich latach gwałtowny rozwój. Tym razem Intel wraz z Blockade Labs, ogłosił swój nowy model pozwalający na generowanie obrazów 3D 360°.
Intel Labs, we współpracy z Blockade Labs, zaprezentował Latent Diffusion Model for 3D (LDM3D), nowy model dyfuzji wykorzystujący sztuczną inteligencję generatywną do tworzenia realistycznych treści wizualnych 3D. LDM3D jest pierwszym modelem w branży, który generuje mapę głębi, wykorzystując proces dyfuzji do tworzenia obrazów 3D 360°, które są wyraziste i immersyjne. LDM3D ma potencjał rewolucjonizowania tworzenia treści cyfrowych, zmieniając wiele branż, od rozrywki i gier, po architekturę i projektowanie.
Technologia generatywnej sztucznej inteligencji ma na celu dalsze wzmocnienie i ulepszenie ludzkiej kreatywności oraz oszczędzanie czasu. Jednak większość obecnych modeli generatywnej sztucznej inteligencji ogranicza się do generowania obrazów 2D, a tylko niektóre z nich mogą generować obrazy 3D na podstawie podpowiedzi tekstowych. W przeciwieństwie do istniejących modeli stable diffusion, LDM3D pozwala użytkownikom generować obraz i mapę głębi na podstawie określonej podpowiedzi tekstowej przy użyciu prawie tej samej liczby parametrów. Zapewnia on bardziej dokładną głębię względną dla każdego piksela na obrazie w porównaniu do standardowych metod przetwarzania następczego dla oszacowania głębi i oszczędza programistom znaczny czas na tworzenie scen.
Vasudev Lal, naukowiec ds. sztucznej inteligencji/uczenia maszynowego w Intel Labs
Obrazy i mapy głębi generowane przez LDM3D pozwalają użytkownikom zamienić opis spokojnej tropikalnej plaży, nowoczesnego wieżowca czy fikcyjnego układu planetarnego w szczegółową panoramę 360°
Ograniczenia zamkniętych ekosystemów mają znaczący wpływ na możliwą skalę projektów. Zobowiązanie się Intela do demokratyzacji sztucznej inteligencji poprzez stosowanie rozwiązań open source umożliwi szerszy dostęp do korzyści wynikających z AI poprzez otwarty ekosystem. Jednym z obszarów, który odnotował znaczące postępy w ostatnich latach, jest rozpoznawanie obrazów, szczególnie w generatywnej sztucznej inteligencji. Jednak wiele z obecnych zaawansowanych modeli ogranicza się tylko do generowania obrazów 2D. W przeciwieństwie do istniejących modeli Stable Diffusion, które zwykle generują tylko obrazy RGB 2D na podstawie podpowiedzi tekstowych, LDM3D pozwala użytkownikom generować zarówno obraz, jak i mapę głębi na podstawie określonej podpowiedzi tekstowej. Korzystając prawie z tej samej liczby parametrów co SD, LDM3D zapewnia bardziej dokładną głębię względną dla każdego piksela na obrazie w porównaniu do standardowych metod przetwarzania następczego dla oszacowania głębi.
Badania te mogą zrewolucjonizować nasze interakcje z treściami cyfrowymi, umożliwiając użytkownikom doświadczanie ich podpowiedzi tekstowych w dotychczas niewyobrażalny sposób. Obrazy i mapy głębi generowane przez LDM3D pozwalają użytkownikom zamienić opis tekstowy spokojnej tropikalnej plaży, nowoczesnego wieżowca lub fikcyjnego wszechświata w szczegółową panoramę 360 stopni. Zdolność modelu korzystania z informacji o głębi natychmiastowo zwiększa ogólny realizm i immersję, umożliwiając innowacyjne zastosowania w branżach takich jak rozrywka, gry, projektowanie wnętrz, ogłoszenia nieruchomości, a także wirtualne muzea i doświadczenia VR.
Model LDM3D został przeszkolony na zbiorze danych skonstruowanym z podzbioru 10 000 próbek bazy danych LAION-400M, która zawiera ponad 400 milionów par obraz-opis. Zespół wykorzystał model szacowania DPT (Dense Prediction Transformer) o dużej głębi (wcześniej opracowany w Intel Labs), aby oznakować korpus treningowy. Model DPT-large zapewnia bardzo dokładną głębię względną dla każdego piksela na obrazie. Zbiór danych LAION-400M został opracowany w celach badawczych, aby umożliwić testowanie treningu modelu w większej skali dla szeroko zakrojonych badań naukowych i nie tylko.
Aby pokazać potencjał LDM3D, badacze z Intela i Blockade opracowali aplikację DepthFusion, która wykorzystuje standardowe zdjęcia RGB 2D i mapy głębi do tworzenia immersyjnych i interaktywnych widoków 360 stopni. DepthFusion wykorzystuje TouchDesigner, język wizualnego programowania oparty na węzłach do tworzenia interaktywnych treści multimedialnych w czasie rzeczywistym, aby zamienić podpowiedzi tekstowe w immersyjne doświadczenia cyfrowe. Model LDM3D jest jedynym modelem, który tworzy zarówno obraz RGB, jak i mapę głębi, co prowadzi do oszczędności pamięci.
Wprowadzenie LDM3D i DepthFusion otwiera drogę do dalszych postępów w dziedzinie generatywnej AI wielowidokowej i rozpoznawania obrazów. LDM3D jest udostępniany jako projekt open source poprzez platformę HuggingFace. Pozwoli to badaczom ds. sztucznej inteligencji na dalsze udoskonalanie tego systemu i dopasowanie go do swoich potrzeb.
Najnowsze Komentarze