V posledních letech prochází obor strojového učení značnou transformací především kvůli narůstajícímu počtu komerčních produktů dostupných běžnému uživateli. Překotný vývoj a rozšíření AI technologií vstupuje do všech aspektů našeho života, od rozpoznávání hlasu a obrazu až po akademický výzkum.
V rychle se rozvíjející oblasti umělé inteligence (AI) se jedním z nejdiskutovanějších témat stal nárůst popularity generativních modelů. Ruku v ruce s touto transformací se bohužel zvyšuje i výpočetní náročnost, a tedy i energetická spotřeba s ní spojená. Výzvy, které souvisejí s udržitelností těchto technologií, jsou stále naléhavější. Jak ukázala řada publikací v posledních letech, existující generativní a difúzní modely lze však také využít pro značnou úsporu výpočetního výkonu jak na mobilních zařízeních, tak v datových centrech ve specifických aplikacích. Jakožto student elektroinženýrství na Eindhoven University of Technology (TU/e) s budoucí specializací v oblasti zpracování signálu jsem se proto zapojil do projektu v rámci Honours Academy, který přispívá ke zlepšení existujících metod pro komprimaci fotografií a videí s použitím difúzních modelů.
Jak jsem se k tomu dostal?
Jako student Eindhoven University of Technology jsem se loni účastnil Honours Academy, tedy univerzitního programu, který umožňuje studentům s nejlepšími studijními výsledky zapojit se do výzkumných projektů nad rámec standardního studia. Vzhledem k mému zájmu o uplatnění strojového učení v oblasti zpracování signálu jsem v posledním roce pracoval na projektu pro zlepšení algoritmů pro bezeztrátovou kompresi dat s použitím difúzních modelů. Jsem zároveň předsedou našeho studentského výzkumného týmu AI Track, který rovněž zastupuji v HA Student Parliament. Tyto aktivity byly klíčové pro získání zkušeností a kontaktů pro tento projekt a pro mou následující univerzitní stáž v oblasti zpracování obrazu, kterou během léta absolvuji.
Generativní modely a komprese dat při zpracování obrazu
Difuzní modely, které jsou inspirovány nerovnovážnou termodynamikou, modelují proces, kdy je do obrazu postupně přidáván šum a poté je tento šum odstraněn s pomocí trénovaného modelu. Obrazy jsou reprezentovány jako sada pixelových hodnot, které jsou postupně modifikovány pomocí difuzního procesu. Tyto modifikované pixelové hodnoty jsou poté použity k rekonstrukci komprimovaného obrazu, který se co nejvíce blíží původnímu obrazu – v případě specializovaných algoritmů bezeztrátově. Zmiňované generativní modely jsou naopak širší skupinou především v oblasti hlubokého učení, do které patří i řada difuzních modelů.
Difuzní modely hrají významnou roli nejen v generaci a rekonstrukci obrazu, ale také v generaci a rekonstrukci zvuku a v přirozeném zpracování jazyka. Jejich schopnost generovat, rekonstruovat a augmentovat data má významný dopad na mnoho vědeckých oblastí a technologií.
Šimon Sukup
Vzhledem k výpočetní a s ní spojené energetické náročnosti na optimalizaci hlubokých difuzních modelů se v posledních letech v oblasti výzkumu věnovala značná pozornost použití existujících „pretrained“ modelů pro další aplikace na šetření výpočetních zdrojů. Jedním z inovativních řešení, jak použít existující model pro nové účely a bez nutnosti trénovat a vytvářet novou architekturu, je bezeztrátová komprimace dat. Některé modely, původně určené pro generativní účely, lze totiž využít pro tvorbu algoritmů, které konkurují populárním komprimačním metodám jako JPEG nebo PNG a které v posledních letech dosáhly bezeztrátové komprimace. Touto oblastí se také zabýval projekt, kterého jsem se zúčastnil.
Projekt, který sníží spotřebu datových center, ocení i streamovací služby
Účelem projektu byla optimalizace nových architektur difuzních modelů pro komprimační algoritmy. Naše implementace latentního difuzního modelu byla použita v kombinaci BB-ANS (Bits-back Coding Assymetric Numerical Systems). Tato metoda přinesla v oblasti komprese značné výhody. ANS je efektivní algoritmus pro komprimovaný přenos dat s pevnou délkou bit-streamu, který je ideální pro použití s difuzními modely. Při použití s BB-ANS, který umožňuje modelu vracet "nevyužité" bity zpět do kompresního procesu, jsme docílili efektivní bezeztrátovou kompresi fotografií. Pomocí námi vylepšených modelů jsme dosáhli kvalitní rekonstrukce s menšími datovými požadavky než standardní kompresní algoritmy.
Projekty zaměřené na tuto oblast komprimace dat jsou hezkou ukázkou toho, jak může přístup založený na strojovém učení přinést značné výhody pro digitální zpracování dat a kompenzovat energetickou náročnost datových center například pro streamovací služby.
Použitá metoda bezeztrátové komprese fotografií by mohla výrazně snížit potřebu datových úložišť a šířky pásma pro přenos dat, což by současně snížilo energetické nároky datových center, a pomohlo tak zmírnit jejich uhlíkovou stopu. Tento přístup má tudíž velké potenciální výhody pro streamovací služby a další aplikace, které pracují s velkými objemy dat.
Jsem rád za příležitost přispět k hledání technických řešení pro zpracování obrazu, které mezioborově spojuje můj hlavní studijní program elektroinženýrství s oblastí strojového učení. To by nebylo možné bez podpory mého studia ze strany nadace The Kellner Family Foundation.
2024 © THE KELLNER FAMILY FOUNDATION