<script type="text/javascript" src="http://www.beijingleather.com.cn/static/js/swfobject.js"></script> <script type="text/javascript" src="http://www.beijingleather.com.cn/static/js/action.js"></script> GigaGAN 改進了StyleGAN架構,采用兩階段訓練策略:一個是64x64的圖像生成器和一個512x512的圖像超分2器,其圖像生成器架構如下所示(這里也是采用CLIP text encoder來引入text condition): GigaGAN 在 LAION2B-en和 COYO-700M數據集上訓練,其在COCO數據集上的FID達到9.09,超過stable diffusion 1.5,推理速度比stable diffusion快20倍多(2.9s vs 0.13s): GigaGAN 除了文生圖能力,還可以實現可控的合成,比如風格混合,如下圖所示: 更多效果圖和技術細節見論文 https://arxiv.org/abs/2303.05511和網站 https://mingukkang.github.io/GigaGAN/
(資料圖片)
點藍色字關注“機器學習算法工程師”
設為星標,干貨直達!