Cистема контролируемой генерации лица, построенная с использованием сети StyleGAN2

Main Article Content

Марат Вильданович Исангулов
Разиль Рустемович Миннеахметов
Алмаз Рустамович Хамеджанов
Тимур Робертович Хафизьянов
Эмиль Асифович Пашаев
Эрнест Ришатович Калимуллин

Аннотация

Представлен новый подход к контролируемой генерации лиц, использующий генеративные модели с открытым исходным кодом, включая StyleGAN2 и Гребневую регрессию. Разработана методология, расширяющая возможности StyleGAN2 для контроля характеристик лиц, таких как возраст, раса, пол, выражение лица и атрибуты волос, а также использован обширный набор данных человеческих лиц с аннотациями атрибутов. Лица закодированы в 256-мерном латентном пространстве с использованием кодировщика StyleGAN2, что привело к набору характерных латентных кодов. Применен алгоритм t-SNE для кластеризации этих кодов на основе признаков, продемонстрирована возможность контроля генерации лиц, впоследствии обучены модели регрессии Риджа для каждого измерения латентных кодов с использованием размеченных признаков. При декодировании с использованием StyleGAN2 полученные коды успешно восстанавливали изображения лиц, сохраняя связь с входными признаками. Разработанный подход дает легкий и эффективный способ контролируемой генерации лиц с использованием существующих генеративных моделей, таких как StyleGAN2, и открывает новые возможности для различных областей применения.

Article Details

Библиографические ссылки

1. Xia W., Zhang Y., Yang Y., Xue J.-H., Zhou B., Yang M.-H. GAN Inversion: A Survey. ArXiv210105278 Cs. 2022. URL: http://arxiv.org/abs/2101.05278
2. Bishop C. Pattern Recognition and Machine Learning. Information Science and Statistics. 2006. URL: https://link.springer.com/book/9780387310732
3. Karras T., Laine S., Aila T. A Style-Based Generator Architecture for Generative Adversarial Networks. ArXiv181204948 Cs Stat. 2019. URL: http://arxiv.org/abs/1812.04948
4. Karras T., Hellsten J et al. Analyzing and Improving the Image Quality of StyleGAN. arXiv:1912.04958 Cs. 2019. URL: https://arxiv.org/pdf/1912.04958.pdf
5. Kryuchkov M., Khanzhina N., Osmakov I., Ulyanov P. CT images GAN-based augmentation with AdaIN for lung nodules detection // Proceedings of SPIE – The International Society for Optical Engineering: 13, Rome, 02–06 November 2020. Rome, 2020. P. 1160526. https://doi.org/10.1117/12.2587940–EDN JYZOEO.
6. Huang G., Ramesh M., Berg T., Learned-Miller E. Labeled Faces in the Wild: A Database for Studying Face Recognition in Unconstrained Environments. University of Massachusetts, Amherst, Technical Report 07-49. 2018. URL: http://vis-www.cs.umass.edu/lfw/
7. Viola P., Jones M. Robust Real-time Object Detection. Second international workshop on statistical and computational theories of vision. 2001. URL: https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers
8. Ledig C., Theis L. et al. Photo-realistic single image super-resolution using a generative adversarial network. ArXiv:1609.04802v5 Cs. 2016. URL: https://arxiv.org/pdf/1609.04802v5.pdf
9. Goar V., Kuri M., Kumar R., Senjyu T. Data Compression and Visualization Using PCA and T-SNE. Advances in Information Communication Technology and Computing. 2019. URL: https://www.researchgate.net/publication/344000619_Data_Compression_ and_Visualization_Using_PCA_and_T-SNE
10. Kolo B. Binary and Multiclass Classification. Weatherford Press. 2010. URL: https://www.amazon.com/Binary-Multiclass-Classification-Brian-Kolo/dp/1615800131
11. Rawlings J., Pantula S., Dickey D. Polynomial Regression. Applied Regression Analysis. 1998. URL: https://link.springer.com/chapter/10.1007/0-387-22753-9_8
12. Козина Н. И., Шиян Н. В., Чалченко М. Р. Современные достижения в области генерации изображений на примере нейронной сети MIDJOURNEY // Сборник материалов XVI-ой международной очно-заочной научно-практической конференции. М.: Научно-издательский центр «Империя», 2023. С. 121–125.


Наиболее читаемые статьи этого автора (авторов)