Классификация изображений с использованием обучения с подкреплением

Main Article Content

Аннотация

В последнее время активно развивается такое направление машинного обучения, как обучение с подкреплением. Как следствие предпринимаются попытки использования обучения с подкреплением для решения задач компьютерного зрения, в частности для решения задачи классификации изображений. Задачи компьютерного зрения являются на сегодняшний день одними из наиболее актуальных задач искусственного интеллекта.


В статье предложен метод классификации изображений в виде глубокой нейронной сети с использованием обучения с подкреплением. Идея разработанного метода сводится к решению задачи о контекстном многоруком бандите с помощью различных стратегий достижения компромисса между эксплуатацией и исследованием и алгоритмов обучения с подкреплением. Рассмотрены такие стратегии, как -жадная, -softmax, -decay-softmax и метод UCB1, и такие алгоритмы обучения с подкреплением, как DQN, REINFORCE и A2C. Проведен анализ влияния различных параметров на эффективность работы.

Article Details

Библиографические ссылки

1. Goodfellow I., Bengio Y., Courville A. Deep learning // C.: The MIT Press, 2016, URL: https://www.deeplearningbook.org/.
2. Krizhevsky A., Sutskever I., Hinton G. E. ImageNet Classification with Deep Convolutional Neural Networks // Advances in neural information processing systems, 2012. Vol. 25, No. 2. P. 1097–1105, DOI: 10.1145/3065386.
3. Russakovsky O., Deng J., Su H. at all. ImageNet Large Scale Visual Recog-nition Challenge // International Journal of Computer Vision. 2015. Vol. 115, No. 3. P. 211–252, DOI: 10.1007/s11263-015-0816-y.
4. Sutton R. S., Barto A. G. Reinforcement learning: An introduction // C.: The MIT Press, 2018. URL: http://www.incompleteideas.net/book/RLbook2020.pdf/.
5. Liu X., Xia T., Wang J. at all. Fully Convolutional Attention Networks for Fine-Grained Recognition // arXiv:1603.06765, 2017.
6. Li Z., Yang Y., Liu X. at all. Dynamic Computational Time for Visual Atten-tion // arXiv:1703.10332, 2017.
7. He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recogni-tion // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2016. P. 770–778, DOI: 10.1109/CVPR.2016.90.
8. PyTorch, 2016, URL: https://pytorch.org/.
9. Google Colaboratory, 2017, URL: https://colab.research.google.com/.
10. ImageNet Dataset, 2016, URL: http://image-net.org/.
11. Fine-Grained Image Classification, 2019, URL: https://paperswithcode.com/task/fine-grained-image-classification/.
12. Girshick R. Fast R-CNN // Proceedings of the IEEE International Confer-ence on Computer Vision, 2015. P. 1440–1448, DOI: 10.1109/ICCV.2015.169.
13. Mnih V., Kavukcuoglu K., Silver D. at all. Playing Atari with Deep Rein-forcement Learning // arXiv:1312.5602, 2013.
14. Abdolmaleki A., Springenberg J. T., Degrave J. at all. Relative Entropy Regularized Policy Iteration // arXiv:1812.02256, 2018.
15. Auer P., Cesa-Bianchi N., Fischer P. Finite-time Analysis of the Multiarmed Bandit Problem // Machine Learning, 2002. Vol. 47, No. 2-3. P. 235–256, DOI: 10.1023/A:1013689704352.


Наиболее читаемые статьи этого автора (авторов)