Обучение с подкреплением импульсной нейронной сети с использованием следовых переменных для синаптических весов с мемристивной пластичностью
- Авторы: Кулагин В.А.1, Мацукатова А.Н.1,2, Рыльков В.В.1, Демин В.А.1
 - 
							Учреждения: 
							
- Национальный исследовательский центр “Курчатовский институт”
 - Московский государственный университет им. М.В. Ломоносова
 
 - Выпуск: Том 54, № 3 (2025)
 - Страницы: 213-223
 - Раздел: МЕМРИСТОРЫ
 - URL: https://clinpractice.ru/0544-1269/article/view/689383
 - DOI: https://doi.org/10.31857/S0544126925030033
 - EDN: https://elibrary.ru/PXCGWE
 - ID: 689383
 
Цитировать
Полный текст
Аннотация
Импульсные нейронные сети, пригодные для аппаратной реализации на основе мемристоров, весьма перспективны для робототехники в силу своей энергоэффективности. Однако алгоритмы обучения с подкреплением с применением таких сетей остаются малоизученными. Одной из ключевых мотиваций применения мемристоров в качестве весов сети является, помимо энергоэффективности, способность их обучения (изменения проводимости) в режиме реального времени за счет наложения импульсов напряжения от пре- и постсинаптических сигналов. В статье представлены результаты численного моделирования импульсной нейронной сети (ИНС) с мемристивными синаптическими связями, приблизительно решающей задачу оптимального управления с использованием следовых переменных для изменений весов, позволяющих приблизиться к обучению с подкреплением в истинном масштабе времени. Показана принципиальная возможность такого обучения в задаче с удержанием шеста на подвижной платформе, приведено сравнение различных функций наград, сделаны предположения о способах повышения эффективности этого подхода.
Полный текст
Об авторах
В. А. Кулагин
Национальный исследовательский центр “Курчатовский институт”
							Автор, ответственный за переписку.
							Email: Kulagin.v.a@outlook.com
				                					                																			                												                	Россия, 							Москва						
А. Н. Мацукатова
Национальный исследовательский центр “Курчатовский институт”; Московский государственный университет им. М.В. Ломоносова
														Email: Kulagin.v.a@outlook.com
				                					                																			                								
Факультет физики
Россия, Москва; МоскваВ. В. Рыльков
Национальный исследовательский центр “Курчатовский институт”
														Email: Kulagin.v.a@outlook.com
				                					                																			                												                	Россия, 							Москва						
В. А. Демин
Национальный исследовательский центр “Курчатовский институт”
														Email: Kulagin.v.a@outlook.com
				                					                																			                												                	Россия, 							Москва						
Список литературы
- Black K., Brown N., Driess D., et al. π0: A Vision-Language-Action Flow Model for General Robot Control. Physical Intelligence, San Francisco, California. 2024. https://www.physicalintelligence.company/download/pi0.pdf
 - Kalashnikov D., Varley J., Chebotar Y., et al. Mt-opt: Continuous multi-task robotic reinforcement learning at scale, arXiv preprint arXiv:2104.08212. 2021.
 - Khimya Khetarpal, Matthew Riemer, Irina Rish, and Doina Precup. Towards continual reinforcement learning: A review and perspectives. arXiv preprint arXiv:2012.13490. 2020
 - Ielmini D., & Menzel S. Universal switching behavior. In Resistive switching- from fundamentals of nanoionic redox processes to memristive device applications. Weinheim: Wiley-VCH. 2016. P. 317.
 - Pershin Y.V., & Di Ventra M. Experimental demonstration of associative memory with memristive neural networks. Neural Networks, 2010. V. 23. № 7. 881–886. http://dx.doi.org/10.1016/j.neunet.2010.05.001
 - Zhu J., Zhang T., Yang Y., & Huang R. A comprehensive review on emerging artificial neuromorphic devices. Applied Physics Reviews, 2020. V. 7. № 1. Article 011312. http://dx.doi.org/10.1063/1.5118217
 - Berggren K., Xia Q., Likharev K.K., Strukov D.B., Jiang H., Mikolajick T., et al. Roadmap on emerging hardware and technology for machine learning. Nanotechnology, 2020. V. 32. № 1. Article 012002. http://dx.doi.org/10.1088/1361-6528/aba70f
 - Mnih V. et al. Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602. 2013.
 - Kharlanov O.G., Shvetsov B.S., Rylkov V.V., Minnekhanov A.A. Sta bility of quantized conductance levels in memristors with copper filaments: Toward understanding the mechanisms of resistive switching. Physical Review Applied, 2022. V. 17. Article 054035. http://dx.doi.org/10.1103/PhysRevApplied. 17.054035
 - Minnekhanov A.A., Shvetsov B.S., Martyshov M.M. et al. On the resistive switching mechanism of parylene-based memristive devices. Organic Electronics, 2019. V. 74. P. 89–95. http: //dx.doi.org/10.1016/j.orgel.2019.06.052
 - Matsukatova A.N., Emelyanov A.V., Kulagin V.A. et al. Nanocomposite parylene-C memristors with embedded Ag nanoparticles for biomedical data process ing. Organic Electronics, 2022. V. 102. Article 106455. http://dx.doi.org/10.1016/j.orgel. 2022.106455
 - Minnekhanov A.A., Emelyanov A.V., Lapkin D.A. et al. Parylene based memristive devices with mul tilevel resistive switching for neuromorphic applications. Scientific Reports, 2019. V. 9. № 1. P. 10800. http://dx.doi.org/10.1038/s41598-019-47263-9
 - Kvatinsky S., et al. VTEAM – A General Model for Voltage Controlled Memristors // IEEE Transactions On Circuits And Systems – Ii: Express Briefs, 2015. Vol. 62. No. 8.
 - Emelyanov A.V., Lapkin D.A., Demin V.A. et al. First steps towards the realization of a double layer perceptron based on organic memristive devices. AIP Advances, 2016. V. 6. № 11. Article 111301. http://dx.doi.org/10.1063/1.4966257
 - Sboev A., Serenko A., Rybka R., Vlasov D. Solving a classification task by spiking neural network with STDP based on rate and temporal input encoding. Mathematical Methods in the Applied Sciences, 2020. V. 43. № 13. P. 7802–7814. http://dx.doi.org/10.1002/mma.6241
 - Gütig R., Sompolinsky H. The tempotron: a neuron that learns spike timing–based decisions. Nature Neuroscience, 2006. V. 9. № 3. P. 420–428.
 - Wang X., Hou Z.-G., Lv F., Tan M., Wang Y. Mobile robots’ modular navigation controller using spiking neural networks. Neurocomputing, 2014. V. 134. P. 230–238. http://dx.doi.org/10.1016/J.NEUCOM.2013.07.055
 - Yu Q., Tang H., Tan K.C., Yu H. A brain-inspired spiking neural network model with temporal encoding and learning. Neurocomputing, 2014. V. 138. P. 3–13. http://dx.doi.org/10.1016/j.neucom.2013.06.052
 - Vlasov D., Minnekhanov A., Rybka R., et al. Memristor-based spiking neural network with online reinforcement learning, Neural Networks, 2023. V. 166. https://doi.org/10.1016/j.neunet.2023.07.031
 - Hazan H., Saunders D.J., Khan H., Patel D. BindsNET: A Machine Learning-Oriented Spiking Neural Networks Library in Python // Front. Neuroinform. 2018. V. 12. P. 89.
 - Sboe A., Serenko A., Rybka R., Vlasov D. Solving a classification task by spiking neural network with STDP based on rate and temporal input encoding. Mathematical Methods in the Applied Sciences, 2020. V. 43. № 13. P. 7802–7814. http://dx.doi.org/10.1002/mma.6241
 - Sboev A., Vlasov D., Rybka R., Davydov Y., Serenko A., Demin V. Modeling the dynamics of spiking networks with memristor-based STDP to solve classification tasks. Mathematics, 2021. V. 9. № 24. P. 3237:1–10. http://dx.doi.org/10.3390/math9243237, URL https://www.mdpi.com/2227-7390/9/24/3237
 - Richard S., Sutton and Andrew G. Barto. Reinforcement Learning. 2nd Ed. The MIT Press. ISBN: 978-0-262-19398-6. 2018, p. 329.
 - Mnih V., et al. Asynchronous methods for deep reinforcement learning //International conference on machine learning. PmLR. 2016. P. 1928–1937.
 - Frémaux N, Sprekeler H, Gerstner W.Re inforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons. PLoS Comput Biol. 2013. V. 9. № 4. P. e1003024. https://doi.org/10.1371/journal.pcbi.1003024
 
Дополнительные файлы
				
			
						
						
						
					
						
									









