Aprendizaje por refuerzo: Fundamentos teóricos del algoritmo AlphaZero e implementación
Reinforcement learning: Theoretical foundations of the AlphaZero algorithm and implementation

Impacto

Downloads

Downloads per month over past year



Maurel Serrano, Alberto (2021) Aprendizaje por refuerzo: Fundamentos teóricos del algoritmo AlphaZero e implementación. [Trabajo Fin de Grado]

[thumbnail of MAUREL SERRANO 60108_ALBERTO_MAUREL_SERRANO_Aprendizaje_por_refuerzo_Fundamentos_teoricos_del_Algoritmo_AlphaZero_e_implementacion_784051_607075157.pdf]
Preview
PDF
Creative Commons Attribution Non-commercial.

3MB


Abstract

En 2016, el equipo de DeepMind sorprendió al mundo creando una inteligencia artificial capaz de jugar al go a un nivel superior al de los humanos y ganando a uno de los jugadores más laureados de la historia. Sin embargo, AlphaGo era un algoritmo complejo y requería de una gran potencia computacional.
Un año más tarde se publicó AlphaZero. La belleza de este algoritmo residía no solo en que requería menos potencia computacional y se podía aplicar a más juegos, sino en la elegancia con la que combinaba sus componentes para lograr un rendimiento por encima de cualquier otro algoritmo hasta el momento.
El objetivo de este trabajo es explicar el funcionamiento del algoritmo AlphaZero. Para ello se introducen primero las nociones teóricas básicas del aprendizaje por refuerzo y las redes neuronales y posteriormente los detalles particulares del algoritmo. Además, se implementa una versión reducida del mismo y se entrena para jugar al tres en raya y al Conecta 4, estudiándose los resultados obtenidos.

Resumen (otros idiomas)

In 2016, DeepMind’s team surprised the world by crafting an artificial intelligence that was able to play Go at a superhuman level and win the second most laureate Go player in history. However, AlphaGo was a complex algorithm, that required huge computing power. A year later AlphaZero was published. The beauty behind this algorithm relies not only on the smaller computing power required or that it can be applied to more board games but also on the way they skillfully put together its components to achieve a performance way better than other Go programs at that moment. The objective of this work is to explain how AlphaZero works. First, we briefly introduce the theoretical basis of reinforcement learning and neural networks and later we explain the details of the algorithm. In addition, a slightly simplified version of the algorithm is implemented and trained to play Tic Tac Toe and Connect 4, and its performance is analyzed.

Item Type:Trabajo Fin de Grado
Additional Information:

Trabajo de Fin de Grado en Doble Grado en Ingeniería Informática - Matemáticas, Facultad de Informática UCM, Departamento de Sistemas Informáticos y Computación, Curso 2022-21.

Directors:
Directors
Palomino Tarjuelo, Miguel
Verdejo López, José Alberto
Uncontrolled Keywords:AlphaZero, AlphaGo Zero, DeepMind, Aprendizaje por refuerzo, Arboles de búsqueda de Monte Carlo , Tres en raya, Conecta 4
Palabras clave (otros idiomas):AlphaZero, AlphaGo Zero, DeepMind, Reinforcement learning, Monte Carlo Tree Search (MCTS), Tic Tac Toe, Connect 4
Subjects:Sciences > Computer science
Título de Grado:Doble Grado en Ingeniería Informática - Matemáticas
ID Code:67423
Deposited On:30 Aug 2021 15:43
Last Modified:30 Aug 2021 15:43

Origin of downloads

Repository Staff Only: item control page