Contactanos

Curso de Aprendizaje por Refuerzo: Fundamentos y Aplicaciones

Inicio:

05.05.2026
Duración: 6 clases
Modalidad: Online

Aprendizaje por Refuerzo - RL

Introducite en uno de los paradigmas más avanzados de la IA: el Aprendizaje por Refuerzo (Reinforcement Learning, RL).

Aprendé cómo los agentes computacionales toman decisiones óptimas a partir de la interacción con su entorno y sistemas de recompensa, una lógica que hoy impulsa innovaciones en robótica, finanzas, logística, videojuegos y sistemas de recomendación.

En solo 6 semanas, vas a combinar fundamentos teóricos claros con implementación práctica en Python, incorporando herramientas concretas para aplicar RL en problemas reales con criterio técnico y visión estratégica.

Una formación diseñada para dar el salto hacia la IA aplicada y las decisiones inteligentes.

Al finalizar el curso, serás capaz de:

  • Comprender la estructura conceptual de los Procesos de Decisión de Markov (MDP) como marco formal para problemas de decisión secuencial.
  • Distinguir entre métodos de predicción y control, identificando sus características, ventajas y limitaciones operativas.
  • Implementar algoritmos clásicos de RL (Q-Learning, SARSA) utilizando librerías estándar en Python.
  • Reconocer aplicaciones contemporáneas del RL profundo y sus implicaciones en diversos sectores industriales.
  • Analizar casos prácticos mediante experimentación computacional, interpretando resultados con criterio técnico apropiado

¿Por qué hacer este curso?

Porque el futuro de la inteligencia artificial se basa en decisiones.

El Aprendizaje por Refuerzo es la tecnología detrás de sistemas que aprenden a optimizar resultados en entornos dinámicos e inciertos. No se trata solo de predecir: se trata de decidir estratégicamente.

Vas a incorporar una competencia diferencial

El RL es una de las áreas más avanzadas y demandadas dentro de la IA aplicada.

Vas a aprender haciendo

Implementarás algoritmos como Q-Learning y SARSA en Python, trabajando con casos reales y entornos prácticos.

Vas a entender el “por qué”, no solo el “cómo”

Combinamos fundamentos sólidos con aplicación técnica para que tomes decisiones con criterio.

Vas a ampliar tu perfil profesional

Finanzas, robótica, logística, recomendadores, gaming: el RL está transformando múltiples industrias.

Si buscás pasar de analizar datos a diseñar sistemas que tomen decisiones inteligentes, este curso es el siguiente paso.

Explora más cursos de actualización

Conocé nuestra oferta 2026 en Programas en actualización continua aquí. 

Información Extra

Unidad 1: Introducción y conceptos fundamentales

Contenidos:

• Panorama histórico del RL: desde los orígenes cibernéticos hasta aplicaciones actuales

• Diferencias conceptuales con aprendizaje supervisado y no supervisado

• Procesos de Decisión de Markov (MDP): estados, acciones, recompensas y transiciones

• Políticas de decisión: estocásticas versus determinísticas

• Funciones de valor (V, Q) y retorno esperado

• Ecuación de Bellman: intuición y significado operativo

Unidad 2: Métodos de evaluación y predicción

Contenidos:

• Estimación Monte Carlo: muestreo de trayectorias completas

• Aprendizaje por Diferencias Temporales (Temporal Difference): TD(0)

• Comparación entre Monte Carlo y TD: convergencia, eficiencia computacional

• Problema de exploración versus explotación: estrategias e-greedy

• Práctica guiada: implementación de TD(0) en entornos simples

Unidad 3: Algoritmos de control on-policy y off-policy

Contenidos:

• SARSA (State-Action-Reward-State-Action): actualización on-policy

• Q-Learning: aprendizaje off-policy y convergencia hacia el óptimo

• Diferencias conceptuales y prácticas entre ambos enfoques

• Aproximación de funciones: extensión hacia espacios de estados continuos

• Práctica guiada: comparación SARSA vs. Q-Learning en GridWorld y CartPole

Unidad 4: Introducción al RL profundo y perspectivas contemporáneas

Contenidos:

• Deep Q-Networks (DQN): arquitectura básica y mecanismos clave (experience replay, target

networks)

• Métodos de gradiente de política: intuición conceptual (REINFORCE, PPO)

• Arquitecturas actor-crítico: combinando evaluación y mejora

• Aplicaciones destacadas: AlphaGo, robótica, sistemas de recomendación, finanzas

• Desafíos actuales: seguridad, interpretabilidad, transferencia de conocimiento

• Panorama de herramientas: OpenAI Gym/Gymnasium, Stable Baselines3

Graduados y profesionales provenientes de ciencia de datos, estadística, economía, ingeniería, computación o disciplinas afines que busquen actualizar sus competencias en inteligencia artificial aplicada.

La Universidad Austral es la #1 de Argentina

de Gestión Privada

Contactanos