Introducite en uno de los paradigmas más avanzados de la IA: el Aprendizaje por Refuerzo (Reinforcement Learning, RL).
Aprendé cómo los agentes computacionales toman decisiones óptimas a partir de la interacción con su entorno y sistemas de recompensa, una lógica que hoy impulsa innovaciones en robótica, finanzas, logística, videojuegos y sistemas de recomendación.
En solo 6 semanas, vas a combinar fundamentos teóricos claros con implementación práctica en Python, incorporando herramientas concretas para aplicar RL en problemas reales con criterio técnico y visión estratégica.
Una formación diseñada para dar el salto hacia la IA aplicada y las decisiones inteligentes.
Al finalizar el curso, serás capaz de:
El Aprendizaje por Refuerzo es la tecnología detrás de sistemas que aprenden a optimizar resultados en entornos dinámicos e inciertos. No se trata solo de predecir: se trata de decidir estratégicamente.
El RL es una de las áreas más avanzadas y demandadas dentro de la IA aplicada.
Implementarás algoritmos como Q-Learning y SARSA en Python, trabajando con casos reales y entornos prácticos.
Combinamos fundamentos sólidos con aplicación técnica para que tomes decisiones con criterio.
Finanzas, robótica, logística, recomendadores, gaming: el RL está transformando múltiples industrias.
Si buscás pasar de analizar datos a diseñar sistemas que tomen decisiones inteligentes, este curso es el siguiente paso.
Conocé nuestra oferta 2026 en Programas en actualización continua aquí.
Unidad 1: Introducción y conceptos fundamentales
Contenidos:
• Panorama histórico del RL: desde los orígenes cibernéticos hasta aplicaciones actuales
• Diferencias conceptuales con aprendizaje supervisado y no supervisado
• Procesos de Decisión de Markov (MDP): estados, acciones, recompensas y transiciones
• Políticas de decisión: estocásticas versus determinísticas
• Funciones de valor (V, Q) y retorno esperado
• Ecuación de Bellman: intuición y significado operativo
Unidad 2: Métodos de evaluación y predicción
Contenidos:
• Estimación Monte Carlo: muestreo de trayectorias completas
• Aprendizaje por Diferencias Temporales (Temporal Difference): TD(0)
• Comparación entre Monte Carlo y TD: convergencia, eficiencia computacional
• Problema de exploración versus explotación: estrategias e-greedy
• Práctica guiada: implementación de TD(0) en entornos simples
Unidad 3: Algoritmos de control on-policy y off-policy
Contenidos:
• SARSA (State-Action-Reward-State-Action): actualización on-policy
• Q-Learning: aprendizaje off-policy y convergencia hacia el óptimo
• Diferencias conceptuales y prácticas entre ambos enfoques
• Aproximación de funciones: extensión hacia espacios de estados continuos
• Práctica guiada: comparación SARSA vs. Q-Learning en GridWorld y CartPole
Unidad 4: Introducción al RL profundo y perspectivas contemporáneas
Contenidos:
• Deep Q-Networks (DQN): arquitectura básica y mecanismos clave (experience replay, target
networks)
• Métodos de gradiente de política: intuición conceptual (REINFORCE, PPO)
• Arquitecturas actor-crítico: combinando evaluación y mejora
• Aplicaciones destacadas: AlphaGo, robótica, sistemas de recomendación, finanzas
• Desafíos actuales: seguridad, interpretabilidad, transferencia de conocimiento
• Panorama de herramientas: OpenAI Gym/Gymnasium, Stable Baselines3
Graduados y profesionales provenientes de ciencia de datos, estadística, economía, ingeniería, computación o disciplinas afines que busquen actualizar sus competencias en inteligencia artificial aplicada.
La Universidad Austral es la #1 de Argentina
de Gestión Privada
Contactanos
Carreras de Grado: info@austral.edu.ar
Posgrados: posgradosfi@austral.edu.ar