Filtrar por:
Tipo de publicación
- Artículo (54)
- Tesis de maestría (7)
- Documento de trabajo (7)
- Artículo (2)
- Libro (1)
Autores
- Velitchko Tzatchkov (11)
- WALDO OJEDA BUSTAMANTE (10)
- VICTOR HUGO ALCOCER YAMANAKA (9)
- CARLOS FUENTES RUIZ (7)
- MANUEL ZAVALA TREJO (6)
Años de Publicación
Editores
- Instituto Mexicano de Tecnología del Agua (28)
- CICESE (4)
- Colegio de Postgraduados. (4)
- Colegio de Postgraduados (3)
- Universidad Nacional Autónoma de México (2)
Repositorios Orígen
- Repositorio institucional del IMTA (58)
- Repositorio Institucional CICESE (4)
- Repositorio Institucional de la Universidad Autónoma de Ciudad Juárez (2)
- CIATEQ Digital (1)
- Repositorio COLSAN (1)
Tipos de Acceso
- oa:openAccess (70)
Idiomas
Materias
- INGENIERÍA Y TECNOLOGÍA (43)
- Modelos matemáticos (29)
- CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA (13)
- CIENCIAS AGROPECUARIAS Y BIOTECNOLOGÍA (7)
- Modelos hidrológicos (7)
Selecciona los temas de tu interés y recibe en tu correo las publicaciones más actuales
Optimización del proceso de estampado en la empresa Rivian: aplicación del método SMED
Diego Rodríguez Arroyo Luis Alberto Cáceres Díaz ISABEL PEREYRA LAGUNA (2023, [Artículo])
En la era actual, la industria automotriz se encuentra en un estado de transformación constante, impulsado principalmente por la rápida integración de tecnologías emergentes. Aquellas empresas que logran destacar son las que no sólo innovan en diseño y funcionalidad, sino también en la eficiencia productiva. Rivian, una prominente empresa estadounidense especializada en vehículos eléctricos destaca por sus audaces diseños y su compromiso con la sostenibilidad. No obstante, al adentrarse en el funcionamiento interno de sus plantas de producción, surgen ciertos desafíos. En particular, en las instalaciones de la planta de Rivian, se ha detectado que el proceso de estampado, esencial para modelar las piezas de acero de sus vehículos, representa un cuello de botella con gran área de oportunidad que requiere una pronta intervención debido al tiempo muerto que impacta a la producción, entre éstas, la alimentación del material a la prensa de estampado, donde actualmente existen muchas actividades manuales que ocasionan tiempo extra de operación, el cual se puede reducir mediante la automatización de algunas operaciones. En este artículo, se presenta un desarrollo detallado sobre la implementación y optimización del proceso en una prensa de estampado, utilizando la metodología intercambio de troqueles en un solo minuto (SMED por sus siglas en inglés) para maximizar y mejorar la eficiencia de los recursos y satisfacer la demanda de producción. A través de esta herramienta de Manufactura Esbelta, se aplican sistemáticamente las etapas y ciclos del SMED con el objetivo de realizar el cambio de modelo en una maquina en un tiempo objetivo de 12 minutos. Este trabajo de investigación describe una serie de desafíos y las soluciones implementadas en diferentes estaciones de la prensa, buscando incrementar su eficiencia y minimizar los riesgos para los operadores. Además, se enfoca en reducir el material defectuoso producido en la prensa, lo que contribuye a un aumento en la calidad y una disminución en los costos por unidad. Esto tuvo como resultado ahorros de miles de dólares en costos variables de la prensa.
In the current era, the automotive industry is in a state of constant transformation, caused primarily by the rapid integration of emerging technologies. Those companies that can stand out are those that not only innovate in design and functionality but also productive efficiency. Rivian, a prominent American company specializing in electric vehicles, is known for its bold designs and commitment to sustainability. However, when delving into the inner workings of your production plants, certain challenges arise. At the Rivian plant facilities, it has been detected that the stamping process, essential for modeling the steel parts of its vehicles, represents a bottleneck in the process with a large area of opportunity that requires prompt intervention due to high downtime in the press line that impacts production, specifically in the setting of material, there are a lot of manual operations that cause a lot of overtime that can be reduced with automated processes. In this article, a detailed development on the implementation and optimization of the process in a stamping press is presented, using the SMED methodology (Single Minute Exchange Die) to maximize and improve resource efficiency and meet production demand. Through this Lean Manufacturing tool, the stages, and cycles of the SMED are systematically applied to carry out the model change in a machine in a target time of 12 minutes. This research work describes a series of challenges and solutions implemented in different press stations, seeking to increase their efficiency and minimize the risks for operators. Additionally, it focuses on reducing defective material produced on the press, which contributes to an increase in quality and a decrease in unit costs. This resulted in savings of thousands of dollars in variable press costs.
El primer autor agradece el apoyo de CIATEQ y de la empresa y grupo de trabajo en Rivian, que con todo el análisis de datos y la instalación de las diversas mejoras siempre hubo el apoyo y la comunicación correcta como equipo de trabajo. Además de agradecer el gran apoyo del asesor el Dr. Luis Cáceres y la Dra. Isabel Pereyra por su constante retroalimentación y el fuerte apoyo durante estos meses de trabajo en este artículo sobre SMED, mejorando en el análisis y representación de datos ya que con los conocimientos y la experiencia de ambos se facilitó la realización y culminación de este proyecto. De igual manera los autores agradecen a la Revista Politécnica de Aguascalientes por permitir la publicación de este artículo.
Cambio de modelo SMED Automatización Optimización Technology stamping Automation SMED INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS OTRAS ESPECIALIDADES TECNOLÓGICAS OTRAS OTRAS
Indicadores técnicos para la conversión productiva de agricultura de temporal a riego
MARIA DOLORES OLVERA SALGADO OSCAR ALPUCHE GARCÉS Mario Alberto Montiel Gutiérrez (2013, [Artículo])
La construcción de una presa hidroeléctrica en la costa de Oaxaca, México, puede propiciar cambios en la cantidad de agua disponible para riego, por lo tanto se requiere determinar la orientación productiva de la zona con factibilidad de riego para asegurar el volumen de agua superficial necesario para los cultivos actuales y futuros en la zona de influencia. Se realiza a partir de modelos de finca agrícola y la aplicación del método comparativo con indicadores generados por el interés y experiencia productiva del agricultor local, la cobertura de sus necesidades básicas, la orientación de la política pública y la sustentabilidad de recursos, elementos importantes en la toma de decisiones.
Producción agrícola Modelo de finca Riego Disponibilidad de agua INGENIERÍA Y TECNOLOGÍA
Violeta, azul, verde, amarillo, naranja, rojo ¡Quién ve que color!
DIEGO FRANCISCO ANGULO PEREZ (2022, [Artículo])
Entender como los colores son percibidos por los polinizadores es una tarea fundamental para la ecología y la agricultura. La mayoría de los trabajos se han realizado usando la percepción de color del ojo humano; sin embargo, el ojo especializado de un insecto percibe colores en diferentes longitudes de onda dependiendo del tipo y número de fotoreceptores que contenga. En la actualidad con el avance de la ciencia y la tecnología se realizan medidas de reflectancias de las flores y se desarrollan modelos de visión de insectos y otros grupos de polinizadores que nos permiten de una manera más precisa entender la interacción plantapolinizador y la evolución del color floral.
COLORES FLORALES ECOLOGIA EVOLUCION MODELOS DE VISION POLINIZADORES REFLECTANCIA BIOLOGÍA Y QUÍMICA CIENCIAS DE LA VIDA BIOLOGÍA VEGETAL (BOTÁNICA) ECOLOGÍA VEGETAL ECOLOGÍA VEGETAL
Escenarios de la distribución de plomo en agua, sedimentos y bacterias del lago de Chapala, México
ANNE MARGRETHE HANSEN HANSEN ADRIANA VILLA NAVIA MANFRED JOSEF VAN AFFERDEN MOELDERS (2006, [Artículo])
Para evaluar la distribución de plomo en los recursos naturales en el lago de Chapala se analizó la adsorción de este metal en bacterias y, mediante datos publicados en la literatura y modelación numérica, se estimó el riesgo asociado al consumo de peces y agua. Experimentos de adsorción en tres cepas de bacterias y simulaciones de la distribución en un sistema agua-sedimentos-bacterias indican que la distribución del plomo en el lago depende de variaciones en calidad del agua tales como sólidos suspendidos totales, plomo total y biomasa. Considerando únicamente el plomo contenido en los sedimentos depositados en el fondo del lago, las simulaciones sugieren que las concentraciones generalmente no sobrepasan los límites y criterios establecidos para uso y protección del agua, sedimentos y biota. Considerando la existencia de una fuente adicional que localmente aumente la concentración de plomo con un factor de diez, la cantidad de plomo en agua y sedimentos puede sobrepasar los límites establecidos. La bioacumulación de plomo en el lago de Chapala fue estimada a partir de los factores de bioconcentración y biomagnificación del metal, calculados mediante los valores simulados en este trabajo y concentraciones publicadas sobre plomo en peces (Ayla Jay y Ford, 2001). Los resultados indican que el plomo se concentra en bacterias y peces, y puede alcanzar factores de 721 y 6,195, respectivamente. Asimismo, la bioacumulación de plomo en el lago ocurre por bioconcentración en peces más que por biomagnificación en la cadena trófica.
Lagos Contaminación por plomo Modelo de equilibrio químico Bioacumulación Lago de Chapala CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA
Velitchko Tzatchkov VICTOR HUGO ALCOCER YAMANAKA (2011, [Artículo])
Los proyectos de sectorización de redes de agua potable, en proceso en diferentes ciudades mexicanas actualmente, consisten en dividir la red de la ciudad en varias subredes o sectores más pequeños con una o máximo dos entradas de agua por sector. Para diseñar los sectores se emplean modelos de redes de agua potable que revisan si la sectorización propuesta puede funcionar hidráulicamente de manera adecuada. Para los proyectos de sectorización en redes grandes se requieren, sin embargo, facilidades algorítmicas adicionales, como análisis de conectividad, zona de influencia y contribución de cada fuente sobre el consumo. En el presente artículo se discuten eficientes algoritmos de este tipo basados en la teoría de los grafos, implementados en un sistema de cómputo.
Modelos de redes de distribución Redes de distribución de agua Algoritmos sobre grafos INGENIERÍA Y TECNOLOGÍA
IRIS ANAID RODRÍGUEZ SÁNCHEZ (2023, [Tesis de maestría])
En esta investigación se describen los diversos elementos que componen el modelo Petö 1
identificando en sus programas las habilidades cognitivas que desarrollan los infantes, ya que es de gran
relevancia la autonomía que logran durante su crianza y educación con este modelo.
Se realizó una revisión de los expedientes de 9 infantes con Parálisis Cerebral (PC) entre 6 y 13
años, específicamente se analizaron los resultados de la Prueba Progress Assesment Chart P.A.C2 en el
área de comunicación, socialización, independencia personal y ocupación del año 2017 al 2020, con el
objetivo de caracterizar las habilidades cognitivas en infantes con Parálisis Cerebral atendidos a través
del modelo Petö en la asociación civil Con Nosotros, A.C. en Morelos, México.
Los resultados de las pruebas de cada infante fueron vaciados en rúbricas diseñadas para poder
caracterizar las habilidades cognitivas que el modelo Petö desarrolla en atención a los infantes con
Parálisis Cerebral de la asociación civil Con Nosotros, A.C. Morelos, México.
Así mismo, se realizó un análisis cuantitativo en graficas con porcentajes, así como cualitativos de los
resultados de las evaluaciones de las áreas de comunicación, socialización, independencia personal y
ocupación de dichos 9 expedientes.
La presente investigación fue un estudio longitudinal, descriptivo, basado en el análisis y
sistematización retrospectiva de la revisión de 9 expedientes de infantes con Parálisis Cerebral entre 6 y
13 años de la asociación civil Con Nosotros, A.C. Morelos, México, durante el período 2017-2020. El
objetivo de esta revisión fue caracterizar las habilidades cognitivas que desarrolla el Modelo Petö. Los
resultados del análisis de las pruebas muestran que independientemente del nivel de discapacidad que
presenten los infantes, el modelo desarrolla en ellos habilidades cognitivas, motrices, sociales y de
independencia.
En conclusión, estas habilidades cognitivas que los infantes desarrollan durante su rutina escolar
les da las herramientas para lograr una ortofuncionalidad en sus vidas y con esto lograr una mejor calidad
de vida para ellos y para sus familias.
HUMANIDADES Y CIENCIAS DE LA CONDUCTA PSICOLOGÍA Parálisis Cerebral, Modelo Petö, habilidades cognitivas.
Propuesta multicultural en una institución de educación media superior en Mérida, Yucatán
MANUEL FLORES FAHARA (2023, [Tesis de maestría])
https://orcid.org/0000-0001-9282-8750
Yucatán es uno de los Estados con mayor preservación cultural dentro de la República Mexicana, constantemente busca la forma de favorecer sus raíces y de incentivar a sus personas a ser parte de sus tradiciones. Pese a esta característica culturalmente favorable, el Estado de Yucatán se enfrenta a una realidad educativamente crítica. Actualmente la tasa de abandono escolar en adolescentes es significativamente elevada, puesto que una vez finalizan con sus estudios de secundaria, no continúan con estudios de bachillerato en casi el 50%. Si bien, existen distintos factores que favorecen a este número de forma negativa, uno de los principales es la creencia popular de que, al haber finalizado el último año de secundaria, ya se tienen los conocimientos necesarios para una vida despreocupada en el estado.
Es gracias a esta problemática que se realizó el presente proyecto de intervención en la institución Centro Universitario Montejo A.C. de la ciudad de Mérida, Yucatán con una propuesta de implementación multicultural e intercultural para complementar el modelo académico de la institución con elementos multiculturales que permitan integrar una diversidad cultural para poder disminuir el estigma de aprender únicamente lo aplicable para la región, así como elementos interculturales que continúen fomentando el respeto por la tradición y cultura prehispánica como se ha realizado hasta la actualidad. Una vez se realizó la intervención, se obtuvieron resultados sumamente favorecedores en los que los estudiantes presentaron sus opiniones y propuestas al modelo multicultural, así como una perspectiva docente más dispuesta a la descentralización de la educación.
Maestro en Educación
HUMANIDADES Y CIENCIAS DE LA CONDUCTA PEDAGOGÍA ORGANIZACIÓN Y PLANIFICACIÓN DE LA EDUCACIÓN ANÁLISIS, REALIZACIÓN DE MODELOS Y PLANIFICACIÓN ESTADÍSTICA
Detección de comportamiento no verbal en interacción humano-robot
Detection of non-verbal behavior in human-robot interaction
Ernesto Adrián Lozano De la Parra (2023, [Tesis de maestría])
La comunicación no verbal desempeña un papel vital en la interacción humana. En el contexto de la interacción humano-robot (IHR), los robots sociales están diseñados principalmente para la comunicación verbal con los humanos, dejando a la comunicación no verbal como un área de investigación abierta. En este trabajo, se presenta una arquitectura flexible y abierta llamada Software Arquitechture for Nonverbal Interaction in Human-Robot Interaction (SANI-HRI) diseñada para facilitar las interacciones no verbales en IHR. Entre sus componentes se encuentra un Cuaderno Computacional P2P basado en navegador web, aprovechado para codificar, ejecutar y compartir programas reactivos. Pueden incluirse modelos de aprendizaje automático para el reconocimiento en tiempo real de gestos, poses y estados de ´animo, empleando protocolos como MQTT. Otro componente clave es un Broker para distribuir datos entre distintos dispositivos físicos, como robots, dispositivos vestibles y sensores ambientales, así como modelos de aprendizaje automático que comprendan diferentes tipos de datos. Se demuestra la utilidad de esta arquitectura mediante tres escenarios de interacción: (i) el primero que emplea la proxémica y la dirección de la mirada para iniciar un encuentro improvisado, (ii) un segundo que utiliza técnicas de visión por computadora para detectar y analizar expresiones faciales y corporales, así como el uso sensores biométricos para obtener datos de ritmo cardiaco durante una rutina de ejercicio, y (iii) un tercero que incorpora el reconocimiento de objetos y Modelos de Lenguaje Grandes para sugerir comidas a cocinar en función de los ingredientes disponibles. Estos escenarios ilustran cómo los componentes de la arquitectura pueden integrarse para abordar nuevos escenarios, en los que los robots necesitan inferir señales no verbales de los usuarios.
Nonverbal communication plays a vital role in human interaction. In the context of Human-Robot Interaction (HRI), social robots are designed primarily for verbal-based communication with humans, making nonverbal communication an open research area. We present a flexible, open framework called Software Architecture for Nonverbal Interaction in Human-Robot Interaction (SANI-HRI) designed to facilitate nonverbal interactions in HRI. Among its components it has a P2P Browser-Based Computational Notebook, leveraged to code, run, and share reactive programs. Machine-learning models can be included for real-time recognition of gestures, poses, and moods, employing protocols such as MQTT. Another key component is a broker for distributing data among different physical devices like the robot, wearables, and environmental sensors and also machine learning models. We demonstrate this framework’s utility through three interaction scenarios: (i) the first one employing proxemics and gaze direction to initiate an impromptu encounter, (ii) a second that uses computer vision techniques to detect and analyze facial and body expressions, as well as the use of biometric sensors to obtain heart rate data during a workout routine, and (iii) a third one incorporating object recognition and a Large-Language Model to suggest meals to be cooked based on available ingredients. These scenarios illustrate how the framework’s components can be seamlessly integrated to address new scenarios, where robots need to infer nonverbal cues from users.
Interacción humano-robot, Comunicación no verbal, Broker MQTT, Notebook computacional, Modelos linguísticos grandes, SANI-HRI Human-robot interaction, Nonverbal communication, Broker MQTT, Computational notebook, Large language models, SANI-HRI INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES SISTEMAS DE RECONOCIMIENTO DE CARACTERES SISTEMAS DE RECONOCIMIENTO DE CARACTERES
Escenarios futuros de eventos extremos de precipitación y temperatura en México
Future changes of precipitation and temperature extremes in Mexico
Ernesto Ramos Esteban (2024, [Tesis de maestría])
Diferentes estudios a escala mundial indican un incremento en frecuencia de eventos climáticos extremos debido al calentamiento global y sugieren que podrían intensificarse en el futuro. El objetivo de este trabajo es analizar los posibles cambios de 12 índices climáticos extremos (ICE) de precipitación y temperatura en 15 regiones de México, el sur de los Estados Unidos y Centroamérica para un período histórico (1981-2010), un futuro cercano (2021-2040), un futuro intermedio (2041-2060) y un futuro lejano (2080-2099). Se utilizó el reanálisis ERA5 como referencia en la evaluación histórica de los modelos climáticos globales (MCG) y para las proyecciones se analizaron los ICE de diez MCG del Proyecto de Intercomparación de Modelos Climáticos, fase 6 (CMIP6), de acuerdo con dos escenarios de Vías Socioeconómicas Compartidas (SSPs), uno de bajas emisiones (SSP2-4.5) y otro de altas emisiones (SSP3-7.0). Los MCG reproducen muy bien los índices extremos de temperatura histórica y los días consecutivos secos, pero subestiman la lluvia promedio y la lluvia extrema en las zonas más lluviosas desde el centro de México hasta Centroamérica. Históricamente, se observaron tendencias positivas de las temperaturas extremas (TXx y TNn) en todas las regiones, pero sólo en algunas regiones fueron significativas, mientras que los índices de lluvia extrema (R95p, R10mm y R20mm) presentaron tendencias negativas, pero pequeñas. Las proyecciones indican que las temperaturas extremas podrían seguir incrementándose en el futuro, desde 2° C hasta 5° C a mitad y final de siglo, respectivamente. La contribución de la precipitación extrema arriba del percentil 95 (R95p) se podría incrementar entre un 10 % y 30 %, especialmente en la región subtropical, mientras que la precipitación podría disminuir en las regiones tropicales. Este estudio es el primero que analiza los cambios futuros de índices extremos del CMIP6 a escala regional (en 15 regiones) de México, el sur de Estados Unidos y Centroamérica.
Global-scale studies indicate an increase in the frequency of extreme weather events due to global warming and suggest that they could further intensify in the future. This study aims to assess potential changes in 12 extreme climate indices (ECI) related to precipitation and temperature in 15 regions in Mexico, the southern United States, and Central America for different periods: a historical period (1981-2010), a near future (2021-2040), an intermediate future (2041-2060), and a far future (2080-2099). The ERA5 reanalysis was used as a reference for the historical evaluation of global climate models (GCMs), and ECI from ten GCMs of phase 6 (CMIP6) from the Coupled Model Intercomparison Project were employed for the projections and examined under two Shared Socioeconomic Pathways (SSPs) scenarios, one characterized by low emissions (SSP2-4.5) and another representing high greenhouse gas emissions (SSP3-7.0). The GCMs reproduce historical extreme temperature indices and consecutive dry days very well. However, they underestimate average and extreme rainfall from central Mexico to Central America in the wetter areas. Historically, positive trends in extreme temperatures (TXx and TNn) were observed across all regions. However, statistical significance was only present in certain regions, while extreme rainfall indices (R95p, R10mm, and R20mm) exhibited small negative trends. The projections suggest that extreme temperatures could continue to increase in the future, from 2°C to 5°C by the mid and late century, respectively. The contribution of extreme precipitation above the 95th percentile (R95p) could increase by 10% to 30%, particularly in the subtropical regions, while precipitation might decrease in tropical regions. This study is the first to analyze future changes in extreme indices from CMIP6 at a regional scale (across 15 regions) in Mexico, the southern United States, and Central America.
Centroamérica, CMIP6, escenarios SSP, extremos climáticos, intercomparación de modelos climáticos, México Central America, climate extremes, CMIP6, intercomparison of climate models, Mexico, SSP scenarios CIENCIAS FÍSICO MATEMÁTICAS Y CIENCIAS DE LA TIERRA CIENCIAS DE LA TIERRA Y DEL ESPACIO OCEANOGRAFÍA OCEANOGRAFÍA FÍSICA (VE R 5603 .04) OCEANOGRAFÍA FÍSICA (VE R 5603 .04)
Control de sistemas usando aprendizaje de máquina
Systems control using machine learning
Jesús Martín Miguel Martínez (2023, [Tesis de maestría])
El aprendizaje por refuerzo es un paradigma del aprendizaje de máquina con un amplio desarrollo y una creciente demanda en aplicaciones que involucran toma de decisiones y control. Es un paradigma que permite el diseño de controladores que no dependen directamente del modelo que describe la dinámica del sistema. Esto es importante ya que en aplicaciones reales es frecuente que no se disponga de dichos modelos de manera precisa. Esta tesis tiene como objetivo implementar un controlador óptimo en tiempo discreto libre de modelo. La metodología elegida se basa en algoritmos de aprendizaje por refuerzo, enfocados en sistemas con espacios de estado y acción continuos a través de modelos discretos. Se utiliza el concepto de función de valor (Q-función y función V ) y la ecuación de Bellman para resolver el problema del regulador cuadrático lineal para un sistema mecánico masa-resorte-amortiguador, en casos donde se tiene conocimiento parcial y desconocimiento total del modelo. Para ambos casos las funciones de valor son definidas explícitamente por la estructura de un aproximador paramétrico, donde el vector de pesos del aproximador es sintonizado a través de un proceso iterativo de estimación de parámetros. Cuando se tiene conocimiento parcial de la dinámica se usa el método de aprendizaje por diferencias temporales en un entrenamiento episódico, que utiliza el esquema de mínimos cuadrados con mínimos cuadrados recursivos en la sintonización del crítico y descenso del gradiente en la sintonización del actor, el mejor resultado para este esquema es usando el algoritmo de iteración de valor para la solución de la ecuación de Bellman, con un resultado significativo en términos de precisión en comparación a los valores óptimos (función DLQR). Cuando se tiene desconocimiento de la dinámica se usa el algoritmo Q-learning en entrenamiento continuo, con el esquema de mínimos cuadrados con mínimos cuadrados recursivos y el esquema de mínimos cuadrados con descenso del gradiente. Ambos esquemas usan el algoritmo de iteración de política para la solución de la ecuación de Bellman, y se obtienen resultados de aproximadamente 0.001 en la medición del error cuadrático medio. Se realiza una prueba de adaptabilidad considerando variaciones que puedan suceder en los parámetros de la planta, siendo el esquema de mínimos cuadrados con mínimos cuadrados recursivos el que tiene los mejores resultados, reduciendo significativamente ...
Reinforcement learning is a machine learning paradigm with extensive development and growing demand in decision-making and control applications. This technique allows the design of controllers that do not directly depend on the model describing the system dynamics. It is useful in real-world applications, where accurate models are often unavailable. The objective of this work is to implement a modelfree discrete-time optimal controller. Through discrete models, we implemented reinforcement learning algorithms focused on systems with continuous state and action spaces. The concepts of value-function, Q-function, V -function, and the Bellman equation are employed to solve the linear quadratic regulator problem for a mass-spring-damper system in a partially known and utterly unknown model. For both cases, the value functions are explicitly defined by a parametric approximator’s structure, where the weight vector is tuned through an iterative parameter estimation process. When partial knowledge of the dynamics is available, the temporal difference learning method is used under episodic training, utilizing the least squares with a recursive least squares scheme for tuning the critic and gradient descent for the actor´s tuning. The best result for this scheme is achieved using the value iteration algorithm for solving the Bellman equation, yielding significant improvements in approximating the optimal values (DLQR function). When the dynamics are entirely unknown, the Q-learning algorithm is employed in continuous training, employing the least squares with recursive least squares and the gradient descent schemes. Both schemes use the policy iteration algorithm to solve the Bellman equation, and the system’s response using the obtained values was compared to the one using the theoretical optimal values, yielding approximately zero mean squared error between them. An adaptability test is conducted considering variations that may occur in plant parameters, with the least squares with recursive least squares scheme yielding the best results, significantly reducing the number of iterations required for convergence to optimal values.
aprendizaje por refuerzo, control óptimo, control adaptativo, sistemas mecánicos, libre de modelo, dinámica totalmente desconocida, aproximación paramétrica, Q-learning, iteración de política reinforcement learning, optimal control, adaptive control, mechanical systems, modelfree, utterly unknown dynamics, parametric approximation, Q-learning, policy iteration INGENIERÍA Y TECNOLOGÍA CIENCIAS TECNOLÓGICAS TECNOLOGÍA DE LOS ORDENADORES INTELIGENCIA ARTIFICIAL INTELIGENCIA ARTIFICIAL