Investigadores de la Universidad de Ciencias y Tecnología de King Abdullah han desarrollado un algoritmo de control del aprendizaje reforzado llamado Q-learning para calcular la curva de crecimiento de los peces de acuicultura.
El Q-learning es un algoritmo automático que se aplica como técnica de aprendizaje por refuerzo que permite resolver problemas de decisión secuencial utilizada en aprendizaje automático que tiene por objetivo aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias.
Esta técnica puede aplicarse a una amplia gama de problemas del mundo real de considerable complejidad, como, por ejemplo, la navegación de robots, manufactura industrial, juegos, control de ascensores, entre otros.
La puesta en práctica de estas políticas de control basadas en estas técnicas, en acuicultura puede aplicarse en el cultivo de peces a partir de datos simulados de las trayectorias de crecimiento desde la etapa juvenil hasta la talla comercial deseada.
En el trabajo los investigadores crearon dos algoritmos de Q-learning para lograr el seguimiento del crecimiento óptimo con tasas de alimentación más bajas y cumplir, de esta manera, con el objetivo de la acuicultura de precisión.
Para la elaboración del algoritmo, los investigadores utilizaron un modelo de crecimiento bioenergético representativo de la tilapia del Nilo (Oreochromis niloticus). Como señalan los autores de este trabajo, el problema de seguimiento de la trayectoria de crecimiento se formula como un control óptimo de datos muestreados utilizando el proceso de decisión de Markov – forma idealizada matemáticamente del problema de aprendizaje por refuerzo - de pares discretos de estado-acción.
Como señalan, la tasa de crecimiento de los peces varía en la práctica y no se puede estimar fácilmente debido a las complejas condiciones de la acuicultura y los factores ambientales variables. Además, añaden, el problema de seguimiento de la trayectoria de crecimiento es difícil de resolver por la mayoría de los enfoques de control basados en modelos debido a los acoplamientos no lineales y las interacciones entre múltiples entradas, como la temperatura, el oxígeno disuelto, el amoniaco no ionizado y el modelo de incertidumbre del sistema de crecimiento de los peces.
El primer esquema, destacan los autores, aprende la política de control de alimentación óptima para la tasa de crecimiento de los peces cultivados en jaulas, mientras que el segundo en línea actualiza la política de control de alimentación óptima dentro de un perfil de temperatura óptima para la tasa de crecimiento de los peces de acuicultura en los tanques.
Los resultados de la simulación han sido publicados en Aquaculture y muestran que ambas estrategias de control Q-learning “logran buen rendimiento de seguimiento de la trayectoria” con tasas de alimentación más bajas y ayudan a compensar los cambios ambientales de las variables manipuladas y las incertidumbres del modelo bioenergético.
Las políticas de control de Q-learning propuestas logran errores de seguimiento de trayectoria relativa de 1,7% y 6,6% del peso total promedio de los peces de ambos tanques en tierra y jaulas flotantes, respectivamente.
Las políticas de alimentación y control de temperatura reducen un 11% la cantidad relativa de alimentación de los desechos de los alimentos en los tanques de tierra en comparación con las jaulas flotantes donde la temperatura del agua se mantiene a una temperatura ambiente de 29,70 grados centígrados.
Estas políticas de Q-learning simuladas entrenadas se pueden utilizar para iniciar una nueva fase de aprendizaje sin la necesidad de experimentos complejos de optimización de factores cruzados.
Referencia:
Abderrazak Chahid, Ibrahima N'Doye, John E. Majoris, Michael L. Berumen, Taous-Meriem Laleg-Kirati. Fish growth trajectory tracking using Q-learning in precision aquaculture. Aquaculture, 2021, 737838, ISSN 0044-8486,
https://doi.org/10.1016/j.aquaculture.2021.737838