|
|
Présentations invitéesLes chaînes de Markov cachées : un outil flexible pour analyser le déplacement des animaux et la manière dont ils appréhendent l'espace. Marie-Pierre ETIENNE (IRMAR, AgroCampus Ouest, Rennes) Résumé: L'écologie du déplacement consiste à étudier le lien entre des population animales et leur environnement au travers de leur déplacement. On équipe un ou plusieurs individus de capteurs type GPS et on essaie de comprendre et d'analyser leur déplacement. Cette branche du biologging connait actuellement un intérêt grandissant et un développement important dans les modèles de déplacement. Les chaînes de Markov cachées jouent un rôle clé dans ces modèles pour lesquels le temsp est considré comme discret ou conitnu, la chaîne de Markov sous jacente est homogène ou non. L'exposé présentera les résultats récents sur le sujet et les questions soulevées par l'utilisation demodèle en temps discret ou continu. Quand les Chaînes de Markov contrôlent la simulation Monte Carlo Gersende FORT (CNRS, Institut de Mathématiques de Toulouse) Résumé : Les méthodes de Monte Carlo sont des outils numériques consistant à simuler des points approchant une loi "cible" donnée, ceci dans l'optique par exemple de mieux comprendre les zones de forte probabilité de cette loi cible, ou proposer un estimateur de moments sous cette loi qui n'ont pas d'expression explicite. Optimal regret minimization strategies in Markov Decision Processes Odalric-Ambrym MAILLARD (Inria Lille - Nord Europe, CRIStaL) Résumé: We consider reinforcement learning in a discrete, undiscounted, infinite-horizon Markov Decision Problem (MDP) under the average reward criterion, and focus on the minimization of the regret with respect to an optimal policy, when the learner does not know the rewards nor the transitions of the MDP. In light of their success at regret minimization in multi-armed bandits, popular bandit strategies, such as the optimistic UCB, KL-UCB or the Bayesian Thompson sampling strategy, have been extended to the MDP setup. Despite some key successes, existing strategies for solving this problem either fail to be provably asymptotically optimal, or suffer from prohibitive burn-in phase and computational complexity when implemented in practice. In this work, we shed a novel light on regret minimization strategies, by extending to reinforcement learning the computationally appealing Indexed Minimum Empirical Divergence (IMED) bandit algorithm. Traditional asymptotic problem-dependent lower bounds on the regret are known under the assumption that the MDP is ergodic. Under this assumption, we introduce IMED-RL and prove that its regret upper bound asymptotically matches the regret lower bound. Rewards are assumed light-tailed, semi-bounded from above. Last, we provide numerical illustrations on classical tabular MDPs, ergodic and communicating only, showing the competitiveness of IMED-RL in finite-time against state-of-the-art algorithms. IMED-RL also benefits from a light complexity. We then discuss extensions of these promising strategy to communicating, but not necessarily ergodic MDPs. Reliability indicators for hidden Markov and (hidden) semi-Markov models Résumé: This work concerns different reliability indicators for random repairable and non-repairable systems based on models that are partially observed. Both observation and hidden processes are defined in discrete time and have finite state spaces. Different statistical estimators are proposed and their asymptotic properties are studied. As a particular case, in a semi-Markov framework, an application to real data is presented that describes sustainable vibration levels. |
Personnes connectées : 2 | Vie privée |