Présentations invitées

Les chaînes de Markov cachées : un outil flexible pour analyser le déplacement des animaux et la manière dont ils appréhendent l'espace.

Marie-Pierre ETIENNE (IRMAR, AgroCampus Ouest, Rennes)

Résumé: L'écologie du déplacement consiste à étudier le lien entre des population animales et leur environnement au travers de leur déplacement. On équipe un ou plusieurs individus de capteurs type GPS et on essaie de comprendre et d'analyser leur déplacement. Cette branche du biologging connait actuellement un intérêt grandissant et un développement important dans les modèles de déplacement. Les chaînes de Markov cachées jouent un rôle clé dans ces modèles pour lesquels le temsp est considré comme discret ou conitnu, la chaîne de Markov sous jacente est homogène ou non. L'exposé présentera les résultats récents sur le sujet et les questions soulevées par l'utilisation demodèle en temps discret ou continu.

Quand les Chaînes de Markov contrôlent la simulation Monte Carlo

Gersende FORT (CNRS, Institut de Mathématiques de Toulouse)

Résumé : Les méthodes de Monte Carlo sont des outils numériques consistant à simuler des points approchant une loi "cible" donnée, ceci dans l'optique par exemple de mieux comprendre les zones de forte probabilité de cette loi cible, ou proposer un estimateur de moments sous cette loi qui n'ont pas d'expression explicite.

Certains échantillonneurs Monte Carlo sont par nature markoviens : ils consistent en la définition d'une chaîne de Markov ergodique ayant la loi cible comme unique loi stationnaire. D'autres le sont car ils incluent dans leur mécanisme, l'apprentissage en ligne d'un paramètre d'implémentation, apprentissage mené à l'aide des points passés produits par l'algorithme.

Par suite, la théorie des Chaînes de Markov est au coeur des études de bien-fondé de beaucoup de méthodes Monte Carlo. La dimension adaptative de certains échantillonneurs Monte Carlo complexifie l'étude théorique, en faisant appel à des résultats sur les chaînes de Markov "contrôlées".

Dans cet exposé nous illustrerons la façon dont la théorie des Chaînes de Markov (contrôlées) justifie certains algorithmes de Monte Carlo. Pour ce faire, nous considérerons des exemples d'échantillonneurs de type algorithme de Monte Carlo par Chaînes de Markov adaptatifs, et de type Echantillonnage d'Importance adaptatifs; et considérerons un contrôle dont la dynamique suit une procédure d'Approximation Stochastique.

Optimal regret minimization strategies in Markov Decision Processes

Odalric-Ambrym MAILLARD (Inria Lille - Nord Europe, CRIStaL)

Résumé: We consider reinforcement learning in a discrete, undiscounted, infinite-horizon Markov Decision Problem (MDP) under the average reward criterion, and focus on the minimization of the regret with respect to an optimal policy, when the learner does not know the rewards nor the transitions of the MDP. In light of their success at regret minimization in multi-armed bandits, popular bandit strategies, such as the optimistic UCB, KL-UCB or the Bayesian Thompson sampling strategy, have been extended to the MDP setup. Despite some key successes, existing strategies for solving this problem either fail to be provably asymptotically optimal, or suffer from prohibitive burn-in phase and computational complexity when implemented in practice. In this work, we shed a novel light on regret minimization strategies, by extending to reinforcement learning the computationally appealing Indexed Minimum Empirical Divergence (IMED) bandit algorithm. Traditional asymptotic problem-dependent lower bounds on the regret are known under the assumption that the MDP is ergodic. Under this assumption, we introduce IMED-RL and prove that its regret upper bound asymptotically matches the regret lower bound. Rewards are assumed light-tailed, semi-bounded from above. Last, we provide numerical illustrations on classical tabular MDPs, ergodic and communicating only, showing the competitiveness of IMED-RL in finite-time against state-of-the-art algorithms. IMED-RL also benefits from a light complexity. We then discuss extensions of these promising strategy to communicating, but not necessarily ergodic MDPs.

Reliability indicators for hidden Markov and (hidden) semi-Markov models

Irene VOTSI (LMM, Le Mans Université)

Résumé: This work concerns different reliability indicators for random repairable and non-repairable systems based on models that are partially observed. Both observation and hidden processes are defined in discrete time and have finite state spaces. Different statistical estimators are proposed and their asymptotic properties are studied. As a particular case, in a semi-Markov framework, an application to real data is presented that describes sustainable vibration levels.

Vie privée | Accessibilité