Back to Search Start Over

UniRank: Unimodal Bandit Algorithm for Online Ranking

Authors :
Camille-Sovanneary Gauthier
Romaric Gaudel
Elisa Fromont
Large Scale Collaborative Data Mining (LACODAM)
Inria Rennes – Bretagne Atlantique
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-GESTION DES DONNÉES ET DE LA CONNAISSANCE (IRISA-D7)
Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique)
Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT)
Louis Vuitton
Ecole Nationale de la Statistique et de l'Analyse de l'Information [Bruz] (ENSAI)
Centre de Recherche en Economie et Statistique [Bruz] (CREST)
Institut Universitaire de France (IUF)
Ministère de l'Education nationale, de l’Enseignement supérieur et de la Recherche (M.E.N.E.S.R.)
Source :
ICML 2022-39th International Conference on Machine Learning, ICML 2022-39th International Conference on Machine Learning, Jul 2022, Baltimore, United States. pp.1-31, HAL
Publication Year :
2022
Publisher :
HAL CCSD, 2022.

Abstract

International audience; We tackle, in the multiple-play bandit setting, the online ranking problem of assigning $L$ items to $K$ predefined positions on a web page in order to maximize the number of user clicks. We propose a generic algorithm, UniRank, that tackles state-of-the-art click models. The regret bound of this algorithm is a direct consequence of the unimodality-like property of the bandit setting with respect toa graph where nodes are ordered sets of indistinguishable items.The main contribution of UniRank is its $O\left(L/\Delta \log T\right)$ regret for $T$ consecutive assignments, where $\Delta$ relates to the reward-gap between two items.This regret bound is based on the usually implicit condition that two items may not have the same attractiveness.Experiments against state-of-the-art learning algorithms specialized or not for different click models, show that our method has better regret performance than other generic algorithms on real life and synthetic datasets.

Details

Language :
English
Database :
OpenAIRE
Journal :
ICML 2022-39th International Conference on Machine Learning, ICML 2022-39th International Conference on Machine Learning, Jul 2022, Baltimore, United States. pp.1-31, HAL
Accession number :
edsair.doi.dedup.....c3042ce94d22c04407d90d23a114a1f9