1. Unifying Data Units and Models in (Co-)Clustering
- Author
-
Christophe Biernacki, Alexandre Lourme, MOdel for Data Analysis and Learning (MODAL), Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Paul Painlevé - UMR 8524 (LPP), Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Evaluation des technologies de santé et des pratiques médicales - ULR 2694 (METRICS), Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-École polytechnique universitaire de Lille (Polytech Lille)-Université de Lille, Sciences et Technologies, Université de Bordeaux (UB), Laboratoire Paul Painlevé - UMR 8524 (LPP), Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille-Centre National de la Recherche Scientifique (CNRS)-Université de Lille, Sciences et Technologies-Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Evaluation des technologies de santé et des pratiques médicales - ULR 2694 (METRICS), Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-École polytechnique universitaire de Lille (Polytech Lille), MOdel for Data Analysis and Learning ( MODAL ), Laboratoire Paul Painlevé - UMR 8524 ( LPP ), Université de Lille-Centre National de la Recherche Scientifique ( CNRS ) -Université de Lille-Centre National de la Recherche Scientifique ( CNRS ) -Inria Lille - Nord Europe, Institut National de Recherche en Informatique et en Automatique ( Inria ) -Institut National de Recherche en Informatique et en Automatique ( Inria ) -Santé publique : épidémiologie et qualité des soins-EA 2694 ( CERIM ), Université de Lille-Centre Hospitalier Régional Universitaire [Lille] ( CHRU Lille ) -Université de Lille-Centre Hospitalier Régional Universitaire [Lille] ( CHRU Lille ) -Polytech Lille-Université de Lille 1, IUT’A, Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-École polytechnique universitaire de Lille (Polytech Lille)-Université de Lille, Sciences et Technologies, Laboratoire Paul Painlevé (LPP), Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-Université de Lille-Centre Hospitalier Régional Universitaire [Lille] (CHRU Lille)-École polytechnique universitaire de Lille (Polytech Lille), and Biernacki, Christophe
- Subjects
Statistics and Probability ,Non-identifiability ,Theoretical computer science ,Computer science ,Process (engineering) ,Mixed data ,0206 medical engineering ,02 engineering and technology ,Model selection ,01 natural sciences ,Data type ,Biclustering ,010104 statistics & probability ,Units of measurement ,0101 mathematics ,Cluster analysis ,Categorical variable ,ComputingMilieux_MISCELLANEOUS ,[STAT.ME] Statistics [stat]/Methodology [stat.ME] ,Applied Mathematics ,Measurement units ,Mixture model ,Mixture models ,Computer Science Applications ,[ STAT.ME ] Statistics [stat]/Methodology [stat.ME] ,[STAT.ME]Statistics [stat]/Methodology [stat.ME] ,020602 bioinformatics - Abstract
Statisticians are already aware that any task (exploration, prediction) involving a modeling process is largely dependent on the measurement units for the data, to the extent that it should be impossible to provide a statistical outcome without specifying the couple (unit,model). In this work, this general principle is formalized with a particular focus on model-based clustering and co-clustering in the case of possibly mixed data types (continuous and/or categorical and/or counting features), and this opportunity is used to revisit what the related data units are. Such a formalization allows us to raise three important spots: (i) the couple (unit,model) is not identifiable so that different interpretations unit/model of the same whole modeling process are always possible; (ii) combining different “classical” units with different “classical” models should be an interesting opportunity for a cheap, wide and meaningful expansion of the whole modeling process family designed by the couple (unit,model); (iii) if necessary, this couple, up to the non-identifiability property, could be selected by any traditional model selection criterion. Some experiments on real data sets illustrate in detail practical benefits arising from the previous three spots.
- Published
- 2019