1. Connectivity Inference in Mass Spectrometry based Structure Determination
- Author
-
Deepesh Agarwal, Frédéric Cazals, David Coudert, Stéphane Pérennes, Christelle Caillouet, Júlio Araújo, Algorithms, Biology, Structure (ABS), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Combinatorics, Optimization and Algorithms for Telecommunications (COATI), COMmunications, Réseaux, systèmes Embarqués et Distribués (Laboratoire I3S - COMRED), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Inria Sophia Antipolis - Méditerranée (CRISAM), Bodlaender, H.L. and Italiano, G.F., Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-COMmunications, Réseaux, systèmes Embarqués et Distribués (Laboratoire I3S - COMRED), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), INRIA, Equipes-projet: ABS et COATI, Université Nice Sophia Antipolis (1965 - 2019) (UNS), and COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS)
- Subjects
Vertex (graph theory) ,Algorithm Analysis and Problem Complexity ,[INFO.INFO-DS]Computer Science [cs]/Data Structures and Algorithms [cs.DS] ,Inference ,0102 computer and information sciences ,Data Structures ,01 natural sciences ,Numeric Computing ,Combinatorics ,[INFO.INFO-NI]Computer Science [cs]/Networking and Internet Architecture [cs.NI] ,03 medical and health sciences ,Computer Communication Networks ,Computer Graphics ,Greedy algorithm ,030304 developmental biology ,Mathematics ,0303 health sciences ,Discrete Mathematics in Computer Science ,A protein ,Data structure ,[SDV.BIBS]Life Sciences [q-bio]/Quantitative Methods [q-bio.QM] ,Graph ,Structural biology ,010201 computation theory & mathematics ,Pairwise comparison ,[INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM] - Abstract
We consider the following Minimum Connectivity Inference problem (MCI), which arises in structural biology: given vertex sets $V_i\subseteq V, i\in I$, find the graph $G=(V,E)$ minimizing the size of the edge set $E$, such that the sub-graph of $G$ induced by each $V_i$ is connected. This problem arises in structural biology, when one aims at finding the pairwise contacts between the proteins of a protein assembly, given the lists of proteins involved in sub-complexes. We present four contributions. First, using a reduction of the set cover problem, we establish that MCI is APX-hard. Second, we show how to solve the problem to optimality using a mixed integer linear programming formulation (MILP). Third, we develop a greedy algorithm based on union-find data structures (Greedy), yielding a $2(\log_2 |V|+\log_2 \kappa)$-approximation, with $\kappa$ the maximum number of subsets $V_i$ a vertex belongs to. Fourth, application-wise, we use the MILP and the greedy heuristic to solve the aforementioned connectivity inference problem in structural biology. We show that the solutions of MILP and Greedy are more parsimonious than those reported by the algorithm initially developed in biophysics, which are not qualified in terms of optimality. Since MILP outputs a set of optimal solutions, we introduce the notion of consensus solution. Using assemblies whose pairwise contacts are known exhaustively, we show an almost perfect agreement between the contacts predicted by our algorithms and the experimentally determined ones, especially for consensus solutions.; Nous considérons le problème d'Inférence de Connectivité Minimale (MCI) qui se pose en biologie structurale: étant donnés des ensembles de sommets $V_i\subseteq V, i\in I$, trouver le graphe $G=(V,E)$ minimisant la taille de l'ensemble des arêtes $E$, de telle sorte que le sous-graphe de $G$ induit par un chaque ensemble $V_i$ soit connexe. Ce problème se pose en biologie structurale, pour la determination des contacts plausibles entre les protéines d'un assemblage, à partir des listes de protéines présentes dans des sous-complexes. Nous présentons quatre contributions. Premièrement, nous montrons que le problème MCI est APX-hard en utilisant une réduction de set cover. Deuxièmement, nous présentons une formulation en programme linéaire mixte (MILP) permettant de résoudre MCI de façon optimale. Troisièmement, nous proposons un algorithme glouton (Greedy) basé sur des structures de données Union-Find. Nous montrons que cet algorithme est une $2(\log_2 |V|+\log_2 \kappa)$-approximation de l'optimal, où $\kappa$ est le nombre maximum d'ensembles $V_i$ contenant un sommet donné. Quatrièmement, d'un point de vue appliqué, nous utilisons l'approche MILP et l'algorithme glouton pour résoudre le problème MCI en biologie structurale. Nous montrons que les solutions calculées par MILP et Greedy sont plus parcimonieuses que celles produites par l'algorithme utilisé à ce jour en bio-physique --- lequel n'est pas qualifié en terme d'optimalité. Les algorithmes MILP et Greedy générant des ensembles de solutions, nous introduisons la notion de solution consensus. En utilisant le cas d'assemblages dont les contacts sont connus de façon exhaustive, nous montrons un accord presque parfait entre les contacts determinés par nos algorithmes et ceux determinés expérimentalement, en particulier pour les solutions consensus.
- Published
- 2013
- Full Text
- View/download PDF