44 results on '"Conde Amboage, Mercedes"'
Search Results
2. Data Science in Biomedicine
- Author
-
Alarcón-Soto, Yovaninna, Espasandín-Domínguez, Jenifer, Guler, Ipek, Conde-Amboage, Mercedes, Gude-Sampedro, Francisco, Langohr, Klaus, Cadarso-Suárez, Carmen, and Gómez-Melis, Guadalupe
- Subjects
Statistics - Other Statistics - Abstract
We highlight the role of Data Science in Biomedicine. Our manuscript goes from the general to the particular, presenting a global definition of Data Science and showing the trend for this discipline together with the terms of cloud computing and big data. In addition, since Data Science is mostly related to areas like economy or business, we describe its importance in biomedicine. Biomedical Data Science (BDS) presents the challenge of dealing with data coming from a range of biological and medical research, focusing on methodologies to advance the biomedical science discoveries, in an interdisciplinary context.
- Published
- 2019
3. A lack-of-fit test for quantile regression models with high-dimensional covariates
- Author
-
Conde-Amboage, Mercedes, Sánchez-Sellero, César, and González-Manteiga, Wenceslao
- Subjects
Statistics - Methodology - Abstract
We propose a new lack-of-fit test for quantile regression models that is suitable even with high-dimensional covariates. The test is based on the cumulative sum of residuals with respect to unidimensional linear projections of the covariates. The test adapts concepts proposed by Escanciano (Econometric Theory, 22, 2006) to cope with many covariates to the test proposed by He and Zhu (Journal of the American Statistical Association, 98, 2003). To approximate the critical values of the test, a wild bootstrap mechanism is used, similar to that proposed by Feng et al. (Biometrika, 98, 2011). An extensive simulation study was undertaken that shows the good performance of the new test, particularly when the dimension of the covariate is high. The test can also be applied and performs well under heteroscedastic regression models. The test is illustrated with real data about the economic growth of 161 countries., Comment: 14 pages, 1 figure, 6 tables
- Published
- 2015
- Full Text
- View/download PDF
4. A plug-in bandwidth selector for nonparametric quantile regression
- Author
-
Conde-Amboage, Mercedes and Sánchez-Sellero, César
- Published
- 2019
- Full Text
- View/download PDF
5. Fundamentos da teoría da probabilidade
- Author
-
Conde Amboage, Mercedes, primary, Borrajo García, María Isabel, additional, and Cadarso Suárez, Carmen, additional
- Published
- 2023
- Full Text
- View/download PDF
6. Application of quantile regression models for biomedical data
- Author
-
Larriba, Yolanda, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, Keilegom, Ingrid van, González Manteiga, Wenceslao, Larriba, Yolanda, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, Keilegom, Ingrid van, and González Manteiga, Wenceslao
- Abstract
A new lack-of-fit test for censored quantile regression models with multiple or even high-dimensional covariates will be presented. The test is based on the cumulative sum of residuals with respect to unidimensional linear projections of the covariates. The test is then adapting the ideas presented in [1], to cope with high-dimensional covariates, to the test proposed by [2]. The limit distribution of the empirical process associated with the test statistic will be shown. Furthermore, in order to approximate the critical values of the test, a bootstrap mechanism is used, which is similar to the proposal developed in [3]. In addition, an extensive simulation study and an interesting real data application will be presented in order to show the behaviour of the new test in practice
- Published
- 2023
7. GaliciaNorthPortugalEuroregionUniversityHospital_Inpatientdatabase.csv
- Author
-
Reyes-Santias, Francisco, Picans-Rey, Mario, Barba-Queiruga, Ramon, Borrajo, Marıa Isabel, and Conde-Amboage, Mercedes
- Abstract
In this database, a census of all hospital discharges between 2016 and 2020 from a university hospital in the Galicia - North Portugal euroregion is collected.
- Published
- 2023
- Full Text
- View/download PDF
8. Predicting trace gas concentrations using quantile regression models
- Author
-
Conde-Amboage, Mercedes, González-Manteiga, Wenceslao, and Sánchez-Sellero, César
- Published
- 2017
- Full Text
- View/download PDF
9. IV Encontro Mocidade Investigadora: 9-10 de xuño de 2016, Santiago de Compostela (España). Libro de resumos
- Author
-
Conde Amboage, Mercedes, additional, Enríquez García, María José, additional, Louredo Rodríguez, Eduardo, additional, Rey Ares, Lucía, additional, and Sánchez Rebordelo, María Estrella, additional
- Published
- 2017
- Full Text
- View/download PDF
10. Quantitative proteomics in medication‐related osteonecrosis of the jaw: A proof‐of‐concept study.
- Author
-
Lorenzo‐Pouso, Alejandro I., Bravo, Susana B., Carballo, Javier, Chantada‐Vázquez, María del Pilar, Bagán, José, Bagán, Leticia, Chamorro‐Petronacci, Cintia M., Conde‐Amboage, Mercedes, López‐López, Rafael, García‐García, Abel, and Pérez‐Sayáns, Mario
- Subjects
PILOT projects ,BIOMARKERS ,OSTEONECROSIS ,JAW diseases ,DIPHOSPHONATES ,PROTEASE inhibitors ,SALIVA ,CASE-control method ,QUANTITATIVE research ,ACQUISITION of data ,PROTEOMICS ,BIOINFORMATICS ,COMPARATIVE studies ,MATRIX metalloproteinases ,MEDICAL records ,MASS spectrometry ,DESCRIPTIVE statistics ,SENSITIVITY & specificity (Statistics) ,RECEIVER operating characteristic curves - Abstract
Objective: Medication‐related osteonecrosis of the jaw (MRONJ) is a paradoxical effect associated with bone‐modifying agents (BMAs) and other drugs. Currently, no valuable diagnostic or prognosis biomarkers exist. The goal of this research was to study MRONJ‐related salivary proteome. Materials and Methods: This case–control aimed to study salivary proteome in MRONJ versus control groups (i) formed from BMAs consumers and (ii) healthy individuals to unravel biomarkers. Thirty‐eight samples of unstimulated whole saliva (18 MRONJ patients, 10 BMA consumers, and 10 healthy controls) were collected. Proteomic analysis by SWATH‐MS coupled with bioinformatics analysis was executed. Results: A total of 586 proteins were identified, 175 proteins showed significant differences among MRONJ versus controls. SWATH‐MS revealed differentially expressed proteins among three groups, which have never been isolated. These proteins had distinct roles including cell envelope organization, positive regulation of vesicle fusion, positive regulation of receptor binding, or regulation of low‐density lipoprotein particle clearance. Integrative analysis prioritized 3 proteins (MMP9, AACT, and HBD). Under receiver‐operating characteristic analysis, this panel discriminated MRONJ with a sensitivity of 90% and a specificity of 78.9%. Conclusion: These findings may inform a novel biomarker panel for MRONJ prediction or diagnosis. Nonetheless, further research is needed to validate this panel. [ABSTRACT FROM AUTHOR]
- Published
- 2023
- Full Text
- View/download PDF
11. Impact of abutment geometry on early implant marginal bone loss. A double‐blind, randomized, 6‐month clinical trial
- Author
-
Pérez‐Sayans, Mario, primary, Castelo‐Baz, Pablo, additional, Penarrocha‐Oltra, David, additional, Seijas‐Naya, Flavio, additional, Conde‐Amboage, Mercedes, additional, and Somoza‐Martín, José M., additional
- Published
- 2022
- Full Text
- View/download PDF
12. Curvas ROC
- Author
-
Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, Castro Capelo, Raquel María, Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, and Castro Capelo, Raquel María
- Abstract
La curva ROC es una herramienta estadística empleada ampliamente en el ámbito sanitario para evaluar la capacidad diagnóstica de una prueba médica, a la hora de clasificar a una población en dos grupos: pacientes enfermos y pacientes sanos. Es decir, se analizará la capacidad de que una cierta variable, que se denotará variable diagnóstico, sea capaz de clasificar a los sujetos a estudio en sanos y enfermos. En este trabajo se revisan los principales conceptos relacionados con la curva ROC, que permiten, entre otras cosas, obtener su definición y su representación gráfica junto con sus índices resumen, destacando el área bajo la curva, que ayuda a evaluar la capacidad discriminatoria de una prueba y el índice de Youden, que es importante a la hora seleccionar un punto de corte óptimo en función de los objetivos a estudio. También se incluyen otros métodos para seleccionar dicho umbral. Además, se presentarán, de manera general, los principales métodos estadísticos para estimar la curva ROC en función del conocimiento de la distribución que sigue la variable diagnóstico asociada a cada categoría de interés. Es decir, se introducirán métodos de estimación tanto paramétricos como no paramétricos. El funcionamiento de dichos estimadores se ilustrará gracias a datos simulados y al análisis de una base de datos reales. Dichas ilustraciones han sido desarrolladas utilizando el software estadístico y el código usado puede encontrarse en el Anexo I de este documento., The ROC curve is a statistical tool widely used in the healthcare field to evaluate the diagnostic capacity of a medical test when classifying a population into two groups: unhealthy patinents and healthy patients. The capacity of a certain variable, which we will denote by diagnostic variable, to classify the subjects of a study into healthy and unhealthy will be analysed. This work reviews the main concepts related to the ROC curve. We will introduce its definition, graphic representation and its summary indices. It highlights the area under the curve which helps to evaluate the discriminatory capacity of a test and the Youden index. This index is important when the main goal is to select an optimal cut-off point according to the objectives under study. Other methods for selecting the cut-off point are also included. In addition, this paper presents in broad terms the main statistical methods for estimating the ROC curve based on knowledge of the distribution of the diagnostic variable associated with each category of interest. That is, we will introduce both parametric and non-parametric estimation methods. The performance of these estimators will be illustrated using both simulated and real datasets. These illustrations have been developed using the statistical software and the code used can be found in Annex I
- Published
- 2022
13. Quantitative proteomics in medication-related osteonecrosis of the jaw: a proof-of-concept study
- Author
-
Universidade de Santiago de Compostela. Departamento de Cirurxía e Especialidades Médico-Cirúrxicas, Lorenzo Pouso, Alejandro Ismael, Bravo Lopez, Susana Belén, Carballo García, Francisco Javier, Chantada Vázquez, María del Pilar, Bagán Sebastián, José Vicente, Bagán Debon, Leticia María, Chamorro Petronacci, Cintia Micaela, Conde Amboage, Mercedes, López López, Rafael, García García, Abel, Pérez Sayáns, Mario, Universidade de Santiago de Compostela. Departamento de Cirurxía e Especialidades Médico-Cirúrxicas, Lorenzo Pouso, Alejandro Ismael, Bravo Lopez, Susana Belén, Carballo García, Francisco Javier, Chantada Vázquez, María del Pilar, Bagán Sebastián, José Vicente, Bagán Debon, Leticia María, Chamorro Petronacci, Cintia Micaela, Conde Amboage, Mercedes, López López, Rafael, García García, Abel, and Pérez Sayáns, Mario
- Abstract
Objective: Medication-related osteonecrosis of the jaw (MRONJ) is a paradoxical effect associated with bone-modifying agents (BMAs) and other drugs. Currently, no valuable diagnostic or prognosis biomarkers exist. The goal of this research was to study MRONJ-related salivary proteome. Materials and Methods: This case–control aimed to study salivary proteome in MRONJ versus control groups (i) formed from BMAs consumers and (ii) healthy individuals to unravel biomarkers. Thirty-eight samples of unstimulated whole saliva (18 MRONJ patients, 10 BMA consumers, and 10 healthy controls) were collected. Proteomic analysis by SWATH-MS coupled with bioinformatics analysis was executed. Results A total of 586 proteins were identified, 175 proteins showed significant differences among MRONJ versus controls. SWATH-MS revealed differentially expressed proteins among three groups, which have never been isolated. These proteins had distinct roles including cell envelope organization, positive regulation of vesicle fusion, positive regulation of receptor binding, or regulation of low-density lipoprotein particle clearance. Integrative analysis prioritized 3 proteins (MMP9, AACT, and HBD). Under receiver-operating characteristic analysis, this panel discriminated MRONJ with a sensitivity of 90% and a specificity of 78.9%. Conclusion: These findings may inform a novel biomarker panel for MRONJ prediction or diagnosis. Nonetheless, further research is needed to validate this panel
- Published
- 2022
14. Introdución aos Modelos Mixtos
- Author
-
Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, Losada González, Diego, Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, and Losada González, Diego
- Abstract
No eido da Estatística, os modelos de regresión son a principal ferramenta empregada cando o que se precisa é estimar a relación entre variables aleatorias. En concreto, veremos como unha ou varias variables (que chamaremos variables explicativas) inflúen sobre outra variable (que chamaremos variable resposta). Moitas bases de datos concernentes ao eido da Educación, a Medicina ou as Ciencias Medioambientais están xerarquicamente organizadas debido á propia natureza destas, de xeito que os individuos se atopan aniñados en grupos; como por exemplo, un conxunto de alumnas/os agrupadas/os por escolas. É obvio pensar que individuos clasificados nun mesmo grupo tenderán a ter un comportamento máis semellante que uns individuos calesquera de grupos diferentes, con menos información en común. Nestes casos, os modelos de regresión clásicos deixan de ser útiles e xorde a necesidade de ter en conta o efecto que producen estas agrupacións na variable resposta. As primeiras propostas para estudar este tipo de datos, sen ignorar as agrupacións existentes, son os modelos de análise da varianza (coñecidos como modelos ANOVA) ou modelos de análise da covarianza (coñecidos como modelos ANCOVA); mais estes modelos só son interesantes cando o que se quere é aplicar técnicas da Inferencia Estatística sobre certas características dos grupos presentes na base de datos. Afondando aínda máis na análise de datos xerárquicos, os grupos presentes no conxunto de datos poden considerarse unha mostra aleatoria dunha poboación máis grande de grupos para facer Inferencia sobre os grupos en xeral. Neste caso, os modelos de regresión ANOVA e ANCOVA deixan de ser válidos, e xorden os denominados modelos mixtos ou modelos multinivel. Ao longo deste traballo introduciranse os modelos mixtos e poñerase de manifesto a súa utilidade para estudar bases de datos cunha estrutura de dous niveis, onde os individuos se atopan no primeiro nivel e están aniñados en grupos no segundo nivel, mediante a incorporació, In the Statistical field, regression models are the main tool employed when estimating the relation among random variables is needed. In particular, we will see the effect of one or several variables (that will be denoted by explanatory variables) in another variable (that will be denoted by response variable). A lot of databases concerning the fields of Education, Medicine or Environmental Sciences are hierarchically organized due to their own nature, so that individuals are organized in groups; for example, a set of students grouped by schools. It is obvious to think that individuals classified in a same group will tend to have a more similar behaviour than any individual from different groups, with less information in common. In these cases, classical regression models stop being useful and the necessity to take into account the effect produced by these groupings in the response variable arises. The first proposals to study this type of data sets, without ignoring the existing groupings, are the models of analysis of variance (ANOVA) or models of analysis of covariance (ANCOVA); but these models are only interesting when the goal is to apply Statistical Inference techniques on certain features of the groups present in the database. Going even further in the analysis of hierarchical data, the present groups in the dataset can be considered a random sample of a bigger population of groups to make Inference about all groups in general. In this case, the regression models ANOVA and ANCOVA stop being valid, and the named mixed models or multilevel models arises. Throughout this work, mixed models will be introduced and it will be presented their utility in the study of databases with a structure of two levels, where individuals are on the first level and are nested in groups on the second level, by incorporating random effects. To carry out this illustration, it will be used a real database that will be analysed employing the statistical tool R.
- Published
- 2022
15. Circulating Proteins Associated with Response and Resistance to Neoadjuvant Chemotherapy in HER2-Positive Breast Cancer
- Author
-
Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Chantada Vázquez, María del Pilar, Conde Amboage, Mercedes, Graña López, Lucía, Vázquez Estévez, Sergio, Bravo López, Susana Belén, Núñez González, Cristina, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Chantada Vázquez, María del Pilar, Conde Amboage, Mercedes, Graña López, Lucía, Vázquez Estévez, Sergio, Bravo López, Susana Belén, and Núñez González, Cristina
- Abstract
Despite the increasing use of neoadjuvant chemotherapy (NAC) in HER2-positive breast cancer (BC) patients, the clinical problem of predicting individual treatment response remains unanswered. Furthermore, the use of ineffective chemotherapeutic regimens should be avoided. Serum biomarker levels are being studied more and more for their ability to predict therapy response and aid in the development of personalized treatment regimens. This study aims to identify effective protein networks and biomarkers to predict response to NAC in HER2-positive BC patients through an exhaustive large-scale LC-MS/MS-based qualitative and quantitative proteomic profiling of serum samples from responders and non-responders. Serum samples from HER2-positive BC patients were collected before NAC and were processed by three methods (with and without nanoparticles). The qualitative analysis revealed differences in the proteomic profiles between responders and non-responders, mainly in proteins implicated in the complement and coagulation cascades and apolipoproteins. Qualitative analysis confirmed that three proteins (AFM, SERPINA1, APOD) were correlated with NAC resistance. In this study, we show that serum biomarker profiles can predict treatment response and outcome in the neoadjuvant setting. If these findings are further developed, they will be of significant clinical utility in the design of treatment regimens for individual BC patients.
- Published
- 2022
16. Impact of abutment geometry on early implant marginal bone loss. A double-blind, randomized, 6-month clinical trial
- Author
-
Universidade de Santiago de Compostela. Departamento de Cirurxía e Especialidades Médico-Cirúrxicas, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Pérez Sayáns, Mario, Castelo Baz, Pablo, Penarrocha-Oltra, David, Seijas Naya, Flavio, Conde Amboage, Mercedes, Somoza Martín, José Manuel, Universidade de Santiago de Compostela. Departamento de Cirurxía e Especialidades Médico-Cirúrxicas, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Pérez Sayáns, Mario, Castelo Baz, Pablo, Penarrocha-Oltra, David, Seijas Naya, Flavio, Conde Amboage, Mercedes, and Somoza Martín, José Manuel
- Abstract
Objectives: The objective of this study was to analyze the impact of the abutment width on early marginal bone loss (MBL).Material and Methods: A balanced, randomized, double- blind clinical trial with two parallel experimental arms was conducted without a control group. The arms were “cylindrical” abutment and “concave” abutment. Eighty hexagonal internal connection implants, each with a diameter of 4 × 10 mm, were placed in healed mature bone. The main variable was the peri-implant tissue stability, which was measured as MBL at 8 weeks and 6 months.Results: The final sample consisted of 77 implants that were placed in 25 patients. 38 (49.4%) were placed using the cylindrical abutment, and the other 39 (50.6%) were placed using the concave abutment. The early global MBL of −0.6 ± 0.7 mm in the cy-lindrical abutment group was significantly higher than it was in the concave abutment group, in which the early global MBL was −0.4 ± 0.6 mm (p= .030). The estimated ef-fect size (ES) was negative for the cylindrical abutment (ES = −1.3730, CI −2.5919 to −0.1327; t- value = −2.4893; p= .0139), therefore implying a loss of mean bone level, and it was positive for the concave abutment (ES = 2.8231; CI: 1.4379 to 4.2083; t- value= 4.0957; p= .0002), therefore implying an increase in the average bone level.Conclusions: The concave abutments presented significantly less early MBL at 6 months post- loading than classical cylindrical abutments did
- Published
- 2022
17. Quantitative proteomics in medication‐related osteonecrosis of the jaw: a proof‐of‐concept study
- Author
-
Lorenzo‐Pouso, Alejandro I., primary, Bravo, Susana B., additional, Carballo, Javier, additional, del Pilar Chantada‐Vázquez, María, additional, Bagán, José, additional, Bagán, Leticia, additional, Chamorro‐Petronacci, Cintia M., additional, Conde‐Amboage, Mercedes, additional, López‐López, Rafael, additional, García‐García, Abel, additional, and Pérez‐Sayáns, Mario, additional
- Published
- 2022
- Full Text
- View/download PDF
18. Estatística descritiva
- Author
-
Conde Amboage, Mercedes, primary, Borrajo García, María Isabel, additional, and Cadarso Suárez, Carmen, additional
- Published
- 2022
- Full Text
- View/download PDF
19. Circulating Proteins Associated with Response and Resistance to Neoadjuvant Chemotherapy in HER2-Positive Breast Cancer
- Author
-
Chantada-Vázquez, María del Pilar, primary, Conde-Amboage, Mercedes, additional, Graña-López, Lucía, additional, Vázquez-Estévez, Sergio, additional, Bravo, Susana B., additional, and Núñez, Cristina, additional
- Published
- 2022
- Full Text
- View/download PDF
20. BwQuant: Bandwidth Selectors for Local Linear Quantile Regression
- Author
-
Conde-Amboage, Mercedes, primary and Sanchez-Sellero, Cesar, additional
- Published
- 2022
- Full Text
- View/download PDF
21. A new lack-of-fit test for quantile regression with censored data
- Author
-
Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, Keilegom, Ingrid van, González Manteiga, Wenceslao, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, Keilegom, Ingrid van, and González Manteiga, Wenceslao
- Abstract
A new lack-of-fit test for quantile regression models will be presented for the case where the response variable is right-censored. The test is based on the cumulative sum of residuals, and it extends the ideas of He and Zhu (2003) to censored quantile regression. It will be shown that the empirical process associated with the test statistic converges to a Gaussian process under the null hypothesis and is consistent. To approximate the critical values of the test, a bootstrap mechanism will be used. A simulation study will be carried out to study the performance of the new test in comparison with other tests available in the literature. Finally, a real data application will be presented to show the good properties of the new lack-of-fit test in practice.
- Published
- 2021
22. XV Congreso Galego de Estatística e Investigación de Operacións : Santiago de Compostela, 4, 5 e 6 de novembro de 2021 : libro de actas
- Author
-
Sánchez Sellero, César Andrés, Ginzo Villamayor, María José, Ameijeiras Alonso, Jose, Martín Vila, María, Conde-Amboage, Mercedes, Diéguez Taboada, Milagros, Faraldo-Roca, Pedro, Borrajo García, María Isabel, López Vizcaíno, María Esther, Saavedra-Nieves, Alejandro, Saavedra-Nieves, Paula, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Saavedra Nieves, Paula, Diéguez Taboada, Millagros, Faraldo Roca, Pedro, López Vizcaíno, Mª Esther, Sánchez Sellero, César Andrés, Ginzo Villamayor, María José, Ameijeiras Alonso, Jose, Martín Vila, María, Conde-Amboage, Mercedes, Diéguez Taboada, Milagros, Faraldo-Roca, Pedro, Borrajo García, María Isabel, López Vizcaíno, María Esther, Saavedra-Nieves, Alejandro, Saavedra-Nieves, Paula, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Saavedra Nieves, Paula, Diéguez Taboada, Millagros, Faraldo Roca, Pedro, and López Vizcaíno, Mª Esther
- Published
- 2021
23. Modelos de regresión de Poisson
- Author
-
Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, García García, María, Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, and García García, María
- Abstract
[GL] Os modelos de regresión de Poisson permiten representar a dependencia dunha variable resposta resultado dun reconto, con respecto a unha ou varias variables explicativas, aproximando a variable resposta discreta a partir das variables explicativas cun certo erro. O obxectivo deste traballo é estudar estes modelos en profundidade: realizar a estimación dos parámetros mediante o método de máxima verosimilitude e levar a cabo a Inferencia sobre eles expoñendo diversas metodoloxías. Co propósito de ilustrar todos os conceptos desenvolvidos empregaremos unha aplicación a datos reais. Para os datos analizados, deberemos comprobar que as hipótesis básicas do modelo se verifican, pois senón as conclusións extraídas poderían non ser certas; e en caso de que non se cumpran, estudaremos posibles melloras do modelo. Ademais, mediremos a bondade de axuste do modelo, é dicir, a discrepancia entre os valores observados e os valores esperados. Unha das hipóteses máis importante e restritiva destes modelos, é a igualdade entre a media e a varianza da variable resposta, por seguir esta unha distribución de Poisson. Porén, na práctica, podemos atopar diferentes situacións nas cales a varianza sexa maior que a media, este fenómeno é o que se coñece como sobre-dispersión. Consideraremos varios métodos que permiten a identificación de datos con sobre-dispersión e estudaremos dous procedementos para corrixir este problema., [ES] Los modelos de regresión de Poisson permiten representar la dependencia de una variable respuesta resultado de un recuento, con respecto a una o varias variables explicativas, aproximando la variable respuesta discreta a partir de las variables explicativas con un cierto error. El objetivo de este trabajo es estudiar estos modelos en profundidad: realizar la estimación de los parámetros mediante el método de máxima verosimilitud y llevar a cabo la Inferencia sobre ellos exponiendo diversas metodologías. Con el propósito de ilustrar todos los conceptos desarrollados emplearemos una aplicación a datos reales. Para los datos analizados, deberemos comprobar que las hipótesis básicas del modelo se verifican, pues sino las conclusiones extraídas podrían no ser ciertas; y en caso de que no se cumplan, estudiaremos posibles mejoras del modelo. Además, mediremos la bondad de ajuste del modelo, es decir, la discrepancia entre los valores observados y los valores esperados. Una de las hipótesis más importante y restrictiva de estos modelos, es la igualdad entre la media y la varianza de la variable respuesta, por seguir esta una distribución de Poisson. Sin embargo, en la práctica, podemos encontrarnos diferentes situaciones en las cuales la varianza sea mayor que la media, este fenómeno es lo que se conoce como sobre-dispersión. Consideraremos varios métodos que permiten la identificación de datos con sobre-dispersión y estudiaremos dos procedimientos para corregir este problema., [EN] Poisson regression models allow us to represent the dependence of a response variable which is the result of a count, on one or several explanatory variables, approximating the discrete response variable from the explanatory variables with a certain error. The aim of the present research project is to study these models in depth: conduct the approximation of the parameters by the maximum likelihood method and make the inference about them expounding various methodologies. In order to illustrate all the developed concepts a real data application is used. For the analyzed data, we shall have to check that the basic assumptions of the model are tested, otherwise the conclusions drawn might not be true; and if the aforementioned assumptions are not verified, possible improvements of the model will be studied. Furthermore, we will measure the goodness of fit of the model, that is to say, the discrepancy between the observed and the expected values. One of the most important and restrictive hypothesis of these models, is the equality between the mean and the variance of the response variable, since it follows a Poisson distribution. Nevertheless, in practice, we can find several situations in which the variance is greater than the mean, this phenomenon is known as over-dispersion. Several methods that allow for identifying over-dispersed data will be considered and two procedures to correct this problem will be studied.
- Published
- 2021
24. LearningStats: Elemental Descriptive and Inferential Statistics
- Author
-
Borrajo-García, María Isabel, primary, Conde-Amboage, Mercedes, additional, and López-Pérez, Alejandra, additional
- Published
- 2021
- Full Text
- View/download PDF
25. Estimación tipo núcleo da función de densidade
- Author
-
Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, Arrojo Vázquez, Álvaro, Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, and Arrojo Vázquez, Álvaro
- Abstract
[GL] A estimación da función de densidade é un tema de gran importancia no campo da Estatística xa que calquera variable aleatoria continua queda completamente caracterizada grazas á súa función de densidade. Dada a importancia da estimación da función de densidade, este tema foi abordado dende diferentes puntos de vista. Presentouse dende unha primeira aproximación grazas a unha representación gráfica (coñecida como histograma) ata métodos non paramétricos máis complexos como a estimación tipo núcleo. No presente traballo introdúcese a estimación tipo núcleo da función de densidade así como diferentes criterios de erro asociados ao mencionado estimador. Ademais, abordarase o problema da selección do parámetro de suavizado e mostraranse diferentes propostas de selectores dispoñibles na literatura. Para poder comparar os diferentes selectores do parámetro de suavizado propostos deseñouse un completo estudo de simulación que permitirá extraer conclusións sobre as súas propiedades. Por outra banda, propoñerase unha estimación da función de densidade asociada a unha mostra de datos reais para ilustrar a utilidade do estimador tipo núcleo na práctica. Finalmente, presentaranse as principais conclusións deste traballo, [EN] The estimation of density function is a real important topic in the field of Statistics due to the fact that every continuous variable is completely defined by its density function. Given the density function importance, this subject was approached by different points of view. It was presented from a first graphic approach (known as histogram) to non parametric complex methods as kernel density estimation. On the present project the kernel density estimation and some different error criteria related with the given estimator are introduced. It is also address the smooth parameter selection and it is shown different selector proposals that are present in the literature. To be able to compare the different selectors of the proposed smoothing parameter, a complete simulation study was designed that will allow conclusions about their properties. On the other hand, an estimation of the density function associated with a sample of real data will be proposed in order to illustrate the usefulness of the kernel density estimator in practice. Finally, the main conclusions of this project will be presented, [ES] La estimación de la función de densidad es un tema de gran importancia en el campo de la Estadística ya que cualquiera variable aleatoria continua queda completamente caracterizada gracias a su función de densidad. Dada la importancia de la estimación de la función de densidad, este tema fue abordado desde diferentes puntos de vista. Se presentó desde una primera aproximación gracias a una representación gráfica (conocida como histograma) hasta métodos no paramétricos más complejos como la estimación tipo núcleo. El el presente trabajo se introduce la estimación tipo núcleo de la función de densidad así como diferentes criterios de error asociados al mencionado estimador. Además, se aborda el problema de la selección del parámetro de suavizado y se muestran diferentes propuestas de selectores disponibles en la literatura. Para poder comparar los diferentes selectores del parámetro de suavizado propuestos se diseñó un completo estudio de simulación que permitirá extraer conclusiones sobre sus propiedades. Por otra banda, se propondrá una estimación de la función de densidad asociada a una muestra de datos reales para ilustrar la utilidad del estimador tipo núcleo en la práctica. Finalmente, se presentarán las principales conclusiones de este trabajo
- Published
- 2020
26. Regresión lineal con datos censurados
- Author
-
Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, Barreira Miranda, María, Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, and Barreira Miranda, María
- Abstract
[GL] Os datos censurados son bastante habituais no contexto da Análise de Supervivencia, que é unha parte da Estatística que se centra en modelizar o tempo que transcorre ata que ocorre un determinado suceso. Un exemplo notable desta situación é o tempo de vida dunha certa enfermidade que se pode definir como o tempo que pasa dende o comezo dun experimento ata que ocorre un determinado suceso de interese que chamaremos morte ou fracaso (falecemento do/da doente, fin do estudo, perda de información sobre o/a doente,...). Polo tanto, o fenómeno da censura xorde cando existe unha limitación na información que temos sobre as variables de interese dun determinado modelo posto que a partir dun certo intre non podemos observalas. Neste traballo estudaremos as propiedades teóricas dos diferentes métodos que se empregan para estimar os parámetros asociados a un modelo de regresión no caso de de que a variable resposta sexa censurada pola dereita. Empregaremos modelos de regresión lineais simples para intentar explicar a relación dun par de variables e observaremos como non se poden empregar os mesmos métodos que para o caso de datos completos. Unha vez expostos os diferentes métodos, compararemos estes estimadores mediante un estudo de simulación empregando o método de Monte Carlo para comprobar que método nos proporciona mellores resultados. Para medir a calidade dos diferentes estimadores dispoñibles na literatura empregaremos o erro cadrático medio. Finalmente, para rematar este TFG, realizaremos unha aplicación a datos reais que nos permitirá ilustrar o comportamento na práctica dos diferentes métodos estudados ao longo deste traballo. Tanto o estudo de simulación como a aplicación a datos reais levaranse a cabo empregando o software estatístico libre R, [ES] Los datos censurados son bastante habituales en el contexto de la Análisis de Supervivencia, que es una parte da Estadística que se centra en modelar el tiempo que transcurre hasta que ocurre un determinado suceso. Un ejemplo notable de esta situación es el tiempo de vida de una cierta enfermedad que se puede definir como el tiempo que pasa desde el comienzo de un experimento hasta que ocurre un determinado suceso de interés que llamaremos muerte o fracaso (fallecimiento del o de la paciente, fin del estudio, pérdida de la información sobre el/la paciente, ...). Por tanto, el fenómeno de censura aparece cuando existe una limitación en la información que tenemos sobre las variables de interés de un determinado modelo puesto que a partir de un cierto momento no podemos observarlas. En este trabajo estudiaremos las propiedades teóricas de los diferentes métodos que se utilizan para estimar los parámetros asociados a un modelo de regresión en el caso de que la variable respuesta sea censurada por la derecha. Utilizaremos modelos de regresión lineales simples para intentar explicar la relación de un par de variables y observaremos cómo no se pueden utilizar los mismos métodos que para el caso de datos completos. Una vez expuestos los diferentes métodos, compararemos estos estimadores mediante un estudio de simulación utilizando el método de Monte Carlo para comprobar qué método nos proporciona mejores resultados. Para medir la calidad de los diferentes estimadores disponibles en la literatura utilizaremos el error cuadrático medio. Finalmente, para acabar este TFG, realizaremos una aplicación a datos reales que nos permitirá ilustrar el comportamiento en la práctica de los diferentes métodos estudiados a lo largo de este trabajo. Tanto el estudio de simulación como la aplicación a datos reales se llevará a cabo utilizando el software estadístico libre R, [EN] Censored data is quite common in the context of Survival Analysis, which is a part of Statistics that focuses on modeling the time that passes until a certain event occurs. A notable example of this situation is the life time of a certain disease that can be defined as the time that passes from the beginning of an experiment until a certain event of interest occurs that we will call death or failure (death of the patient, end of the study, loss of information about the patient, ... ). Therefore, the phenomenon of censorship appears when there is a limitation on the information that we have on the variables of interest of a certain model since, from a certain moment, we can not observe them. In this work we will study the theoretical properties of the different methods that are used to estimate the parameters associated with a regression model in the case that the response variable is right censored. We will use simple linear regression models to try to explain the relationship of a pair of variables and we will observe how the same methods can not be used as for the case of complete data. Once the different methods are presented, we will compare these estimators through a simulation study using the Monte Carlo method to check which method gives us better results. To measure the quality of the different estimators available in the literature, we will use the mean square error. Finally, we will perform a real data application that will allow us to illustrate the behavior in practice of the different methods studied throughout this work. Both the simulation study and the real data application to will be carried out using the statistical software R
- Published
- 2020
27. A new lack‐of‐fit test for quantile regression with censored data
- Author
-
Conde‐Amboage, Mercedes, primary, Van Keilegom, Ingrid, additional, and González‐Manteiga, Wenceslao, additional
- Published
- 2021
- Full Text
- View/download PDF
28. Data Science in Biomedicine
- Author
-
Alarc��n-Soto, Yovaninna, Espasand��n-Dom��nguez, Jenifer, Guler, Ipek, Conde-Amboage, Mercedes, Gude-Sampedro, Francisco, Langohr, Klaus, Cadarso-Su��rez, Carmen, and G��mez-Melis, Guadalupe
- Subjects
FOS: Computer and information sciences ,Statistics - Other Statistics ,Other Statistics (stat.OT) - Abstract
We highlight the role of Data Science in Biomedicine. Our manuscript goes from the general to the particular, presenting a global definition of Data Science and showing the trend for this discipline together with the terms of cloud computing and big data. In addition, since Data Science is mostly related to areas like economy or business, we describe its importance in biomedicine. Biomedical Data Science (BDS) presents the challenge of dealing with data coming from a range of biological and medical research, focusing on methodologies to advance the biomedical science discoveries, in an interdisciplinary context.
- Published
- 2019
29. Modelos lineais de regresión cuantil
- Author
-
Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, Gil Rial, Lucía, Conde-Amboage, Mercedes, Universidade de Santiago de Compostela. Facultade de Matemáticas, and Gil Rial, Lucía
- Abstract
[GL] O obxectivo desta memoria é presentar os modelos de regresión cuantil. Para isto def ínese previamente o concepto de variable aleatoria así como as súas principais caracter ísticas. Préstase especial atención á estimación de cuantís mostrais, que pode ser vista como un problema de optimización, e resultará de gran utilidade para a estimación do modelo cuantil. A continuación preséntase o modelo de regresión en media, que ten como propósito estudar posibles relacións entre distintas variables aleatorias a través do método de mínimos cadrados. Paralelamente, defínese o modelo lineal de regresión cuantil así como métodos inferenciais asociados á estimación dos parámetros da regresión. Preséntanse tamén as propiedades máis salientables de dito modelo como a robustez (que se verá a través da función de influencia) que presenta fronte a datos atípicos e tamén unha das súas debilidades como o cruce entre cuantís. Por outra banda, realízanse dous estudos de simulación a través do programa R. O primeiro ten como obxectivo mostrar, mediante os erros cadráticos medios, que canto maior sexa a densidade da variable resposta avaliada no cuantil de interese, menor será a variabilidade dos estimadores da regresión. O segundo estudo mostra a través de representacións gráficas a robustez que presenta a regresión en mediana fronte a datos atípicos mentres que a regresión en media vese moi afectada por ditas observacións. Despois realízase unha aplicación a datos reais coa base de datos Engel que proporciona o paquete quantreg de R. Para finalizar preséntase as principais conclusi óns derivadas deste traballo, así como un anexo no que se recollen todos os códigos de R necesarios para levar a cabo os estudos feitos ao longo do traballo., [EN] The objective of this research is to introduce the quantile regression model. For this purpose, we will first define a random variable and its main characteristics. Then, we will focus on the sample quantile estimation, which can be seen as an optimization problem, and it would be useful for the quantile regression model estimation. Subsequently, we will introduce the regression toward the mean model of which purpose is to study the possible relationships among different random variables through the least-square method. Concurrently, we will define the linear quantile regression model as well as inference methods associated with the estimation of the regression parameters. We will show the most important properties of the aforementioned model such as robustness (which will be seen through the influence function) that the model shows in the presence of outliers and we will also show one of its weaknesses like the quantile crossing. Furthermore, we will conduct two simulation studies through the well-known software R. The first one has the purpose of showing, by the mean squared error, that a higher density of the target variable evaluate in a particular quantile implicates a minor variability of the regression estimators. The second one presents (through graphic representations) the robustness that median regression has in front of outliers while the regression to the mean is really sensitive to this observations. Lastly, we will show a real data application with the data basis Engel provided by the R package quantreg. Finally, we will summarize the main ideas derived from this work, and we will add an annex which contains the programming code that we use during this project., [ES] El objetivo de esta memoria es presentar los modelos de regresión cuantil. Para esto se define previamente el concepto de variable aleatoria así como sus principales caracter ísticas. Se presta especial atención a la estimación de cuantiles mostrales, que puede ser vista como un problema de optimización, y será de gran utilidad para la estimación del modelo cuantil. A continuación se presenta el modelo de regresión en media, cuyo propó- sito es estudiar posibles relaciones entre distintas variables aleatorias a través del método de mínimos cuadrados. Paralelamente, se define el modelo lineal de regresión cuantil así como métodos inferenciales asociados a la estimación de los parámetros de la regresión. Se presentan también las propiedades más importantes de dicho modelo como la robustez (que se verá a través de la función de influencia) que presenta frente a datos atípicos y tambi én una de sus debilidades como el cruce entre cuantiles. Por otra banda, se realizan dos estudios de simulación a través del programa R. El primero tiene como objetivo mostrar, mediante los errores cuadráticos medios, que cuanto mayor sea la densidad de la variable respuesta evaluada en el cuantil de interés, menor será la variabilidad de los estimadores de la regresión. El segundo estudio muestra a través de representaciones gráficas la robustez que presenta la regresión en mediana frente a datos atípicos mientras que la regresión en media se ve muy perjudicada por dichas observaciones. Después se realiza una aplicación a datos reales con la base de datos Engel que proporciona el paquete quantreg de R. Para finalizar se presentan las principales conclusiones derivadas de este trabajo, así como un anexo en el que se recogen todos los códigos de R necesarios para llevar a cabo los estudios hechos a lo largo de este proyecto.
- Published
- 2019
30. Quantile regression: estimation and lack-of-fit tests
- Author
-
Conde Amboage, Mercedes, González Manteiga, Wenceslao, Sánchez Sellero, César Andrés, and Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización
- Subjects
Lack-of-fit tests ,Quantile regression ,Robustness ,Estimation ,Sparsity - Abstract
Although mean regression achieved its greatest diffusion in the twentieth century, it is very surprising to observe that the ideas of quantile regression appeared earlier. While the beginning of the least-squares regression can be dated in the year 1805 by the work of Legendre, in the mid-eighteenth century Boscovich already adjusted data on the ellipticity of the Earth using concepts of quantile regression. Quantile regression is employed when the aim of the study is centred on the estimation of the different positions (quantiles). This kind of regression allows a more detailed description of the behaviour of the response variable, adapts to situations under more general conditions of the error distribution and enjoys robustness properties. For all that, quantile regression is a very useful statistical technology for a large diversity of disciplines. In this paper a review on quantile regression methods will be presented SI
- Published
- 2018
31. Quantile regression: estimation and lack-of-fit tests
- Author
-
Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, González Manteiga, Wenceslao, Sánchez Sellero, César Andrés, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, González Manteiga, Wenceslao, and Sánchez Sellero, César Andrés
- Abstract
Although mean regression achieved its greatest diffusion in the twentieth century, it is very surprising to observe that the ideas of quantile regression appeared earlier. While the beginning of the least-squares regression can be dated in the year 1805 by the work of Legendre, in the mid-eighteenth century Boscovich already adjusted data on the ellipticity of the Earth using concepts of quantile regression. Quantile regression is employed when the aim of the study is centred on the estimation of the different positions (quantiles). This kind of regression allows a more detailed description of the behaviour of the response variable, adapts to situations under more general conditions of the error distribution and enjoys robustness properties. For all that, quantile regression is a very useful statistical technology for a large diversity of disciplines. In this paper a review on quantile regression methods will be presented
- Published
- 2018
32. A plug-in bandwidth selector for nonparametric quantile regression
- Author
-
Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, Sánchez Sellero, César Andrés, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, and Sánchez Sellero, César Andrés
- Abstract
In the framework of quantile regression, local linear smoothing techniques have been studied by several authors, particularly by Yu and Jones (J Am Stat Assoc 93:228–237, 1998). The problem of bandwidth selection was addressed in the literature by the usual approaches, such as cross-validation or plug-in methods. Most of the plug-in methods rely on restrictive assumptions on the quantile regression model in relation to the mean regression, or on parametric assumptions. Here we present a plug-in bandwidth selector for nonparametric quantile regression that is defined from a completely nonparametric approach. To this end, the curvature of the quantile regression function and the integrated squared sparsity (inverse of the conditional density) are both nonparametrically estimated. The new bandwidth selector is shown to work well in different simulated scenarios, particularly when the conditions commonly assumed in the literature are not satisfied. A real data application is also given
- Published
- 2018
33. Statistical Inference in Quantile Regression Models
- Author
-
Conde Amboage, Mercedes, González Manteiga, Wenceslao, Sánchez Sellero, César A., Universidade de Santiago de Compostela. Departamento de Análise Matemática, Estatística e Optimización, Facultade de Matemáticas, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, and Universidade de Santiago de Compostela. Facultade de Matemáticas
- Subjects
Statistics::Machine Learning ,Statistics::Theory ,Investigación::12 Matemáticas::1209 Estadística::120913 Técnicas de inferencia estadística [Materias] ,Investigación::12 Matemáticas::1209 Estadística::120906 Métodos de distribución libre y no paramétrica [Materias] ,Quantile regression ,Statistics::Methodology ,Bandwidth selection ,Prediction intervals ,Statistics::Computation ,Lack-of-fit test - Abstract
The main purpose of this dissertation is to collect different innovative statistical methods in quantile regression. The contributions can be summarized as follows: -- A new method to construct prediction intervals involving median regression and bootstrapping the prediction error is proposed. -- A plug-in bandwidth selector for nonparametric quantile regression has been proposed, that is based on nonparametric estimations of the curvature of the quantile regression function and the integrated sparsity. -- Two lack-of-fit tests for quantile regression models have been presented. The first test is based on the cumulative sum of residuals with respect to unidimensional linear projections of the covariates in order to deal with high-dimensional covariates. The second test is based on interpreting the residuals from the quantile model fit as response values of a logistic regression. Then a likelihood ratio test in the logistic regression is used to check the quantile model.
- Published
- 2017
34. A plug-in bandwidth selector for nonparametric quantile regression
- Author
-
Conde-Amboage, Mercedes, primary and Sánchez-Sellero, César, additional
- Published
- 2018
- Full Text
- View/download PDF
35. Statistical Inference in Quantile Regression Models
- Author
-
González Manteiga, Wenceslao, Sánchez Sellero, César A., Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Universidade de Santiago de Compostela. Facultade de Matemáticas, Conde Amboage, Mercedes, González Manteiga, Wenceslao, Sánchez Sellero, César A., Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Universidade de Santiago de Compostela. Facultade de Matemáticas, and Conde Amboage, Mercedes
- Abstract
The main purpose of this dissertation is to collect different innovative statistical methods in quantile regression. The contributions can be summarized as follows: -- A new method to construct prediction intervals involving median regression and bootstrapping the prediction error is proposed. -- A plug-in bandwidth selector for nonparametric quantile regression has been proposed, that is based on nonparametric estimations of the curvature of the quantile regression function and the integrated sparsity. -- Two lack-of-fit tests for quantile regression models have been presented. The first test is based on the cumulative sum of residuals with respect to unidimensional linear projections of the covariates in order to deal with high-dimensional covariates. The second test is based on interpreting the residuals from the quantile model fit as response values of a logistic regression. Then a likelihood ratio test in the logistic regression is used to check the quantile model.
- Published
- 2017
36. Predicting trace gas concentrations using quantile regression models
- Author
-
Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, González Manteiga, Wenceslao, Sánchez Sellero, César Andrés, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, González Manteiga, Wenceslao, and Sánchez Sellero, César Andrés
- Abstract
Quantile regression methods are evaluated for computing predictions and prediction intervals of NOx concentrations measured in the vicinity of the power plant in As Pontes (Spain). For these data, smaller prediction errors were obtained using methods based on median regression compared with mean regression. A new method to construct prediction intervals involving median regression and bootstrapping the prediction error is proposed. This new method provides better coverage for NOx data compared with classical and bootstrap prediction intervals based on mean regression, as well as simpler prediction intervals based on quantile regression. A simulation study illustrates the features of this proposed method that lead to a better performance for obtaining prediction intervals for these particular NOx concentration data, as well as for any other environmental dataset that do not meet assumptions of homoscedasticity and normality of the error distribution
- Published
- 2017
37. Predicting trace gas concentrations using quantile regression models
- Author
-
Conde-Amboage, Mercedes, primary, González-Manteiga, Wenceslao, additional, and Sánchez-Sellero, César, additional
- Published
- 2016
- Full Text
- View/download PDF
38. A lack-of-fit test for quantile regression models with high-dimensional covariates
- Author
-
Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, Sánchez Sellero, César Andrés, González Manteiga, Wenceslao, Universidade de Santiago de Compostela. Departamento de Estatística, Análise Matemática e Optimización, Conde Amboage, Mercedes, Sánchez Sellero, César Andrés, and González Manteiga, Wenceslao
- Abstract
A new lack-of-fit test for quantile regression models, that is suitable even with highdimensional covariates, is proposed. The test is based on the cumulative sum of residuals with respect to unidimensional linear projections of the covariates. To approximate the critical values of the test, a wild bootstrap mechanism convenient for quantile regression is used. An extensive simulation study was undertaken that shows the good performance of the new test, particularly when the dimension of the covariate is high. The test can also be applied and performs well under heteroscedastic regression models. The test is illustrated with real data about the economic growth of 161 countries.
- Published
- 2015
39. A lack-of-fit test for quantile regression models with high-dimensional covariates
- Author
-
Conde-Amboage, Mercedes, primary, Sánchez-Sellero, César, additional, and González-Manteiga, Wenceslao, additional
- Published
- 2015
- Full Text
- View/download PDF
40. Introdución aos Modelos Mixtos
- Author
-
Losada González, Diego, Conde-Amboage, Mercedes, and Universidade de Santiago de Compostela. Facultade de Matemáticas
- Abstract
Traballo Fin de Grao en Matemáticas. Curso 2021-2022 No eido da Estatística, os modelos de regresión son a principal ferramenta empregada cando o que se precisa é estimar a relación entre variables aleatorias. En concreto, veremos como unha ou varias variables (que chamaremos variables explicativas) inflúen sobre outra variable (que chamaremos variable resposta). Moitas bases de datos concernentes ao eido da Educación, a Medicina ou as Ciencias Medioambientais están xerarquicamente organizadas debido á propia natureza destas, de xeito que os individuos se atopan aniñados en grupos; como por exemplo, un conxunto de alumnas/os agrupadas/os por escolas. É obvio pensar que individuos clasificados nun mesmo grupo tenderán a ter un comportamento máis semellante que uns individuos calesquera de grupos diferentes, con menos información en común. Nestes casos, os modelos de regresión clásicos deixan de ser útiles e xorde a necesidade de ter en conta o efecto que producen estas agrupacións na variable resposta. As primeiras propostas para estudar este tipo de datos, sen ignorar as agrupacións existentes, son os modelos de análise da varianza (coñecidos como modelos ANOVA) ou modelos de análise da covarianza (coñecidos como modelos ANCOVA); mais estes modelos só son interesantes cando o que se quere é aplicar técnicas da Inferencia Estatística sobre certas características dos grupos presentes na base de datos. Afondando aínda máis na análise de datos xerárquicos, os grupos presentes no conxunto de datos poden considerarse unha mostra aleatoria dunha poboación máis grande de grupos para facer Inferencia sobre os grupos en xeral. Neste caso, os modelos de regresión ANOVA e ANCOVA deixan de ser válidos, e xorden os denominados modelos mixtos ou modelos multinivel. Ao longo deste traballo introduciranse os modelos mixtos e poñerase de manifesto a súa utilidade para estudar bases de datos cunha estrutura de dous niveis, onde os individuos se atopan no primeiro nivel e están aniñados en grupos no segundo nivel, mediante a incorporación de efectos aleatorios. Para levar a cabo esta ilustración empregarase unha base de datos reais que será analizada empregando a ferramenta estatística R. In the Statistical field, regression models are the main tool employed when estimating the relation among random variables is needed. In particular, we will see the effect of one or several variables (that will be denoted by explanatory variables) in another variable (that will be denoted by response variable). A lot of databases concerning the fields of Education, Medicine or Environmental Sciences are hierarchically organized due to their own nature, so that individuals are organized in groups; for example, a set of students grouped by schools. It is obvious to think that individuals classified in a same group will tend to have a more similar behaviour than any individual from different groups, with less information in common. In these cases, classical regression models stop being useful and the necessity to take into account the effect produced by these groupings in the response variable arises. The first proposals to study this type of data sets, without ignoring the existing groupings, are the models of analysis of variance (ANOVA) or models of analysis of covariance (ANCOVA); but these models are only interesting when the goal is to apply Statistical Inference techniques on certain features of the groups present in the database. Going even further in the analysis of hierarchical data, the present groups in the dataset can be considered a random sample of a bigger population of groups to make Inference about all groups in general. In this case, the regression models ANOVA and ANCOVA stop being valid, and the named mixed models or multilevel models arises. Throughout this work, mixed models will be introduced and it will be presented their utility in the study of databases with a structure of two levels, where individuals are on the first level and are nested in groups on the second level, by incorporating random effects. To carry out this illustration, it will be used a real database that will be analysed employing the statistical tool R.
- Published
- 2022
41. Curvas ROC
- Author
-
Castro Capelo, Raquel María, Conde-Amboage, Mercedes, and Universidade de Santiago de Compostela. Facultade de Matemáticas
- Abstract
Traballo Fin de Grao en Matemáticas. Curso 2021-2022 La curva ROC es una herramienta estadística empleada ampliamente en el ámbito sanitario para evaluar la capacidad diagnóstica de una prueba médica, a la hora de clasificar a una población en dos grupos: pacientes enfermos y pacientes sanos. Es decir, se analizará la capacidad de que una cierta variable, que se denotará variable diagnóstico, sea capaz de clasificar a los sujetos a estudio en sanos y enfermos. En este trabajo se revisan los principales conceptos relacionados con la curva ROC, que permiten, entre otras cosas, obtener su definición y su representación gráfica junto con sus índices resumen, destacando el área bajo la curva, que ayuda a evaluar la capacidad discriminatoria de una prueba y el índice de Youden, que es importante a la hora seleccionar un punto de corte óptimo en función de los objetivos a estudio. También se incluyen otros métodos para seleccionar dicho umbral. Además, se presentarán, de manera general, los principales métodos estadísticos para estimar la curva ROC en función del conocimiento de la distribución que sigue la variable diagnóstico asociada a cada categoría de interés. Es decir, se introducirán métodos de estimación tanto paramétricos como no paramétricos. El funcionamiento de dichos estimadores se ilustrará gracias a datos simulados y al análisis de una base de datos reales. Dichas ilustraciones han sido desarrolladas utilizando el software estadístico y el código usado puede encontrarse en el Anexo I de este documento. The ROC curve is a statistical tool widely used in the healthcare field to evaluate the diagnostic capacity of a medical test when classifying a population into two groups: unhealthy patinents and healthy patients. The capacity of a certain variable, which we will denote by diagnostic variable, to classify the subjects of a study into healthy and unhealthy will be analysed. This work reviews the main concepts related to the ROC curve. We will introduce its definition, graphic representation and its summary indices. It highlights the area under the curve which helps to evaluate the discriminatory capacity of a test and the Youden index. This index is important when the main goal is to select an optimal cut-off point according to the objectives under study. Other methods for selecting the cut-off point are also included. In addition, this paper presents in broad terms the main statistical methods for estimating the ROC curve based on knowledge of the distribution of the diagnostic variable associated with each category of interest. That is, we will introduce both parametric and non-parametric estimation methods. The performance of these estimators will be illustrated using both simulated and real datasets. These illustrations have been developed using the statistical software and the code used can be found in Annex I
- Published
- 2022
42. Estimación tipo núcleo da función de densidade
- Author
-
Arrojo Vázquez, Álvaro, Conde-Amboage, Mercedes, and Universidade de Santiago de Compostela. Facultade de Matemáticas
- Subjects
[Función de densidad] ,[Ancho de ventá] ,[Estimación non paramétrica] ,[Nonparametric estimation] ,[Density function] ,[Estimación no paramétrica] ,[Ancho de ventana] ,[Función de densidade] ,[Bandwidth] - Abstract
Traballo Fin de Grao en Matemáticas. Curso 2019-2020 [GL] A estimación da función de densidade é un tema de gran importancia no campo da Estatística xa que calquera variable aleatoria continua queda completamente caracterizada grazas á súa función de densidade. Dada a importancia da estimación da función de densidade, este tema foi abordado dende diferentes puntos de vista. Presentouse dende unha primeira aproximación grazas a unha representación gráfica (coñecida como histograma) ata métodos non paramétricos máis complexos como a estimación tipo núcleo. No presente traballo introdúcese a estimación tipo núcleo da función de densidade así como diferentes criterios de erro asociados ao mencionado estimador. Ademais, abordarase o problema da selección do parámetro de suavizado e mostraranse diferentes propostas de selectores dispoñibles na literatura. Para poder comparar os diferentes selectores do parámetro de suavizado propostos deseñouse un completo estudo de simulación que permitirá extraer conclusións sobre as súas propiedades. Por outra banda, propoñerase unha estimación da función de densidade asociada a unha mostra de datos reais para ilustrar a utilidade do estimador tipo núcleo na práctica. Finalmente, presentaranse as principais conclusións deste traballo [EN] The estimation of density function is a real important topic in the field of Statistics due to the fact that every continuous variable is completely defined by its density function. Given the density function importance, this subject was approached by different points of view. It was presented from a first graphic approach (known as histogram) to non parametric complex methods as kernel density estimation. On the present project the kernel density estimation and some different error criteria related with the given estimator are introduced. It is also address the smooth parameter selection and it is shown different selector proposals that are present in the literature. To be able to compare the different selectors of the proposed smoothing parameter, a complete simulation study was designed that will allow conclusions about their properties. On the other hand, an estimation of the density function associated with a sample of real data will be proposed in order to illustrate the usefulness of the kernel density estimator in practice. Finally, the main conclusions of this project will be presented [ES] La estimación de la función de densidad es un tema de gran importancia en el campo de la Estadística ya que cualquiera variable aleatoria continua queda completamente caracterizada gracias a su función de densidad. Dada la importancia de la estimación de la función de densidad, este tema fue abordado desde diferentes puntos de vista. Se presentó desde una primera aproximación gracias a una representación gráfica (conocida como histograma) hasta métodos no paramétricos más complejos como la estimación tipo núcleo. El el presente trabajo se introduce la estimación tipo núcleo de la función de densidad así como diferentes criterios de error asociados al mencionado estimador. Además, se aborda el problema de la selección del parámetro de suavizado y se muestran diferentes propuestas de selectores disponibles en la literatura. Para poder comparar los diferentes selectores del parámetro de suavizado propuestos se diseñó un completo estudio de simulación que permitirá extraer conclusiones sobre sus propiedades. Por otra banda, se propondrá una estimación de la función de densidad asociada a una muestra de datos reales para ilustrar la utilidad del estimador tipo núcleo en la práctica. Finalmente, se presentarán las principales conclusiones de este trabajo
- Published
- 2020
43. Regresión lineal con datos censurados
- Author
-
Barreira Miranda, María, Conde-Amboage, Mercedes, and Universidade de Santiago de Compostela. Facultade de Matemáticas
- Subjects
[Censored data] ,[Modelos de regresión] ,[Simulación Monte Carlo] ,[Regression models] ,[Simulation Monte Carlo] ,[Datos censurados] - Abstract
Traballo Fin de Grao en Matemáticas. Curso 2019-2020 [GL] Os datos censurados son bastante habituais no contexto da Análise de Supervivencia, que é unha parte da Estatística que se centra en modelizar o tempo que transcorre ata que ocorre un determinado suceso. Un exemplo notable desta situación é o tempo de vida dunha certa enfermidade que se pode definir como o tempo que pasa dende o comezo dun experimento ata que ocorre un determinado suceso de interese que chamaremos morte ou fracaso (falecemento do/da doente, fin do estudo, perda de información sobre o/a doente,...). Polo tanto, o fenómeno da censura xorde cando existe unha limitación na información que temos sobre as variables de interese dun determinado modelo posto que a partir dun certo intre non podemos observalas. Neste traballo estudaremos as propiedades teóricas dos diferentes métodos que se empregan para estimar os parámetros asociados a un modelo de regresión no caso de de que a variable resposta sexa censurada pola dereita. Empregaremos modelos de regresión lineais simples para intentar explicar a relación dun par de variables e observaremos como non se poden empregar os mesmos métodos que para o caso de datos completos. Unha vez expostos os diferentes métodos, compararemos estes estimadores mediante un estudo de simulación empregando o método de Monte Carlo para comprobar que método nos proporciona mellores resultados. Para medir a calidade dos diferentes estimadores dispoñibles na literatura empregaremos o erro cadrático medio. Finalmente, para rematar este TFG, realizaremos unha aplicación a datos reais que nos permitirá ilustrar o comportamento na práctica dos diferentes métodos estudados ao longo deste traballo. Tanto o estudo de simulación como a aplicación a datos reais levaranse a cabo empregando o software estatístico libre R [ES] Los datos censurados son bastante habituales en el contexto de la Análisis de Supervivencia, que es una parte da Estadística que se centra en modelar el tiempo que transcurre hasta que ocurre un determinado suceso. Un ejemplo notable de esta situación es el tiempo de vida de una cierta enfermedad que se puede definir como el tiempo que pasa desde el comienzo de un experimento hasta que ocurre un determinado suceso de interés que llamaremos muerte o fracaso (fallecimiento del o de la paciente, fin del estudio, pérdida de la información sobre el/la paciente, ...). Por tanto, el fenómeno de censura aparece cuando existe una limitación en la información que tenemos sobre las variables de interés de un determinado modelo puesto que a partir de un cierto momento no podemos observarlas. En este trabajo estudiaremos las propiedades teóricas de los diferentes métodos que se utilizan para estimar los parámetros asociados a un modelo de regresión en el caso de que la variable respuesta sea censurada por la derecha. Utilizaremos modelos de regresión lineales simples para intentar explicar la relación de un par de variables y observaremos cómo no se pueden utilizar los mismos métodos que para el caso de datos completos. Una vez expuestos los diferentes métodos, compararemos estos estimadores mediante un estudio de simulación utilizando el método de Monte Carlo para comprobar qué método nos proporciona mejores resultados. Para medir la calidad de los diferentes estimadores disponibles en la literatura utilizaremos el error cuadrático medio. Finalmente, para acabar este TFG, realizaremos una aplicación a datos reales que nos permitirá ilustrar el comportamiento en la práctica de los diferentes métodos estudiados a lo largo de este trabajo. Tanto el estudio de simulación como la aplicación a datos reales se llevará a cabo utilizando el software estadístico libre R [EN] Censored data is quite common in the context of Survival Analysis, which is a part of Statistics that focuses on modeling the time that passes until a certain event occurs. A notable example of this situation is the life time of a certain disease that can be defined as the time that passes from the beginning of an experiment until a certain event of interest occurs that we will call death or failure (death of the patient, end of the study, loss of information about the patient, ... ). Therefore, the phenomenon of censorship appears when there is a limitation on the information that we have on the variables of interest of a certain model since, from a certain moment, we can not observe them. In this work we will study the theoretical properties of the different methods that are used to estimate the parameters associated with a regression model in the case that the response variable is right censored. We will use simple linear regression models to try to explain the relationship of a pair of variables and we will observe how the same methods can not be used as for the case of complete data. Once the different methods are presented, we will compare these estimators through a simulation study using the Monte Carlo method to check which method gives us better results. To measure the quality of the different estimators available in the literature, we will use the mean square error. Finally, we will perform a real data application that will allow us to illustrate the behavior in practice of the different methods studied throughout this work. Both the simulation study and the real data application to will be carried out using the statistical software R
- Published
- 2020
44. Modelos lineais de regresión cuantil
- Author
-
Gil Rial, Lucía, Conde-Amboage, Mercedes, and Universidade de Santiago de Compostela. Facultade de Matemáticas
- Abstract
Traballo Fin de Grao en Matemáticas. Curso 2018-2019 [GL] O obxectivo desta memoria é presentar os modelos de regresión cuantil. Para isto def ínese previamente o concepto de variable aleatoria así como as súas principais caracter ísticas. Préstase especial atención á estimación de cuantís mostrais, que pode ser vista como un problema de optimización, e resultará de gran utilidade para a estimación do modelo cuantil. A continuación preséntase o modelo de regresión en media, que ten como propósito estudar posibles relacións entre distintas variables aleatorias a través do método de mínimos cadrados. Paralelamente, defínese o modelo lineal de regresión cuantil así como métodos inferenciais asociados á estimación dos parámetros da regresión. Preséntanse tamén as propiedades máis salientables de dito modelo como a robustez (que se verá a través da función de influencia) que presenta fronte a datos atípicos e tamén unha das súas debilidades como o cruce entre cuantís. Por outra banda, realízanse dous estudos de simulación a través do programa R. O primeiro ten como obxectivo mostrar, mediante os erros cadráticos medios, que canto maior sexa a densidade da variable resposta avaliada no cuantil de interese, menor será a variabilidade dos estimadores da regresión. O segundo estudo mostra a través de representacións gráficas a robustez que presenta a regresión en mediana fronte a datos atípicos mentres que a regresión en media vese moi afectada por ditas observacións. Despois realízase unha aplicación a datos reais coa base de datos Engel que proporciona o paquete quantreg de R. Para finalizar preséntase as principais conclusi óns derivadas deste traballo, así como un anexo no que se recollen todos os códigos de R necesarios para levar a cabo os estudos feitos ao longo do traballo. [EN] The objective of this research is to introduce the quantile regression model. For this purpose, we will first define a random variable and its main characteristics. Then, we will focus on the sample quantile estimation, which can be seen as an optimization problem, and it would be useful for the quantile regression model estimation. Subsequently, we will introduce the regression toward the mean model of which purpose is to study the possible relationships among different random variables through the least-square method. Concurrently, we will define the linear quantile regression model as well as inference methods associated with the estimation of the regression parameters. We will show the most important properties of the aforementioned model such as robustness (which will be seen through the influence function) that the model shows in the presence of outliers and we will also show one of its weaknesses like the quantile crossing. Furthermore, we will conduct two simulation studies through the well-known software R. The first one has the purpose of showing, by the mean squared error, that a higher density of the target variable evaluate in a particular quantile implicates a minor variability of the regression estimators. The second one presents (through graphic representations) the robustness that median regression has in front of outliers while the regression to the mean is really sensitive to this observations. Lastly, we will show a real data application with the data basis Engel provided by the R package quantreg. Finally, we will summarize the main ideas derived from this work, and we will add an annex which contains the programming code that we use during this project. [ES] El objetivo de esta memoria es presentar los modelos de regresión cuantil. Para esto se define previamente el concepto de variable aleatoria así como sus principales caracter ísticas. Se presta especial atención a la estimación de cuantiles mostrales, que puede ser vista como un problema de optimización, y será de gran utilidad para la estimación del modelo cuantil. A continuación se presenta el modelo de regresión en media, cuyo propó- sito es estudiar posibles relaciones entre distintas variables aleatorias a través del método de mínimos cuadrados. Paralelamente, se define el modelo lineal de regresión cuantil así como métodos inferenciales asociados a la estimación de los parámetros de la regresión. Se presentan también las propiedades más importantes de dicho modelo como la robustez (que se verá a través de la función de influencia) que presenta frente a datos atípicos y tambi én una de sus debilidades como el cruce entre cuantiles. Por otra banda, se realizan dos estudios de simulación a través del programa R. El primero tiene como objetivo mostrar, mediante los errores cuadráticos medios, que cuanto mayor sea la densidad de la variable respuesta evaluada en el cuantil de interés, menor será la variabilidad de los estimadores de la regresión. El segundo estudio muestra a través de representaciones gráficas la robustez que presenta la regresión en mediana frente a datos atípicos mientras que la regresión en media se ve muy perjudicada por dichas observaciones. Después se realiza una aplicación a datos reales con la base de datos Engel que proporciona el paquete quantreg de R. Para finalizar se presentan las principales conclusiones derivadas de este trabajo, así como un anexo en el que se recogen todos los códigos de R necesarios para llevar a cabo los estudios hechos a lo largo de este proyecto.
- Published
- 2019
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.