325 results on '"Ricardo Bastos"'
Search Results
202. Rice breeding: I: performance of cultivars and lines of irrigated rice in São Paulo state in 1990/91 and 1991/92
- Author
-
Mauro Sakai, Cândido Ricardo Bastos, Helena Signori Melo de Castro, Paulo Boller Gallo, Otávio Tisseli Filho, Luiz Ernesto Azzini, Omar Vieira Villela, and Jaciro Soave
- Subjects
yielding potential and stability of cultivars and breeding lines ,Materials Science (miscellaneous) ,rice ,blast resistance ,arroz ,Oryza sativa L ,resistência à brusone ,potencial e estabilidade produtiva de cultivares e linhagens ,General Agricultural and Biological Sciences - Abstract
Testaram-se cultivares e linhagens de arroz irrigado quanto a características agronômicas em diversas localidades paulistas durante os anos agrícolas 1990/91 e 1991/92. O cultivar IAC 101 e a linhagem IAC 1085 apresentaram excelente potencial e estabilidade produtiva, moderada resistência à brusone na folha e na panícula, porte baixo, resistência ao acamamento e bom rendimento de grãos inteiros no beneficiamento. A linhagem IAC 1085 apresentou, também, ciclo de florescimento precoce, constituindo genótipo altamente promissor. Os cultivares IAC 238, IAC 242 e IAC 100 também mostraram bom potencial produtivo, principalmente em 1991/92. O cultivar IAC 4440 mostrou-se altamente suscetível à brusone, tanto nas folhas como nas panículas. As linhagens IAC 1091 e IAC 1231 apresentaram resistência à brusone nas panículas, podendo servir como fontes de genes em futuros programas de melhoramento genético. Rice cultivars and selected lines were evaluated as to their yielding potential and several agronomic traits in the State of São Paulo, Brazil, during the years 1990/91 and 1991/92. The cultivar IAC 101 and the line IAC 1085 showed a good yielding potential and stability, leaf and panicle blast resistance, dwarfness, lodging resistance, and high level of head rice after milling. The line IAC 1085 also showed earliness which make it proper for late planting. The cultivars IAC 238, IAC 242 e IAC 100 also showed reasonable yielding potential mainly in 1991/92. The cultivar IAC 4440 showed high susceptibility to leaf and panicle blast. The lines IAC 1091 and IAC 1231 showed high resistance to panicle blast and can be used in future breeding programs as gene sources for that attribute.
- Published
- 1995
203. Malnutrition, anemia and renal dysfunction in patients with Chagasic cardiomyopathy
- Author
-
Fernandes, André Maurício Souza, primary, Bortoncello, Anderson Fernando Mocellin, additional, Sahade, Viviane, additional, de Macedo, Cristiano Ricardo Bastos, additional, Borges, Igor Carmo, additional, Andrade, Dafne Carvalho, additional, de Sousa, Thiago Almeida, additional, Reis, Francisco José Farias Borges dos, additional, and Júnior, Roque Aras, additional
- Published
- 2011
- Full Text
- View/download PDF
204. Sequence analysis of a cDNA encoding a human nuclear pore complex protein, hnup153
- Author
-
Ricardo Bastos, Brian Burke, Isabel M. McMorrow, and Heidi Horton
- Subjects
Zinc finger ,chemistry.chemical_classification ,DNA, Complementary ,Base Sequence ,Molecular Sequence Data ,Biophysics ,Protein primary structure ,Nucleic acid sequence ,Nuclear Proteins ,Biology ,Biochemistry ,Pentapeptide repeat ,Amino acid ,Nuclear Pore Complex Proteins ,chemistry ,Structural Biology ,Genetics ,Humans ,Nucleoporin ,Amino Acid Sequence ,Nuclear transport ,Nuclear pore ,Sequence Alignment - Abstract
Nuclear pore complexes represent the channels for the the bi-directional movement of macromolecules between the nucleus and cytoplasm, and are thought to contain upwards of 100 different polypeptide subunits. Many of these subunits belong to a growing family of polypeptides termed nucleoporins which are characterized by the presence of O-linked N-acetylglucosamine moieties and a distinctive pentapeptide repeat (XFXFG). This paper reports the primary structure of hnup153, the human homologue of the rat nucleoporin, nup153, with which it shares 82% amino acid identity. In addition to 33 copies of the XFXFG repeat, hnup153 exhibits four repeats of 37–38 amino acids each containing an apparent ‘zinc finger motif’. These zinc fingers are most closely related to those found in the mouse oncoprotein mdm-2 and a product of Drosphila small optic lobes (sol) gene.
- Published
- 1994
205. Bases de projeto para a automatização do sistema de garantia da qualidade em gerência de rejeitos radioativos
- Author
-
Smith, Ricardo Bastos, primary
- Full Text
- View/download PDF
206. Prevalência de anemia e insuficiência renal em portadores de insuficiência cardíaca não-hospitalizados
- Author
-
Reis, Francisco José Farias Borges dos, primary, Fernandes, André Maurício Souza, additional, Bitencourt, Almir Galvão Vieira, additional, Neves, Flávia Branco Cerqueira Serra, additional, Kuwano, André Yoichi, additional, França, Victor Hugo Pinheiro, additional, Macedo, Cristiano Ricardo Bastos de, additional, Cruz, Cristiano Gonçalves da, additional, Sahade, Viviane, additional, and Aras Júnior, Roque, additional
- Published
- 2009
- Full Text
- View/download PDF
207. Increase of cytokeratin D during liver regeneration: association with the nuclear matrix
- Author
-
Rocco Falchetto, Rosa Aligué, Pablo Engel, Ricardo Bastos, Oriol Bachs, and Cristina Pujades
- Subjects
Male ,Pathology ,medicine.medical_specialty ,Molecular Sequence Data ,Fluorescent Antibody Technique ,Sequence Homology ,Biology ,Antibodies ,Rats, Sprague-Dawley ,Cytokeratin ,medicine ,Animals ,Nuclear Matrix ,Northern blot ,Amino Acid Sequence ,Cytoskeleton ,Microscopy, Immunoelectron ,Cells, Cultured ,Messenger RNA ,Hepatology ,Immunogold labelling ,Nuclear matrix ,Blotting, Northern ,Molecular biology ,Immunohistochemistry ,Liver regeneration ,Liver Regeneration ,Rats ,Molecular Weight ,Cell nucleus ,medicine.anatomical_structure ,Liver ,Keratins ,RNA ,Electrophoresis, Polyacrylamide Gel - Abstract
An increase of a 45 kD protein (p45) in the nuclear matrix has been observed when rat liver cells were proliferatively activated in vivo by a partial hepatectomy. The maximal levels of the association of p45 with the nuclear matrix have been detected 24 hr after hepatectomy just at the time when DNA replication is also maximal. By amino acid sequence analysis, immunoblotting and immunocytochemical methods, it has been demonstrated that p45 is identical to rat cytokeratin D. Immunogold staining of nuclear matrix-intermediate filament preparations from cultured hepatocytes indicated that p45 is associated with cytoskeletal filaments that are strongly interconnected to the lamina, whereas no intranuclear localization of the protein has been detected. With an overlay assay a specific binding of labeled p45 to two nonidentified high-molecular weight proteins and also to lamin B has been observed. Northern blot analysis revealed a biphasic pattern of expression of the messenger RNA for cytokeratin D during liver regeneration. A sharp increase in the messenger RNA levels occurred in the prereplicative phase of liver regeneration a few hours before the accumulation of the protein in the nuclear matrix fraction, and a second peak occurred 48 hr after partial hepatectomy.
- Published
- 1992
208. OTIMIZAÇÃO DOS PARÂMETROS DE TRATAMENTO TÉRMICO DE BOLAS FORJADAS EM AÇO ALTO CARBONO LIGADO AO Cr, Mo, Nb SUJEITAS À SEVERAS CONDIÇÕES DE IMPACTO
- Author
-
Mello, Sérgio Ricardo Bastos de, additional, Tavares, Sérgio Souto Maior, additional, and Pardal, Juan Manuel, additional
- Published
- 2005
- Full Text
- View/download PDF
209. Use of oral antihypertensive medication preceding blood pressure elevation in hospitalized patients
- Author
-
Macedo, Cristiano Ricardo Bastos de, primary, Noblat, Antonio Carlos Beisl, additional, Noblat, Lúcia de Araújo Costa Beisl, additional, Macedo, Jeane Meire Sales de, additional, and Lopes, Antonio Alberto, additional
- Published
- 2001
- Full Text
- View/download PDF
210. Improving the Recovery of Lysine in Automated Protein Sequencing
- Author
-
Fontes, Wagner, primary, Cunha, Ricardo Bastos, additional, Sousa, Marcelo Valle, additional, and Morhy, Lauro, additional
- Published
- 1998
- Full Text
- View/download PDF
211. Characterization of a novel nucleolar protein
- Author
-
Erik Jansen, Tulia Maria Savino, Ricardo Bastos, and Danièle Hernandez-Verdun
- Subjects
Cell Biology ,General Medicine ,Computational biology ,Biology ,Characterization (materials science) - Published
- 1998
212. Stroke Correlates in Chagasic and Non-Chagasic Cardiomyopathies.
- Author
-
da Matta, José Alberto Martins, Aras Jr., Roque, de Macedo, Cristiano Ricardo Bastos, da Cruz, Cristiano Gonçalves, and Netto, Eduardo Martins
- Subjects
CARDIOMYOPATHIES ,EPIDEMIOLOGY ,ATRIAL fibrillation ,CARDIAC pacemakers ,HYPERTENSION ,INTRACRANIAL hypertension - Abstract
Background: Aging and migration have brought changes to the epidemiology and stroke has been shown to be independently associated with Chagas disease. We studied stroke correlates in cardiomyopathy patients with focus on the chagasic etiology. Methodology/Principal Findings: We performed a cross-sectional review of medical records of 790 patients with a cardiomyopathy. Patients with chagasic (329) and non-chagasic (461) cardiomyopathies were compared. There were 108 stroke cases, significantly more frequent in the Chagas group (17.3% versus 11.1%; p<0.01). Chagasic etiology (odds ratio [OR], 1.79), pacemaker (OR, 2.49), atrial fibrillation (OR, 3.03) and coronary artery disease (OR, 1.92) were stroke predictors in a multivariable analysis of the entire cohort. In a second step, the population was split into those with or without a Chagas-related cardiomyopathy. Univariable post-stratification stroke predictors in the Chagas cohort were pacemaker (OR, 2.73), and coronary artery disease (CAD) (OR, 2.58); while atrial fibrillation (OR, 2.98), age over 55 (OR, 2.92), hypertension (OR, 2.62) and coronary artery disease (OR, 1.94) did so in the non-Chagas cohort. Chagasic stroke patients presented a very high frequency of individuals without any vascular risk factors (40.4%; OR, 4.8). In a post-stratification logistic regression model, stroke remained associated with pacemaker (OR, 2.72) and coronary artery disease (OR, 2.60) in 322 chagasic patients, and with age over 55 (OR, 2.38), atrial fibrillation (OR 3.25) and hypertension (OR 2.12; p = 0.052) in 444 non-chagasic patients. Conclusions/Significance: Chagas cardiomyopathy presented both a higher frequency of stroke and an independent association with it. There was a high frequency of strokes without any vascular risk factors in the Chagas as opposed to the non-Chagas cohort. Pacemaker rhythm and CAD were independently associated with stroke in the Chagas group while age over 55 years, hypertension and atrial fibrillation did so in the non-Chagas cardiomyopathies. [ABSTRACT FROM AUTHOR]
- Published
- 2012
- Full Text
- View/download PDF
213. Changes in the phosphorylation pattern of proteins from activated hepatocytes
- Author
-
Ricardo Bastos, Rosa Aligué, and Oriol Bachs
- Subjects
Chemistry ,Phosphorylation ,Cell Biology ,Cell biology - Published
- 1990
214. Intranuclear localization of a keratin-like protein
- Author
-
Ricardo Bastos, Oriol Bachs, Rosa Aligué, and Joan Serratosa
- Subjects
chemistry.chemical_classification ,chemistry ,Keratin ,Cell Biology ,Cell biology - Published
- 1990
215. Identification of nuclear calmodulin-binding proteins
- Author
-
Oriol Bachs, Joan Serratosa, M Josepcoll, L Lanini, E Carafoli, Rosa Aligué, Ricardo Bastos, and Eulàlia Rius
- Subjects
Biochemistry ,Chemistry ,Identification (biology) ,Cell Biology ,Calmodulin-binding proteins - Published
- 1990
216. Densidade básica do colmo e sua correlação com os valores de brix e pol em cana-de-açúcar Correlation between brix and pol values of sugarcane and culm basic density
- Author
-
Anisio Azzini, Marco Antonio Teixeira Zullo, Maria Carla Queiroz de Arruda, Cândido Ricardo Bastos, and Antônio Alberto Costa
- Subjects
Saccharum spp ,Pol ,concentração ,cana-de-açúcar ,sacarose ,sugarcane ,densidade básica ,basic density ,Brix ,sucrose concentration ,lcsh:Agriculture (General) ,lcsh:S1-972 - Abstract
Neste estudo procurou-se estabelecer as correlações entre a densidade básica do colmo e os valores de Brix e Pol em diversas variedades e "seedlings" de cana-de-açucar, visando ao estabelecimento de um método expedito e semiquantitativo de análise. Os resultados obtidos mostraram correlações significativas (p > 99%) entre a densidade básica do colmo e os valores obtidos para Brix e Pol, principalmente para a região mediana do colmo. Desse modo, a densidade básica do colmo pode ser utilizada como um método expedito de análise para avaliar a concentração de sacarose em cana-de-açúcar.The correlation between the refractometric (Brix) and polarimetric (Pol) determinations and the culm basic density was determined. The objective was to establish a fast and semiquantitative method for sugarcane analysis, regarding sucrose determination in the culm. The results showed a significant correlation (p > 0.99) between the basic density and each of the values of Brix and Pol, mainly for the median portion of the culm. It was concluded that the culm basic density can be utilized as a speedy method to estimate the sucrose concentration of sugarcane culms.
- Published
- 1986
217. Melhoramento da cana-de-açúcar IIa: experimentos regionais com clones obtidos em 1967 Sugarcane breeding: IIª experiments with clones obtained in 1967
- Author
-
Raphael Alvarez, Candido Ricardo Bastos, Antonio Lazzarini Segalla, Helcio de Oliveira, Gentil Godoy Jr., Celso Valdevino Pommer, Oswaldo Brinholi, and Antônio Ernesto Dalben
- Subjects
lcsh:Agriculture (General) ,lcsh:S1-972 - Abstract
Uma série de clones obtidos em programas de melhoramento iniciado em 1967, no Instituto Agronômico, foi testada em quatro experimentos conduzidos em terras das diversas regiões canavieiras paulistas. No trabalho, iniciado em 1974, usando como testemunhas as variedades comerciais 'IAC 52-150', 'IAC 52-326', 'IAC 58-480', 'CB 41-76' e 'NA 56-79', foram feitas três colheitas em cada experimento: cana-planta, soca e ressoca, sendo as análises estatísticas executadas com as médias das três. Os clones 67-112, 67-48, 67-145 e 67-122 tiveram produção de cana superior à das testemunhas; os clones 67-19, 67-6, 67-14, 67-28, 67-21 e 67-7 não diferiram da melhor testemunha, a 'IAC 58-480', nessa característica. O clone 67-139 apresentou teor de açúcar superior ao de todos os tratamentos; o 67-55 teve teor de açúcar semelhante ao das três melhores testemunhas. Em produção de açúcar por área, o clone 67-112 foi superior a todos os outros tratamentos, com exceção do 67-122. Este último, juntamente com o 67-48, 67-12, 67-47 e 67-145, não diferiu das três melhores testemunhas nessa característica. Os clones 67-12, 67-47, 67-48, 67-55, 67-112, 67-122 e 67-139 foram considerados novas variedades, recebendo o prefixo IAC.A lot of sugarcane clones obtained out of a breeding program started in 1967 was tested in a series of experiments. The experiments were carried out at the IAC Experiment Station, at Piracicaba, on a Ortho Dark Red Latosol soil, and in the property of the mills: Santa Elisa (Sertãozinho, Dusky Red Latosol), Itaiquara (Tapiratiba, Humic Red-Yellow Latosol soil) and Catanduva (Ariranha, Podzolized soils on calcareous sandstone, Marilia variation). The field trials started in 1974, and the commercial varieties 'IAC 52-150', 'IAC 52-326', 'IAC 58-480', 'CB. 41-76' and 'NA 56-79' were used as controls, as they represent about 70% of the sugarcane area in the São Paulo State, Brazil. Three harvests were done consecutively in plant cane (18 months), first ratoon (12 months after) and second ratoon (12 months). Statistical analysis were made in a three harvest mean for all experiments. It was found out that clones 67-112, 67-48, 67-145 and 67-122 had a cane yield superior to that of the controls. Clones 67-19, 67-6, 67-14, 67-28, 67-21 and 67-7 were not statistically different from the best control, 'IAC 58-480'. Clone 67-139 had a sugar content superior to the all the other treatments. On the other hand, clone 67-55 had a sugar content similar to that of the three best controls. In sugar yield, clone 67-112 was superior to all the other treatments, except 67-122. This one, as well as clones 67-48, 67-12, 67-47 and 67-145 were not different from the three best controls. Clones 67-12, 67-47, 67-48, 67-55, 67-112, 67-122 and 67-139 were considered as new varieties, receiving the prefix IAC.
- Published
- 1983
218. Melhoramento da cana-de-açúcar: IV. Experimentos regionais com clones obtidos em 1969 Sugarcane breeding: IV. Regional experiments with clones obtained in 1969
- Author
-
Raphael Alvarez, Celso Valdevino Pommer, Candido Ricardo Bastos, Osvaldo Brinholi, Gentil Godoy Júnior, and Virginio Bovi
- Subjects
lcsh:Agriculture (General) ,lcsh:S1-972 - Abstract
Os 25 clones mais promissores obtidos em programa de melhoramento da cana-de-açúcar do Instituto Agronômico, iniciado em 1969, foram testados em três experimentos efetuados em regiões canavieiras do Estado de São Paulo. A instalação dos ensaios deu-se em 1977 e, como testemunhas, utilizaram-se as variedades comerciais IAC51-205, IAC52-150, IAC58-480 NA56-79 e CB41-76. Colheram-se cana-planta, soca e ressoca nos três experimentos, sendo as médias das três colheitas utilizadas para as análises estatísticas. Os clones 69-362 e 69-326 não diferiram da melhor testemunha em produção de cana, a IAC51-205. Nessa característica, os clones 69-426, 69-425, 69-274, 69-84, 69-87 e 69-242 tiveram desempenho semelhante ao da NA56-79, segunda melhor testemunha. No teor de açúcar, destacaram-se os clones 69-309, 69-242. 69-232 e 69-362, com médias elevadas, e ainda 69-238, 69-274, 69-218, 69-254, 69-190, 69-420 e 69-277, nenhum deles diferindo da melhor testemunha, a NA56-79. Os clones 69-362, 69-242 e 69-274 tiveram comportamento semelhante ao das melhores testemunhas, no tocante à produção de açúcar por área, que foram IAC51-205 e NA56-79. Desta última, também não diferiu o clone 69-426. Foram considerados como novas variedades os clones IAC69-242, IAC69-274, IAC69-309, IAC69-362, IAC-69-425 e IAC69-426.The best twenty five clones, obtained in a sugar cane breeding program of "Instituto Agronômico de Campinas" started in 1969, were evaluated in a series of three experiments carried out at sugar cane regions of Sao Paulo State, Brazil. In 1977 started the field trials using as controls the following commercial varieties: IAC51205, IAC52-150, IAC58-480, NA56-79, and CB41-76. The experimental design used was a randomized complete block with four replications. Three harvests were made consecutivelly in plant cane (18 months), first ratoon (12 months after), and second ratoon (12 months after). Means of the three harvest were analyzed statistically and Tukey's test procedure was used to test differences among treatment means. The cane yield results showed that clones 69-362 and 69-326 were not statistically different from the best control IAC51-205, and clones 69-426, 69-425, 69-274, 69-84, 69-87 and 69-242 showed cane yield results equal to the second best control NA56-79. Clones 69-309, 69-242, 69-232 and 69-362 had an outstanding performance in sugar content; on the other hand, clones 69-238, 69-274, 69-218, 69-254, 69-190. 69-420 and 69-277 had sugar content similar to that of best control NA56-79. Considering sugar yield, clones 69-362, 69-242, and 69-274 were not statistically different from the two best controls IAC51-205 and NA56-79, besides the clone 69-426 that showed to be equal to NA56-79, in this, characteristic. According to the results new varieties are presented: IAC69-242, IAC69-274, IAC69-309, IAC69-362, IAC69-425 and IAC69-426.
- Published
- 1984
219. Melhoramento da cana-de-açúcar IIa: experimentos regionais com clones obtidos em 1967
- Author
-
Oswaldo Brinholi, Celso Valdevino Pommer, Gentil Godoy Jr., Hélcio de Oliveira, Candido Ricardo Bastos, Raphael Alvarez, A. L. Segalla, and Antônio Ernesto Dalben
- Subjects
biology ,Breeding program ,Test procedures ,business.industry ,Materials Science (miscellaneous) ,Sugar cane ,biology.organism_classification ,Biotechnology ,Horticulture ,Cane ,General Agricultural and Biological Sciences ,Sugar yield ,Sugar ,business - Abstract
The best twenty five clones, obtained in a sugar cane breeding program of "Instituto Agronomico de Campinas" started in 1969, were evaluated in a series of three experiments carried out at sugar cane regions of Sao Paulo State, Brazil. In 1977 started the field trials using as controls the following commercial varieties: IAC51205, IAC52-150, IAC58-480, NA56-79, and CB41-76. The experimental design used was a randomized complete block with four replications. Three harvests were made consecutivelly in plant cane (18 months), first ratoon (12 months after), and second ratoon (12 months after). Means of the three harvest were analyzed statistically and Tukey's test procedure was used to test differences among treatment means. The cane yield results showed that clones 69-362 and 69-326 were not statistically different from the best control IAC51-205, and clones 69-426, 69-425, 69-274, 69-84, 69-87 and 69-242 showed cane yield results equal to the second best control NA56-79. Clones 69-309, 69-242, 69-232 and 69-362 had an outstanding performance in sugar content; on the other hand, clones 69-238, 69-274, 69-218, 69-254, 69-190. 69-420 and 69-277 had sugar content similar to that of best control NA56-79. Considering sugar yield, clones 69-362, 69-242, and 69-274 were not statistically different from the two best controls IAC51-205 and NA56-79, besides the clone 69-426 that showed to be equal to NA56-79, in this, characteristic. According to the results new varieties are presented: IAC69-242, IAC69-274, IAC69-309, IAC69-362, IAC69-425 and IAC69-426.
- Published
- 1983
220. Design and feasibility of thermally tuned thin film filters for NG-PON2 system applications
- Author
-
Ricardo Bastos, Berta Neto, Jonathan Rodriguez, Antônio Lúcio Teixeira, and Zoran Vujicic
- Subjects
Materials science ,business.industry ,02 engineering and technology ,Atomic and Molecular Physics, and Optics ,Electronic, Optical and Magnetic Materials ,020210 optoelectronics & photonics ,Control and Systems Engineering ,0202 electrical engineering, electronic engineering, information engineering ,Optoelectronics ,Electrical and Electronic Engineering ,Thin film ,NG-PON2 ,business ,Instrumentation ,Electrical efficiency - Abstract
We investigate the feasibility of low-cost, compact optical filtering for NG-PON2 based on thermally-tuned thin film filters. By considering several contrasting designs in a comparative assessment of their optical performance, complexity, tuning time and power efficiency, we identify relevant technical tradeoffs towards their optimized and low-cost application in NG-PON2 systems.
- Full Text
- View/download PDF
221. Densidade básica do colmo e sua correlação com os valores de brix e pol em cana-de-açúcar
- Author
-
Anísio Azzini, Maria Carla Queiroz de Arruda, Marco Antonio Teixeira Zullo, Antonio Alberto Costa, and Cândido Ricardo Bastos
- Subjects
Brix ,Saccharum spp ,Sucrose ,concentração ,cana-de-açúcar ,Materials Science (miscellaneous) ,densidade básica ,Correlation ,chemistry.chemical_compound ,Horticulture ,Pol ,chemistry ,sacarose ,sugarcane ,Botany ,basic density ,Basic density ,sucrose concentration ,General Agricultural and Biological Sciences ,Mathematics - Abstract
Neste estudo procurou-se estabelecer as correlações entre a densidade básica do colmo e os valores de Brix e Pol em diversas variedades e "seedlings" de cana-de-açucar, visando ao estabelecimento de um método expedito e semiquantitativo de análise. Os resultados obtidos mostraram correlações significativas (p > 99%) entre a densidade básica do colmo e os valores obtidos para Brix e Pol, principalmente para a região mediana do colmo. Desse modo, a densidade básica do colmo pode ser utilizada como um método expedito de análise para avaliar a concentração de sacarose em cana-de-açúcar. The correlation between the refractometric (Brix) and polarimetric (Pol) determinations and the culm basic density was determined. The objective was to establish a fast and semiquantitative method for sugarcane analysis, regarding sucrose determination in the culm. The results showed a significant correlation (p > 0.99) between the basic density and each of the values of Brix and Pol, mainly for the median portion of the culm. It was concluded that the culm basic density can be utilized as a speedy method to estimate the sucrose concentration of sugarcane culms.
- Published
- 1986
222. Sugarcane breeding: IV. Regional experiments with clones obtained in 1969
- Author
-
Raphael Alvarez, Osvaldo Brinholi, Celso Valdevino Pommer, Gentil Godoy Júnior, Candido Ricardo Bastos, and Virginio Bovi
- Subjects
Agronomy ,Materials Science (miscellaneous) ,Biology ,General Agricultural and Biological Sciences - Abstract
Os 25 clones mais promissores obtidos em programa de melhoramento da cana-de-açúcar do Instituto Agronômico, iniciado em 1969, foram testados em três experimentos efetuados em regiões canavieiras do Estado de São Paulo. A instalação dos ensaios deu-se em 1977 e, como testemunhas, utilizaram-se as variedades comerciais IAC51-205, IAC52-150, IAC58-480 NA56-79 e CB41-76. Colheram-se cana-planta, soca e ressoca nos três experimentos, sendo as médias das três colheitas utilizadas para as análises estatísticas. Os clones 69-362 e 69-326 não diferiram da melhor testemunha em produção de cana, a IAC51-205. Nessa característica, os clones 69-426, 69-425, 69-274, 69-84, 69-87 e 69-242 tiveram desempenho semelhante ao da NA56-79, segunda melhor testemunha. No teor de açúcar, destacaram-se os clones 69-309, 69-242. 69-232 e 69-362, com médias elevadas, e ainda 69-238, 69-274, 69-218, 69-254, 69-190, 69-420 e 69-277, nenhum deles diferindo da melhor testemunha, a NA56-79. Os clones 69-362, 69-242 e 69-274 tiveram comportamento semelhante ao das melhores testemunhas, no tocante à produção de açúcar por área, que foram IAC51-205 e NA56-79. Desta última, também não diferiu o clone 69-426. Foram considerados como novas variedades os clones IAC69-242, IAC69-274, IAC69-309, IAC69-362, IAC-69-425 e IAC69-426. The best twenty five clones, obtained in a sugar cane breeding program of "Instituto Agronômico de Campinas" started in 1969, were evaluated in a series of three experiments carried out at sugar cane regions of Sao Paulo State, Brazil. In 1977 started the field trials using as controls the following commercial varieties: IAC51205, IAC52-150, IAC58-480, NA56-79, and CB41-76. The experimental design used was a randomized complete block with four replications. Three harvests were made consecutivelly in plant cane (18 months), first ratoon (12 months after), and second ratoon (12 months after). Means of the three harvest were analyzed statistically and Tukey's test procedure was used to test differences among treatment means. The cane yield results showed that clones 69-362 and 69-326 were not statistically different from the best control IAC51-205, and clones 69-426, 69-425, 69-274, 69-84, 69-87 and 69-242 showed cane yield results equal to the second best control NA56-79. Clones 69-309, 69-242, 69-232 and 69-362 had an outstanding performance in sugar content; on the other hand, clones 69-238, 69-274, 69-218, 69-254, 69-190. 69-420 and 69-277 had sugar content similar to that of best control NA56-79. Considering sugar yield, clones 69-362, 69-242, and 69-274 were not statistically different from the two best controls IAC51-205 and NA56-79, besides the clone 69-426 that showed to be equal to NA56-79, in this, characteristic. According to the results new varieties are presented: IAC69-242, IAC69-274, IAC69-309, IAC69-362, IAC69-425 and IAC69-426.
- Published
- 1984
223. SLAM Family Receptors and Autoimmunity
- Author
-
Jordi Sintes, Pablo Engel, and Ricardo Bastos
- Subjects
Cell signaling ,Malalties autoimmunitàries ,Autoimmune diseases ,Biology ,medicine.disease_cause ,Autoimmunity ,Immune system ,Antigen ,Immunology ,Autoimmune disease ,medicine ,Genetic predisposition ,Allele ,Receptor ,Function (biology) - Abstract
The immune system is responsible for the defense against a wide array of pathogens but without responding to each individual’s (self) antigens. Autoimmune diseases are characterized by a loss of tolerance to self antigens that leads to the appearance of autoreactive lymphocytes. The main factors that contribute to the development of autoimmunity are genetic susceptibility and infection. Disease susceptibility is the result of the combined action of multiple genes. It has been shown that certain gene polymorphisms can influence the establishment of self-tolerance. The human immune system is a complex machinery involving numerous proteins. Cell-surface proteins expressed by leukocytes are of particular relevance due not only to their participation in the network of interactions that regulate the innate and adaptive immune responses, but also to their potential as excellent targets for diagnostic and therapeutic interventions (Diaz-Ramos et al., 2011). These molecules deliver signals that modulate leukocyte development, activation, survival, clonal expansion, and important effector functions. Some of these cell-surface signaling molecules have the capacity to activate lymphocytes and other leukocytes, while others function as downmodulators of immune responses, playing a key role in the establishment of tolerance to self antigens. Thus, it is not surprising that many of the allelic variants associated with autoimmunity identified, to date, correspond to leukocyte cell-surface molecules (Maier & Hafler, 2009). In this review we will discuss recent observations that point to a key role of signaling lymphocyte activation molecule family (SLAMF) receptors in the development of autoimmunity.
224. Calmodulin-binding proteins in the nuclei of quiescent and proliferatively activated rat liver cells
- Author
-
Oriol Bachs, Joan Serratosa, L Lanini, E Carafoli, Eulàlia Rius, Maria Josep Coll, Ricardo Bastos, and Rosa Aligué
- Subjects
Myosin light-chain kinase ,Blotting, Western ,macromolecular substances ,Biochemistry ,medicine ,Animals ,Nuclear pore ,Molecular Biology ,Myosin-Light-Chain Kinase ,Cell Nucleus ,biology ,Nuclear Proteins ,Spectrin ,Cell Biology ,Nuclear matrix ,Calmodulin-binding proteins ,Molecular biology ,Immunohistochemistry ,Cell biology ,Rats ,Molecular Weight ,Cell nucleus ,Caldesmon ,medicine.anatomical_structure ,Liver ,biology.protein ,Nuclear lamina ,Calmodulin-Binding Proteins ,Lamin ,Cell Division - Abstract
alpha-Spectrin, myosin light chain kinase (MLCK), and caldesmon have been detected in the nuclei of rat liver cells by 125I-calmodulin overlay, immunoblotting, and immunocytochemical methods. alpha-Spectrin is localized in the nuclear matrix, nuclear envelope, and nuclear pores. It has also been detected inside the nuclei in the form of small aggregates. MLCK is present in the nuclear matrix, envelope, nucleoli, and in a nuclease extract (S1 subfraction) but not in the nuclear pores. Caldesmon shows a diffuse distribution pattern inside the nuclei but it is not present in the nucleoli. Since all these proteins are components of the actin-myosin motility systems the presence of actin in the different nuclear subfractions has also been investigated: actin is present in the nuclear matrix, nuclear envelope, nucleoli, and nuclear pores. Proliferative activation of rat liver cells in vivo by partial hepatectomy induces the increase of alpha-spectrin, MLCK, and actin in different nuclear subfractions. This, together with the increase of nuclear calmodulin at the same time after hepatectomy (Pujol, M. J., Soriano, M., Aligue, R., Carafoli, E., and Bachs, O. (1989) J. Biol. Chem. 264, 18863-18865), indicates that nuclear calmodulin could activate a nuclear contractile system during proliferative activation. A 62-kDa protein (p62) which binds to calmodulin columns and shows immunological similarities to caldesmon is specifically located in the region surrounding the nuclear envelope and is associated with the heterochromatin.
225. La investigación artística como experiencia de viaje
- Author
-
Fabio Ricardo Bastos Gomes
- Subjects
investigación artística ,viaje ,experiencia ,Arts in general ,NX1-820 ,Visual arts ,N1-9211 - Abstract
Este ensayo propone reflexiones acerca de la posibilidad de pensar la investigación artística como una experiencia de viaje. Con esta analogía, se intenta estudiar los aspectos importantes acerca del proceso creativo de las personas artistas como un recorrido en busca de nuevas perspectivas y autodescubrimiento. Considerar la investigación artística como un viaje es destacar la relevancia del desarrollo investigativo-creativo, ya que centra la atención en vivenciar, experimentar, aprender y encontrar caminos diversos con el intuito de enriquecer tanto las obras de arte, como la producción de conocimientos y las experiencias de las personas investigadoras. Cada obra producida durante la investigación puede ser vista como un testimonio del itinerario del viaje. La investigación artística entendida como viaje invita a las personas artistas a abrazar la aventura, a explorar con curiosidad y a permitir la fluidez de la creatividad, generando un ciclo continuo de aprendizajes y descubrimientos.
- Published
- 2024
- Full Text
- View/download PDF
226. Generalização de domínio, invariância, e a Floresta Temporalmente Robusta
- Author
-
Luis Gustavo Moneda dos Santos, Denis Deratani Mauá, Rodrigo Fernandes de Mello, and Ricardo Bastos Cavalcante Prudêncio
- Abstract
As time passes by, the performance of real-world predictive models degrades due to distributional shifts. Typical countermeasures, such as retraining and online learning, can be costly and difficult to implement in production, especially when business constraints and culture are accounted for. Causality-based approaches aim at identifying invariant mechanisms from data, thus leading to more robust predictors at the possible expense of a decrease in short-term performance. However, most such approaches scale poorly to high dimensions or require extra knowledge such as segmentation of the data in representative environments. In this work, we review the literature on the limitations of Machine Learning in real settings, with a focus on approaches that use causality concepts to improve generalization. Motivated by the shortcomings discussed above, we develop Time Robust Forests (TRF), a new algorithm for inducing decision trees with an inductive bias towards learning time-invariant rules. The algorithm\'s main innovation is to replace the usual information-gain split criterion (or similar) with a new criterion that examines the imbalance among classes induced by the split through time. Experiments with real data show that our approach can improve long-term generalization, thus offering an interesting alternative for dynamical classification problems. Com o passar do tempo, o desempenho de modelos preditivos em dados reais degrada devido a mudanças na distribuição dos dados. Medidas típicas como o retreino e aprendizado em tempo-real podem ser custosas e difíceis de implementar em produção, especialmente quando restrições de negócio e cultura organizacional são levados em conta. Abordagens baseadas em causalidade buscam identificar mecanismos invariantes nos dados, resultando em preditores mais robustos às custas da diminuição de desempenho no curto prazo. Grande parte dessas abordagens, porém, não escala bem com alta dimensionalidade, ou requer conhecimento extra, tal como a segmentação do conjunto de dados em ambientes representativos. Neste trabalho, revisamos a literatura sobre as limitações do Aprendizado de Máquina em cenários reais com um foco em abordagens que usam conceitos de causalidade para melhorar a generalização. Motivados pelas deficiências discutidas acima, desenvolvemos a Floresta Temporalmente Robusta (TRF), um novo algoritmo para induzir árvores de decisão com um viés indutivo para o aprendizado de regras temporalmente invariantes. A inovação do algoritmo está em substituir o habitual critério para divisão baseado em ganho de informação por um novo critério que toma em consideração o desbalanceamento entre as classes a serem separadas em uma perspectiva temporal. Experimentos com dados vindos de aplicações reais mostram que nossa abordagem pode melhorar a generalização no longo prazo, oferecendo desta forma uma alternativa para problemas de classificação de caráter dinâmico.
- Published
- 2021
227. Positive and unlabeled learning through label propagation in graphs
- Author
-
Julio Cesar Carnevali, Alneu de Andrade Lopes, Lilian Berton, Alípio Mário Guedes Jorge, and Ricardo Bastos Cavalcante Prudêncio
- Abstract
O aprendizado semissupervisionado baseado em uma única classe, amplamente conhecido pelo termo em inglês Positive and Unlabeled Learning (PUL), é um método atrativo para aplicações práticas, pois o usuário só precisa rotular documentos de seu interesse, evitando o esforço de rotular documentos para todas as classes da coleção, tarefa necessária nos métodos multiclasse. Além dos documentos de interesse do usuário, são utilizados também documentos não rotulados durante o processo de aprendizagem, para então classificar os documentos entre classe de interesse ou não (também denominados como documentos positivos e negativos respectivamente). Esse método de aprendizado pode ser utilizado para construir modelos de classificação, recuperação de informação, ou sistemas de recomendação. As abordagens PUL encontradas na literatura raramente fazem uso da representação de dados por meio de grafos. Dado que esse meio de representação de dados é pouco explorado no contexto de PUL, e dado que seu uso em abordagens do aprendizado semissupervisionado para classificação de textos produz resultados tão bons quanto e até melhores que abordagens baseadas no modelo espaço-vetorial, neste projeto de mestrado, é proposto uma abordagem baseada em grafo para PUL denominada, Label Propagation for Positive and Unlabeled Learning (LP-PUL). O método proposto consiste de 3 etapas: (i) construção do grafo para representação da coleção textual, (ii) identificação de documentos negativos, e (iii) propagação dos rótulos positivo e negativo para os demais documentos não rotulados. Foi realizada uma extensa avaliação empírica utilizando um grande número de coleções e parâmetros para cada algoritmo utilizado. Durante a avaliação, foi medido o impacto das diferentes escolhas de algoritmos para cada etapa acima mencionadas. Além disso, o método proposto foi comparado com algoritmos PUL baseados em grafos e no modelo espaço-vetorial. Ao final, foi demonstrado que o método proposto obtém melhor performance de classificação que os demais algoritmos PUL. Positive and Unlabeled Learning (PUL) is an attractive learning approach for real applications since the user has to label only documents of his class of interest. Therefore, the user spends no effort to label documents of all classes in the collection, necessary task in the case of multiclass methods. In addition to the labeled interest documents, the PUL uses unlabeled documents to classify all the documents as documents of interest (positive documents) or not (negative documents). This learning approach can be used to train classification models, to perform information retrieval or recommendation systems. In the literature, the PUL approaches based on graphs are the minority, and the graph-based approaches used in the semi-supervised text classification task have proved to surpass the classification performance of the vector space model-based approaches. Based on these statements, we proposed a graph-based approach for PUL, called Label Propagation for Positive and Unlabeled Learning (LP-PUL). The proposed framework consists of three steps: (i) building a similarity graph, (ii) identifying reliable negative documents, and (iii) performing label propagation to classify the remaining unlabeled documents as positive or negative. We carried out an extensive empirical evaluation using several text collections and parameters for each algorithm. The empirical evaluation measured the impact of the different algorithms for each step of the proposed framework. We also compared the proposed algorithm with vector space-based and graph-based ones, and then was demonstrated that the proposal surpasses the classification performances of other PUL algorithms.
- Published
- 2020
228. Stroke correlates in chagasic and non-chagasic cardiomyopathies.
- Author
-
José Alberto Martins da Matta, Roque Aras, Cristiano Ricardo Bastos de Macedo, Cristiano Gonçalves da Cruz, and Eduardo Martins Netto
- Subjects
Medicine ,Science - Abstract
BACKGROUND: Aging and migration have brought changes to the epidemiology and stroke has been shown to be independently associated with Chagas disease. We studied stroke correlates in cardiomyopathy patients with focus on the chagasic etiology. METHODOLOGY/PRINCIPAL FINDINGS: We performed a cross-sectional review of medical records of 790 patients with a cardiomyopathy. Patients with chagasic (329) and non-chagasic (461) cardiomyopathies were compared. There were 108 stroke cases, significantly more frequent in the Chagas group (17.3% versus 11.1%; p
- Published
- 2012
- Full Text
- View/download PDF
229. Label noise detection under Noise at Random model with ensemble filters
- Author
-
MOURA, Kecia Gomes de, PRUDÊNCIO, Ricardo Bastos Cavalcante, and CAVALCANTI, George Darmiton da Cunha
- Subjects
Machine Learning ,Ruído Aleatório ,Detecção de Ruído ,Combinação de Classificadores - Abstract
CNPq Label noise detection has been widely studied in Machine Learning due to its importance to improve training data quality. Satisfactory noise detection has been achieved by adopting an ensemble of classifiers. In this approach, an instance is assigned as mislabeled if a high proportion of members in the pool misclassifies that instance. Previous authors have empirically evaluated this approach with results in accuracy, nevertheless, they mostly assumed that label noise is generated completely at random in a dataset. This is a strong assumption since there are other types of label noise which are feasible in practice and can influence noise detection results. This work investigates the performance of ensemble noise detection in two different noise models: the Noisy at Random (NAR), in which the probability of label noise depends on the instance class, in comparison to the Noisy Completely at Random model, in which the probability of label noise is completely independent. In this setting, we also investigate the effect of class distribution on noise detection performance, since it changes the total noise level observed in a dataset under the NAR assumption. Further, an evaluation of the ensemble vote threshold is carried out to contrast with the most common approaches in the literature. Finally, it is shown in a number of performed experiments that the choice of a noise generation model over another can lead to distinct results when taking into consideration aspects such as class imbalance and noise level ratio among different classes. A detecção de ruído de dados tem sido amplamente estudada em Aprendizagem de Máquina devido à sua importância para melhorar a qualidade dos dados de treinamento. Uma detecção de ruído satisfatória tem sido conseguida através da utilização de um conjunto de classificadores (ensemble). Nessa abordagem, uma instância é considerada como rotulada erroneamente se uma alta proporção de classificadores a classificarem incorretamente. Trabalhos anteriores avaliaram empiricamente esta abordagem obtendo resultados na acurácia. No entanto, a maioria deles, assumem que o ruído de rótulo é gerado completamente ao acaso em um conjunto de dados. Essa suposição singular pode induzir em erro ou a resultados incompletos uma vez que existem outros tipos de ruídos de rótulo que são viáveis na prática e podem influenciar os resultados de detecção. Este trabalho investiga o desempenho da detecção de ruído levando em consideração o modelo "Noisy at Random" (NAR), no qual a probabilidade de ruído de rótulo depende da classe da instância, em comparação ao modelo "Noisy Completely at Random" (NCAR), em que o ruído de rótulo é totalmente aleatório. Nesse cenário, também investigamos o efeito do desbalanceamento de classes no desempenho da detecção de ruído, uma vez que essa desproporção altera o nível total de ruído observado quando há a suposição de NAR. Além disso, uma avaliação do limiar para a votação do ensemble é realizada para contrastar com as abordagens mais comuns na literatura. Finalmente, é demonstrado em vários experimentos realizados que a escolha por um modelo de geração de ruído em detrimento de outro pode levar a resultados distintos considerando-se aspectos como desbalanceamento de classes e proporção de ruído em cada classe.
- Published
- 2019
230. Uma arquitetura para teste de sistemas de reconhecimento da fala com geração automática de áudios
- Author
-
OLIVEIRA, Chaina Santos and PRUDÊNCIO, Ricardo Bastos Cavalcante
- Subjects
Engenharia de software ,Teste de software ,Sintetização da fala - Abstract
CNPq As aplicações que utilizam sistemas de reconhecimento de fala (speech to text - STT) estão em ascendência nos últimos anos. Tal crescimento se deu tanto pela evolução de pesquisas acadêmicas na área, quanto pela facilidade de comunicação via fala. Esses tipos de software têm simplificado a interação entre humanos e máquinas (e.g., sistemas para smartphones, smart home, smart cities, etc.). Tais aplicações possuem uma variedade de usuários (nacionalidades, sotaques e gêneros diferentes) que influenciam diretamente na avaliação da qualidade de tais sistemas. Os usuários são exigentes e as diferenças anteriormente citadas devem ser levadas em consideração no momento de avaliar tais aplicações. Uma das atividades fundamentais na garantia da qualidade em aplicações que utilizam sistemas STT é o teste de SW. Para tal, faz-se necessário a utilização de técnicas que consigam reproduzir as variações da fala humana para a obtenção de resultados mais expressivos e, com isso, evitar o uso de pessoas (fala gravada) devido aos altos custos e disponibilidade. Diante disso, o uso de falas sintéticas para teste de sistemas STT seria uma opção às falas humanas devido ao seu baixo custo e praticidade de obtenção. Dado esse contexto, o presente trabalho propõe uma arquitetura para testes de sistemas STT com áudios sintetizados utilizando quatro abordagens de síntese diferentes. Para a validação do uso de áudios sintéticos como uma alternativa aos gravados, foram realizados experimentos automatizados (aplicados a sistemas de STT em smartphones) e baseados na opinião de pessoas (i.e., teste de Turing e de qualidade). Ambos os experimentos utilizaram um ambiente real de teste de SW nas dependências do projeto CIn-Motorola. In recent years, applications that use speech-to-text (STT) systems are in the ascendancy. Such growth is due to the evolution of academic research in the area and to the ease of communication through speech. These softwares have simplified the interaction between humans and machines (e.g., systems for smartphones, smart home, smart cities, etc.). Such applications have a variety of users (different nationalities, accents and genres) that directly influence the quality evaluation of such systems. Users are demanding and the differences mentioned above should be taken into account when evaluating such applications. One of the fundamental activities in quality assurance in applications using STT systems is the SW test. It is necessary to use techniques that can reproduce the variations of human speech to obtain more expressive results, and thus avoid the use of people (recorded speech) due to the high costs and availability. Therefore, the use of synthetic speeches to test STT systems is an option to substitute human speech because of its low cost and practicality of obtaining. Given this context, the present work proposes an architecture for testing STT systems with audios synthesized using four different synthesis approaches. For the evaluation of the use of synthetic audios as an alternative to the recorded ones, automated experiments (applied to STT systems in smartphones) and based on the opinion of people (i.e., Turing test and quality) were made. Both experiments used a real SW test environment in the CIn-Motorola project dependencies.
- Published
- 2019
231. AVS: uma ferramenta para mitigação de duplicação de relatórios de erros em empresas de desenvolvimento mobile
- Author
-
SANTOS, Ivan Valentim and PRUDÊNCIO, Ricardo Bastos Cavalcante
- Subjects
Recuperação da informação ,Inteligência artificial ,Mineração de texto - Abstract
FACEPE A adoção de sistemas de gerenciamento de relatórios de erros é algo fundamental em empresas de software durante o processo de produção/teste. Os tipos de informação e a grande quantidade de dados armazenados nesses sistemas levam a desafios que dificultam na produtividade dos processos relacionados à eficiência do rastreamento dos dados, como, por exemplo, a presença de relatórios de erros duplicados. Estudos demonstram que a quantidade de relatórios de erros duplicados pode afetar diretamente na produtividade de uma empresa. Idealmente, um relatório de erro duplicado deve ser identificado antes de ser criado por testadores. Em alguns casos, os gerenciadores de relatórios de erros são apontados como responsáveis por parte desse problema, devido às limitações existentes em seus sistemas de busca. Esta dissertação tem como propósito investigar abordagens e técnicas que possam contribuir para mitigação dos altos índices de relatórios de erros duplicados. Para tal, desenvolvemos a AVS (Automatic Versatile Search tool), uma ferramenta de buscas que contribui para a identificação de relatórios de erros com base em técnicas de Recuperação de Informações e Mineração de Texto, visando dar suporte aos GRE (Gerenciadores de Relatórios de erros) para diminuir a ocorrência de relatórios duplicados. Como prova de conceito, implementamos a AVS no contexto do Centro de Teste da Motorola (CTM) no Centro de Informática da UFPE. Toda pesquisa por um relatório de erro candidato a ser aberto é preprocessada. Então, a semelhança entre a busca (i.e., representada por um resumo de um erro candidato a ser um novo relatório) e os relatórios disponíveis no banco de dados é calculada, gerando uma lista de relatórios anteriores ranqueada por similaridade. No final, os relatórios de erros são divididos em grupos, onde seus dados são relacionados de acordo com as semelhanças entre suas sentenças ou palavras chaves, visando produzir um processo mais avançado de identificação de potenciais duplicações. Após um estudo de caso realizado, foi constatada a utilidade da ferramenta principalmente com relação a ganhos de precisão e agilidade do processo de buscas, o que consequentemente, colaborou para melhoraria na produtividade do processo. The adoption of error reporting systems is fundamental in software companies during the production/testing process. The types of information and a large amount of data stored in these systems lead to challenges that hamper the productivity of processes related to the efficiency of data crawling, such as the presence of duplicate error reports. Studies show that the amount of duplicate error reporting can directly affect a company's productivity. Ideally, a duplicate error report must be identified before it is created by testers. In some cases, error reporting managers are reported to be responsible for part of this problem, due to limitations in their search engines. This dissertation aims to investigate approaches and techniques that may contribute to the mitigation of the high indexes of duplicate error eports. To do so, we have developed the AVS (Automatic Versatile Search tool), a search tool that contributes to the identification of error reports based on Information Retrieval and Text Mining techniques, in order to support GRE (Bug Tracking Systems) to reduce the occurrence of duplicate reports. As proof of concept, we implemented AVS in the context of the Motorola Test Center (CTM) at the Informatics Center of UFPE. Any search for a candidate error report to be opened is preprocessed. Then the similarity between the search (i.e., represented by a summary of a candidate error being a new report) and the available reports in the database is calculated, generating a list of previous reports ranked by similarity. In the end, error reports are divided into groups, where their data are related according to the similarities between their sentences or keywords, in order to produce a more advanced process of identifying potential duplications. After a case study was carried out, it was verified the usefulness of the tool mainly in relation to the gains of precision and agility of the search process, which consequently collaborated to improve the productivity of the process.
- Published
- 2019
232. Caracterização de grupos baseada em informações relacionais
- Author
-
GOMES, João Emanoel Ambrósio and PRUDÊNCIO, Ricardo Bastos Cavalcante
- Subjects
Informações relacionais ,Inteligência artificial - Abstract
CNPq Com o crescimento das redes sociais, diversas pesquisas vêm sendo realizadas para entendimento de suas estruturas. A análise e a extração de conhecimento das redes são largamente empregadas, dentre as investigações a compreensão do comportamento e das tendências das comunidades é uma atividade estratégica. Grande parte desse esforço está direcionado à detecção dos agrupamentos implícitos nas redes, detecção de comunidades; entretanto igualmente relevante é a atividade de rotulagem dos grupos, denominada caracterização de comunidades. Essa visa à descrição das comunidades a partir dos atributos individuais dos usuários. Entre as principais características dos métodos atuais de caracterização grupos, temos: (1) caracterização baseada apenas nos atributos dos usuários, (2) níveis de relevâncias equivalentes a todos os usuários e (3) consideração de todos os usuários da comunidade na caracterização. Todavia, em ambientes nos quais haja conexões entre seus usuários, como as redes sociais, uma nova dimensão de informação se apresenta, através da análise dos relacionamentos e afinidades entre os usuários (informação relacional). Presumivelmente, todas as comunidades têm os seus usuários influentes. Esses são os líderes de opinião, e podem desempenhar um papel mais importante para refletir as peculiaridades de uma comunidade. Tratar a escalabilidade das redes tende a ser um dos principais desafios das abordagens de caracterização de grupos, pois essa propriedade reflete diretamente na complexidade de descrição e robustez. Buscando o desenvolvimento de uma abordagem escalável e a incorporação dos benefícios supracitados com o uso das informações relacionais, propomos uma abordagem para caracterização de comunidades sociais baseada em informações relacionais. Assim, foi proposta a adição de uma nova etapa ao processo de caracterização de grupos, essa é responsável por filtrar os principais nós das comunidades a partir das informações relacionais (centralidade), ou seja, selecionar os nós que serão considerados no processo de caracterização dos grupos. O propósito é selecionar os nós, que representem/generalizem as comunidades, produzindo os melhores perfis possíveis, sem perdas de informações relevantes. Definiu-se como estudo de caso para esta tese as redes de coautoria, mais precisamente utilizou-se a biblioteca arXiv. Descrever comunidades acadêmicas é algo fundamental, proporcionando entendimento e acompanhamento das pesquisas, bem como a verificação das mudanças de temas nas comunidades. Os resultados, obtidos em três experimentos, demonstraram a capacidade da abordagem proposta na produção de perfis descritivos para os grupos observados, tanto fazendo uso de métodos de caracterização de grupos como de rotulagem de agrupamentos em documentos, com um custo computacional consideravelmente menor. With the growth of social networks, several types of research have been carried out to understand their structures. Knowledge analysis and extraction of networks are widely used, among investigations understanding the behavior and trends of communities is a strategic activity. Much of this effort is directed to the detection of implicit groupings in networks, community detection; however, equally relevant is the communities labeling task, called group profiling. It aims at describing communities from the individual attributes of users. Among the main characteristics of the current group profiling methods, we have (1) characterization based only on the attributes of the users, (2) levels of relevancy equivalent to all users and (3) consideration of all users of the community in the characterization. However, in environments where there are connections between users, such as social networks, a new dimension of information is presented, through the analysis of relationships and affinities between users (relational information). Presumably, all communities have their influential users. These are opinion leaders, and they can play a more important role in reflecting the peculiarities of a community. Treating network scalability tends to be one of the main challenges of group profiling approaches, as this property directly reflects the complexity of description and robustness. Looking for the development of a scalable approach and incorporating the benefits mentioned above with the use of relational information, we propose an approach for group profiling based on the relational information. Thus, it was proposed to add a new stage to the group profiling process, which is responsible for filtering the main nodes of the communities from the relational information (centrality), that is, to select the nodes that will be considered in the group profiling process. The purpose is to select the nodes, which represent/generalize the communities, producing the best possible profiles, without loss of relevant information. The co-authoring networks were defined as a case study for this thesis, more precisely the arXiv library was used. Describing academic communities is fundamental, providing understanding and monitoring of research, as well as verifying the changes of themes in the communities. The results, obtained in three experiments, demonstrated the ability of the proposed approach to producing descriptive profiles for the observed groups, using group profiling methods and cluster labeling, with a considerably lower computational cost.
- Published
- 2018
233. Extração de termos de aspectos para a mineração de opinião aplicada à língua portuguesa: uma adaptação do método Double Propagation
- Author
-
VIEIRA, Arthur Caíque Bezerra, PRUDENCIO, Ricardo Bastos Cavalcante, and BARROS, Flávia de Almeida
- Subjects
Inteligência computacional ,Mineração de opinião - Abstract
FACEPE A popularização de fóruns online e do e-commerce favoreceu o aumento do número de comentários/avaliações na Web sobre produtos e serviços, sendo impraticável analisar manualmente essa enorme quantidade de comentários. Para vencer esse desafio, lançamos mão de uma área da computação denominada de Mineração deOpinião (MO) – também conhecida como Análise de Sentimento. A MO busca extrair de textos em linguagem natural opiniões sobre entidades (produtos, serviços, pessoas, marcas, eventos, etc) e seus aspectos (características detalhadas de cada entidade - e.g., tamanho e peso de um celular). O objetivo final é classificar as opiniões extraídas entre positivas ou negativas, a fim de identificar como cada entidade e seus aspectos estão sendo avaliados pelos usuários. Este trabalho de mestrado investigou a MO a partir de resenhas em Português sobre produtos, com foco principal na primeira etapa da MO, isto é, na extração de termos referentes a entidades e seus aspectos. Devido à escassez de dados (comentários/resenhas) rotulados com informações de termos de aspecto na língua portuguesa, torna-se difícil a utilização de técnicas supervisionadas para a extração de termos de aspectos. Assim, este trabalho foi desenvolvido dentro da abordagem não supervisionada (baseadas em conhecimento - regras explícitas considerando informações estatísticas e/ou linguísticas, ontologias, etc), que tem obtido desempenho comparável à abordagem supervisionada pra a língua portuguesa. Este trabalho utilizou como ponto de partida um algoritmo originalmente construído para a língua inglesa que apresenta altas taxas de cobertura na tarefa de extração: o Double Propagation (DP). Esse algoritmo se baseia na classe gramatical das palavras nas frases, e em relações de dependência sintática entre as palavras nas frases para realizar a extração de termos de aspectos. Como contribuição principal deste trabalho, o algoritmo DP original foi adaptado para a língua portuguesa. A seguir, foram propostos mais tipos de relações de dependência sintática no processo de extração considerando mais classes gramaticais do que o algoritmo base. Como contribuição secundária, este trabalho também investigou a efetividade do uso de normalizadores de texto no processamento de resenhas oriundas da Web (que geralmente contêm erros ortográficos e gramaticais, e também erros de pontuação). Os experimentos realizados compararam diversas configurações do processo de extração, variando tanto o algoritmo de extração (o original e o ampliado com novas regras) quanto os recursos externos (e.g., normalizadores de texto, configurações dos métodos de poda/pruning e léxicos de sentimento). Os resultados obtidos foram bastante promissores, sendo comparáveis a outras abordagens já utilizadas em trabalhos com foco na língua portuguesa. The popularization of online forums and e-commerce benefited the increase of the number of comments/evaluations about products and services on the Web, making impratical to manually analyze the huge amount of comments. To overcome this challenge, we use an area of computing named Opinion Mining - also known as Sentiment Analysis. The Opinion Mining aims to extract opinions about entities (products, services, people, brands, events, etc) and their aspects (attributes of each entity - e.g., size and weigth of a smartphone) from texts in natural language. The ultimate goal is to classify the extracted opinions between positive or negative, in order to identify how each entity and their aspects are evaluated by the users. This Master’s thesis investigated the Opinion Mining from portuguese reviews of products, focusing in the first stage of Opinion Mining, which means, in the terms extraction of entities and their aspects. Given the lack of data (comments/reviews) labaled with information of aspect terms in portuguese, it becomes difficult to apply a supervised approach for the aspect term extraction of reviews written in brazilian portuguese. Thus, this work was developed in a unsupervised manner (based on knowledge - explicit rules taking into account statistics and/or linguistics information, ontologies, etc.), which have been getting comparable performance to the supervised approach for the portuguese language. In this work, we used as a starting point an algorithm originally constructed for the english language, which presented high recall on the task of aspect term extraction: the Double Propagation. This algorithm uses the Part-of-speech tagging and dependency relations of words in sentences to accomplish the extraction process. As the main contribution of this work, we adapted the original Double Propagation algorithm for the portuguese language. Next, we proposed the addition of more types of dependency relations in the process of extraction, and we considered more Part-of Speech tags than the base algorithm. Another core contribution of this work was the investigation of the effectiveness of text normalizers in the processing of reviews from the Web (which, in its nature comes with spelling, grammatical and punctuation errors). The conducted experiments compared several configurations of the extraction process, varying the extraction algorithm (original and the proposed - with the additional rules), the external resources (text normalizers, sentiment lexicons and configuration of the pruning methods). The obtained results were very promising, being comparable to others approachs used in works with a focus on the portuguese language.
- Published
- 2018
234. Transferindo conhecimento de textos para imagens através da aprendizagem das características semânticas
- Author
-
WANDERLEY, Miguel Domingos de Santana and PRUDÊNCIO, Ricardo Bastos Cavalcante
- Subjects
Redes neurais ,Inteligência artificial - Abstract
CNPq Redes neurais profundas vem mostrando um expressivo desempenho em tarefas de reconhecimento de imagens. Dentre as principais técnicas de redes neurais profundas, destacam-se as redes neurais convolucionais, as quais apresentam a capacidade de aprender características de alto nível em imagens, considerando o aspecto espacial das mesmas. A profundidade das redes neurais convolucionais permite que características de baixo nível sejam combinadas em características de mais alta complexidade, gradativamente, até que imagens possam ser codificadas em características de alto nível. Dentre as atividades de reconhecimento de imagens podemos mencionar a classificação de imagens, detecção de objetos e segmentação de imagens. No entanto, as principais técnicas de redes convolucionais profundas demandam volumes massivos de imagens rotuladas para treinamento, nem sempre disponíveis. Neste contexto, técnicas de transferência de conhecimento vem sendo adotadas para superar a falta de dados rotulados disponíveis para treinamento de modelos em tarefas específicas. De modo geral, transferência de aprendizagem busca utilizar dados disponíveis em quantidades expressivas em um determinado domínio fonte para possibilitar uma aprendizagem mais eficiente de um modelo em dados de um domínio alvo, geralmente mais escasso. Este trabalho apresenta uma nova arquitetura de rede neural profunda com a capacidade de transferir conhecimento de dados textuais associados a imagens (domínio fonte) para auxiliar na atividade de reconhecimento de imagens (domínio alvo). Como componentes a rede proposta utiliza um extrator convolucional de características visuais latentes de imagens (codificador) enquanto um modelo generativo probabilístico é usado para definir tópicos semânticos textuais. Uma combinação de classificadores é então utilizada para estimar tópicos semânticos para novas instâncias de imagens baseada nas características visuais latentes desta instância. Experimentos foram conduzidos para avaliar o quão relacionadas estão as características latentes em ambos os domínios (textual e visual) e ainda verificar a eficácia dos tópicos semânticos preditos pelo modelo proposto na tarefa de classificação de imagens. Resultados promissores foram verificados comparando-se com diferentes abordagens estado da arte neste cenário multimodal heterogêneo. Deep neural networks have been showing significant performance in image recognition tasks. Among the main techniques of deep neural networks, we highlight the convolutional neural networks, which present the ability to learn high-level features from images, considering the spatial aspect of them. The depth of convolutional neural networks allows low-level features to be combined into features of higher complexity, gradually, until images can be encoded into high-level features. Among the image recognition tasks, we can mention the image classification, objects detection, and images segmentation. However, the main techniques of deep convolutional networks require massive volumes of labeled images for training, not always available. In this context, knowledge transfer techniques have been adopted to overcome the lack of labeled data available for training models for specific tasks. In general, transfer learning seeks to use available data in significant quantities in a particular source domain to enable a more efficient learning of a model in data from a target domain, generally more scarce. This work presents a new deep neural network architecture with the ability to transfer knowledge of textual data (source domain) associated with images (target domain) to assist in image recognition tasks. The proposed network uses as components a convolutional feature extractor (encoder) of latent visual image characteristics, while a generative probabilistic model is used to learn textual semantic topics. An ensemble of classifiers is then used to estimate semantic topics for new instances of images, based on the latent visual features of the test instance. Experiments were conducted to evaluate how related are the embedded features in both domains (textual and visual) and to verify the efficacy of the semantic topics predicted by the proposed model in image classification tasks. Promising results were verified comparing with different state-of-the-art approaches in this heterogeneous multimodal scenario.
- Published
- 2018
235. Uso de meta-aprendizado para o ajuste de hiper-parâmetros em problemas de classificação
- Author
-
Rafael Gomes Mantovani, André Carlos Ponce de Leon Ferreira de Carvalho, Joaquin Vanschoren, Ricardo Bastos Cavalcante Prudêncio, Leandro Nunes de Castro Silva, and Carlos Manuel Milheiro de Oliveira Pinto Soares
- Subjects
Hyperparameter ,Computer science ,business.industry ,Meta learning ,Artificial intelligence ,Machine learning ,computer.software_genre ,business ,computer - Abstract
Machine learning solutions have been successfully used to solve many simple and complex problems. However, their development process still relies on human experts to perform tasks such as data preprocessing, feature engineering and model selection. As the complexity of these tasks increases, so does the demand for automated solutions, namely Automated Machine Learning (AutoML). Most algorithms employed in these systems have hyperparameters whose configuration may directly affect their predictive performance. Therefore, hyperparameter tuning is a recurring task in AutoML systems. This thesis investigated how to efficiently automate hyperparameter tuning by means of Meta-learning. To this end, large-scale experiments were performed tuning the hyperparameters of different classification algorithms, and an enhanced experimental methodology was adopted throughout the thesis to explore and learn the hyperparameter profiles for different classification algorithms. The results also showed that in many cases the default hyperparameter settings induced models that are on par with those obtained by tuning. Hence, a new Meta-learning recommender system was proposed to identify when it is better to use default values and when to tune classification algorithms for each new dataset. The proposed system is capable of generalizing several learning processes into a single modular framework, along with the possibility of assigning different algorithms. Furthermore, a descriptive analysis of model predictions is used to identify which data characteristics affect the necessity for tuning in each one of the algorithms investigated in the thesis. Experimental results also demonstrated that the proposed recommender system reduced the time spent on optimization processes, without reducing the predictive performance of the induced models. Depending on the target algorithm, the Meta-learning recommender system can statistically outperform the baselines. The significance of these results opens a number of new avenues for future work. Soluções de aprendizado de máquina tem sido cada vez mais usadas com sucesso para resolver problemas dos mais simples aos complexos. Entretanto, o processo de desenvolvimento de tais soluções ainda é um processo que depende da ação de especialistas humanos em tarefas como: pré-processamento dos dados, engenharia de features e seleção de modelos. Consequentemente, quando a complexidade destas tarefas atinge um nível muito alto, há a necessidade de soluções automatizadas, denominadas por Aprendizado de Máquina automatizado (AutoML). A maioria dos algoritmos usados em tais sistemas possuem hiper-parâmetros cujos valores podem afetar diretamente o desempenho preditivo dos modelos gerados. Assim sendo, o ajuste de hiper-parâmetros é uma tarefa recorrente no desenvolvimento de sistems de AutoML. Nesta tese investigou-se a automatização do ajuste de hiper-parâmetros por meio de Meta-aprendizado. Seguindo essa linha, experimentos massivos foram realizados para ajustar os hiper-parâmetros de diferentes algoritmos de classificação. Além disso, uma metodologia experimental aprimorada e adotada ao lngo da tese perimtiu identificar diferentes perfis de ajuste para diferentes algoritmos de classificação. Entretanto, os resultados também mostraram que em muitos casos as configurações default destes algoritmos induziram modelos mais precisos do que os obtidos por meio de ajuste. Assim, foi proposto um novo sistema de recomendação baseado em Meta-learning para identificar quando é melhor realizar o ajuste de parâmetros para os algoritmos de classificação ou apenas usar os valores default. O sistema proposto é capaz de generalizar várias etapas do aprendizado em um único framework modular, juntamente com a possibilidade de avaliar diferentes algoritmos de aprendizado de máquina. As análises descritivas das predições obtidas pelo sistema indicaram quais características podem ser responsáveis por determinar quando o ajuste se faz necessário para cada um dos algoritmos investigados na tese. Os resultados também demonstraram que o sistema recomendador proposto reduziu o tempo gasto com a otimização mantendo o desempenho preditivo dos modelos gerados. Além disso, dependendo do algoritmo de classificação modelado, o sistema foi estatisticamente superior aos baselines. A significância desdes resultados abre um novo número de oportunidades para trabalhos futuros.
- Published
- 2018
236. Mining user behavior in location-based social networks
- Author
-
Jorge Carlos Valverde Rebaza, Alneu de Andrade Lopes, Ana Paula Appel, Jesús Pascual Mena Chalco, and Ricardo Bastos Cavalcante Prudêncio
- Subjects
World Wide Web ,business.industry ,Internet privacy ,business - Abstract
Online social networks (OSNs) are Web platforms providing different services to facilitate social interaction among their users. A particular kind of OSNs is the location-based social network (LBSN), which adds services based on location. One of the most important challenges in LBSNs is the link prediction problem. Link prediction problem aims to estimate the likelihood of the existence of future friendships among user pairs. Most of the existing studies in link prediction focus on the use of a single information source to perform predictions, i.e. only social information (e.g. social neighborhood) or only location information (e.g. common visited places). However, some researches have shown that the combination of different information sources can lead to more accurate predictions. In this sense, in this thesis we propose different link prediction methods based on the use of different information sources naturally existing in these networks. Thus, we propose seven new link prediction methods using the information related to user membership in social overlapping groups: common neighbors within and outside of common groups (WOCG), common neighbors of groups (CNG), common neighbors with total and partial overlapping of groups (TPOG), group naïve Bayes (GNB), group naïve Bayes of common neighbors (GNB-CN), group naïve Bayes of Adamic-Adar (GNB-AA) and group naïve Bayes of Resource Allocation (GNB-RA). Due to that social groups exist naturally in networks, our proposals can be used in any type of OSN.We also propose new eight link prediction methods combining location and social information: Check-in Observation (ChO), Check-in Allocation (ChA), Within and Outside of Common Places (WOCP), Common Neighbors of Places (CNP), Total and Partial Overlapping of Places (TPOP), Friend Allocation Within Common Places (FAW), Common Neighbors of Nearby Places (CNNP) and Nearby Distance Allocation (NDA). These eight methods are exclusively for work in LBSNs. Obtained results indicate that our proposals are as competitive as state-of-the-art methods, or better than they in certain scenarios. Moreover, since our proposals tend to be computationally more efficient, they are more suitable for real-world applications. Redes sociais online (OSNs) são plataformas Web que oferecem serviços para promoção da interação social entre usuários. OSNs que adicionam serviços relacionados à geolocalização são chamadas redes sociais baseadas em localização (LBSNs). Um dos maiores desafios na análise de LBSNs é a predição de links. A predição de links refere-se ao problema de estimar a probabilidade de conexão futura entre pares de usuários que não se conhecem. Grande parte das pesquisas que focam nesse problema exploram o uso, de maneira isolada, de informações sociais (e.g. amigos em comum) ou de localização (e.g. locais comuns visitados). Porém, algumas pesquisas mostraram que a combinação de diferentes fontes de informação pode influenciar o incremento da acurácia da predição. Motivado por essa lacuna, neste trabalho foram desenvolvidos diferentes métodos para predição de links combinando diferentes fontes de informação. Assim, propomos sete métodos que usam a informação relacionada à participação simultânea de usuários en múltiples grupos sociais: common neighbors within and outside of common groups (WOCG), common neighbors of groups (CNG), common neighbors with total and partial overlapping of groups (TPOG), group naïve Bayes (GNB), group naïve Bayes of common neighbors (GNB-CN), group naïve Bayes of Adamic-Adar (GNB-AA), e group naïve Bayes of Resource Allocation (GNB-RA). Devido ao fato que a presença de grupos sociais não está restrita a alguns tipo de redes, essas propostas podem ser usadas nas diversas OSNs existentes, incluindo LBSNs. Também, propomos oito métodos que combinam o uso de informações sociais e de localização: Check-in Observation (ChO), Check-in Allocation (ChA), Within and Outside of Common Places (WOCP), Common Neighbors of Places (CNP), Total and Partial Overlapping of Places (TPOP), Friend Allocation Within Common Places (FAW), Common Neighbors of Nearby Places (CNNP), e Nearby Distance Allocation (NDA). Tais propostas são para uso exclusivo em LBSNs. Os resultados obtidos indicam que nossas propostas são tão competitivas quanto métodos do estado da arte, podendo até superá-los em determinados cenários. Ainda mais, devido a que na maioria dos casos nossas propostas são computacionalmente mais eficientes, seu uso resulta mais adequado em aplicações do mundo real.
- Published
- 2018
237. Mineração de opiniões baseada em aspectos para revisões de medicamentos
- Author
-
CAVALCANTI, Diana Cabral and PRUDÊNCIO, Ricardo Bastos Cavalcante
- Subjects
Recuperação da informação ,Revisões de medicamentos ,Inteligência artificial ,Mineração de opiniões - Abstract
CNPq Mineração de Opinião baseada em Aspectos pode ser aplicada para extrair informações relevantes expressas por pacientes em comentários textuais sobre medicamentos (por exemplo, reações adversas, eficácia quanto ao uso de um determinado remédio, sintomas e condições do paciente antes usar o medicamento). Este novo domínio de aplicação apresenta desafios, bem como oportunidades de pesquisa em Mineração de Opinião. No entanto, a literatura ainda é escassa sobre métodos para extrair múltiplos aspectos relevantes presentes em análises de fármacos. Nesta tese foi desenvolvido um novo método para extrair e classificar aspectos em comentários opinativos sobre medicamentos. A solução proposta tem duas etapas principais. Na extração de aspectos, um novo método baseado em caminhos de dependência sintática é proposto para extrair pares de opiniões em revisões de medicamento. Um par de opinião é composto por um termo de aspecto associado a um termo opinativo. Na classificação de aspectos, propõe-se um classificador supervisionado baseado em recursos de domínio e de linguística para classificar pares de opinião por tipo de aspecto (por exemplo, Condição clínica, Reação Adversa, Dosagem e Eficácia). Para avaliar o método proposto, foram realizados experimentos em conjuntos de dados relacionados a três diferentes condições clínicas: ADHD, AIDS e Ansiedade. Para o problema de extração foi realizado avaliação comparativa com outros dois métodos, onde o método proposto atingiu resultados competitivos, alcançando precisão de 78% para ADHD, 75,2% para AIDS e 78,7% para Ansiedade. Enquanto para o problema de classificação, resultados promissores foram obtidos nos experimentos e várias questões foram identificadas e discutidas. Aspect-based opinion mining can be applied to extract relevant information expressed by patients in drug reviews (e.g., adverse reactions, efficacy of a drug, symptoms and conditions of patients). This new domain of application presents challenges as well as opportunities for research in opinion mining. Nevertheless, the literature is still scarce of methods to extract multiple relevant aspects present in drug reviews. In this thesis we propose a new method to extract and classify aspects in drug reviews. The proposed solution has two main steps. In the aspect extraction, a new method based on syntactic dependency paths is proposed to extract opinion pairs in drug reviews, composed by an aspect term associated to opinion term. In the aspect classification, a supervised classifier is proposed based on domain and linguistics resources to classify the opinion pairs by aspect type (e.g., condition, adverse reaction, dosage and effectiveness). In order to evaluate the proposed method we conducted experiments with datasets related to three different diseases: ADHD, AIDS and Anxiety. For the extraction problem, a comparative evaluation was performed with two other methods, the proposed method obtained competitive results, obtained an accuracy of 78% for ADHD, 75.2% for AIDS and 78.7% for Anxiety. For the classification problem, promising results were obtained in the experiments and various issues were identified and discussed.
- Published
- 2017
238. Classificação automática de textos por meio de aprendizado de máquina baseado em redes
- Author
-
Rafael Geraldeli Rossi, Solange Oliveira Rezende, Ahmed Ali Abdalla Esmin, Zhao Liang, Maria Cristina Ferreira de Oliveira, and Ricardo Bastos Cavalcante Prudêncio
- Abstract
Nos dias atuais há uma quantidade massiva de dados textuais sendo produzida e armazenada diariamente na forma de e-mails, relatórios, artigos e postagens em redes sociais ou blogs. Processar, organizar ou gerenciar essa grande quantidade de dados textuais manualmente exige um grande esforço humano, sendo muitas vezes impossível de ser realizado. Além disso, há conhecimento embutido nos dados textuais, e analisar e extrair conhecimento de forma manual também torna-se inviável devido à grande quantidade de textos. Com isso, técnicas computacionais que requerem pouca intervenção humana e que permitem a organização, gerenciamento e extração de conhecimento de grandes quantidades de textos têm ganhado destaque nos últimos anos e vêm sendo aplicadas tanto na academia quanto em empresas e organizações. Dentre as técnicas, destaca-se a classificação automática de textos, cujo objetivo é atribuir rótulos (identificadores de categorias pré-definidos) à documentos textuais ou porções de texto. Uma forma viável de realizar a classificação automática de textos é por meio de algoritmos de aprendizado de máquina, que são capazes de aprender, generalizar, ou ainda extrair padrões das classes das coleções com base no conteúdo e rótulos de documentos textuais. O aprendizado de máquina para a tarefa de classificação automática pode ser de 3 tipos: (i) indutivo supervisionado, que considera apenas documentos rotulados para induzir um modelo de classificação e classificar novos documentos; (ii) transdutivo semissupervisionado, que classifica documentos não rotulados de uma coleção com base em documentos rotulados; e (iii) indutivo semissupervisionado, que considera documentos rotulados e não rotulados para induzir um modelo de classificação e utiliza esse modelo para classificar novos documentos. Independente do tipo, é necessário que as coleções de documentos textuais estejam representadas em um formato estruturado para os algoritmos de aprendizado de máquina. Normalmente os documentos são representados em um modelo espaço-vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a um termo ou atributo da coleção de documentos. Algoritmos baseados no modelo espaço-vetorial consideram que tanto os documentos quanto os termos ou atributos são independentes, o que pode degradar a qualidade da classificação. Uma alternativa à representação no modelo espaço-vetorial é a representação em redes, que permite modelar relações entre entidades de uma coleção de textos, como documento e termos. Esse tipo de representação permite extrair padrões das classes que dificilmente são extraídos por algoritmos baseados no modelo espaço-vetorial, permitindo assim aumentar a performance de classificação. Além disso, a representação em redes permite representar coleções de textos utilizando diferentes tipos de objetos bem como diferentes tipos de relações, o que permite capturar diferentes características das coleções. Entretanto, observa-se na literatura alguns desafios para que se possam combinar algoritmos de aprendizado de máquina e representações de coleções de textos em redes para realizar efetivamente a classificação automática de textos. Os principais desafios abordados neste projeto de doutorado são (i) o desenvolvimento de representações em redes que possam ser geradas eficientemente e que também permitam realizar um aprendizado de maneira eficiente; (ii) redes que considerem diferentes tipos de objetos e relações; (iii) representações em redes de coleções de textos de diferentes línguas e domínios; e (iv) algoritmos de aprendizado de máquina eficientes e que façam um melhor uso das representações em redes para aumentar a qualidade da classificação automática. Neste projeto de doutorado foram propostos e desenvolvidos métodos para gerar redes que representem coleções de textos, independente de domínio e idioma, considerando diferentes tipos de objetos e relações entre esses objetos. Também foram propostos e desenvolvidos algoritmos de aprendizado de máquina indutivo supervisionado, indutivo semissupervisionado e transdutivo semissupervisionado, uma vez que não foram encontrados na literatura algoritmos para lidar com determinados tipos de relações, além de sanar a deficiência dos algoritmos existentes em relação à performance e/ou tempo de classificação. É apresentado nesta tese (i) uma extensa avaliação empírica demonstrando o benefício do uso das representações em redes para a classificação de textos em relação ao modelo espaço-vetorial, (ii) o impacto da combinação de diferentes tipos de relações em uma única rede e (iii) que os algoritmos propostos baseados em redes são capazes de superar a performance de classificação de algoritmos tradicionais e estado da arte tanto considerando algoritmos de aprendizado supervisionado quanto semissupervisionado. As soluções propostas nesta tese demonstraram ser úteis e aconselháveis para serem utilizadas em diversas aplicações que envolvam classificação de textos de diferentes domínios, diferentes características ou para diferentes quantidades de documentos rotulados. A massive amount of textual data, such as e-mails, reports, articles and posts in social networks or blogs, has been generated and stored on a daily basis. The manual processing, organization and management of this huge amount of texts require a considerable human effort and sometimes these tasks are impossible to carry out in practice. Besides, the manual extraction of knowledge embedded in textual data is also unfeasible due to the large amount of texts. Thus, computational techniques which require little human intervention and allow the organization, management and knowledge extraction from large amounts of texts have gained attention in the last years and have been applied in academia, companies and organizations. The tasks mentioned above can be carried out through text automatic classification, in which labels (identifiers of predefined categories) are assigned to texts or portions of texts. A viable way to perform text automatic classification is through machine learning algorithms, which are able to learn, generalize or extract patterns from classes of text collections based on the content and labels of the texts. There are three types of machine learning algorithms for automatic classification: (i) inductive supervised, in which only labeled documents are considered to induce a classification model and this model are used to classify new documents; (ii) transductive semi-supervised, in which all known unlabeled documents are classified based on some labeled documents; and (iii) inductive semi-supervised, in which labeled and unlabeled documents are considered to induce a classification model in order to classify new documents. Regardless of the learning algorithm type, the texts of a collection must be represented in a structured format to be interpreted by the algorithms. Usually, the texts are represented in a vector space model, in which each text is represented by a vector and each dimension of the vector corresponds to a term or feature of the text collection. Algorithms based on vector space model consider that texts, terms or features are independent and this assumption can degrade the classification performance. Networks can be used as an alternative to vector space model representations. Networks allow the representations of relations among the entities of a text collection, such as documents and terms. This type of representation allows the extraction patterns which are not extracted by algorithms based on vector-space model. Moreover, text collections can be represented by networks composed of different types of entities and relations, which provide the extraction of different patterns from the texts. However, there are some challenges to be solved in order to allow the combination of machine learning algorithms and network-based representations to perform text automatic classification in an efficient way. The main challenges addressed in this doctoral project are (i) the development of network-based representations efficiently generated which also allows an efficient learning; (ii) the development of networks which represent different types of entities and relations; (iii) the development of networks which can represent texts written in different languages and about different domains; and (iv) the development of efficient learning algorithms which make a better use of the network-based representations and increase the classification performance. In this doctoral project we proposed and developed methods to represent text collections into networks considering different types of entities and relations and also allowing the representation of texts written in any language or from any domain. We also proposed and developed supervised inductive, semi-supervised transductive and semi-supervised inductive learning algorithms to interpret and learn from the proposed network-based representations since there were no algorithms to handle certain types of relations considered in this thesis. Besides, the proposed algorithms also attempt to obtain a higher classification performance and a faster classification than the existing network-based algorithms. In this doctoral thesis we present (i) an extensive empirical evaluation demonstrating the benefits about the use of network-based representations for text classification, (ii) the impact of the combination of different types of relations in a single network and (iii) that the proposed network-based algorithms are able to surpass the classification performance of traditional and state-of-the-art algorithms considering both supervised and semi-supervised learning. The solutions proposed in this doctoral project have proved to be advisable to be used in many applications involving classification of texts from different domains, areas, characteristics or considering different numbers of labeled documents.
- Published
- 2017
239. Seleção e controle do viés de aprendizado ativo
- Author
-
Davi Pereira dos Santos, André Carlos Ponce de Leon Ferreira de Carvalho, Gustavo Enrique de Almeida Prado Alves Batista, Heloisa de Arruda Camargo, Gisele Lobo Pappa, and Ricardo Bastos Cavalcante Prudêncio
- Abstract
A área de aprendizado de máquina passa por uma grande expansão em seu universo de aplicações. Algoritmos de indução de modelos preditivos têm sido responsáveis pela realização de tarefas que eram inviáveis ou consideradas exclusividade do campo de ação humano até recentemente. Contudo, ainda é necessária a supervisão humana durante a construção de conjuntos de treinamento, como é o caso da tarefa de classificação. Tal construção se dá por meio da rotulação manual de cada exemplo, atribuindo a ele pelo menos uma classe. Esse processo, por ser manual, pode ter um custo elevado se for necessário muitas vezes. Uma técnica sob investigação corrente, capaz de mitigar custos de rotulação, é o aprendizado ativo. Dado um orçamento limitado, o objetivo de uma estratégia de amostragem ativa é direcionar o esforço de treinamento para os exemplos essenciais. Existem diversas abordagens efetivas de selecionar ativamente os exemplos mais importantes para consulta ao supervisor. Entretanto, não é possível, sem incorrer em custos adicionais, testá-las de antemão quanto à sua efetividade numa dada aplicação. Ainda mais crítica é a necessidade de que seja escolhido um algoritmo de aprendizado para integrar a estratégia de aprendizado ativo antes que se disponha de um conjunto de treinamento completo. Para lidar com esses desafios, esta tese apresenta como principais contribuições: uma estratégia baseada na inibição do algoritmo de aprendizado nos momentos menos propícios ao seu funcionamento; e, a experimentação da seleção de algoritmos de aprendizado, estratégias ativas de consulta ou pares estratégia-algoritmo baseada em meta-aprendizado, visando a experimentação de formas de escolha antes e durante o processo de rotulação. A estratégia de amostragem proposta é demonstrada competitiva empiricamente. Adicionalmente, experimentos iniciais com meta-aprendizado indicam a possibilidade de sua aplicação em aprendizado ativo, embora tenha sido identificado que investigações mais extensivas e aprofundadas sejam necessárias para apurar sua real efetividade prática. Importantes contribuições metodológicas são descritas neste documento, incluindo uma análise frequentemente negligenciada pela literatura da área: o risco devido à variabilidade dos algoritmos. Por fim, são propostas as curvas e faixas de ranqueamento, capazes de sumarizar, num único gráfico, experimentos de uma grande coleção de conjuntos de dados. The machine learning area undergoes a major expansion in its universe of applications. Algorithms for the induction of predictive models have made it possible to carry out tasks that were once considered unfeasible or restricted to be solved by humans. However, human supervision is still needed to build training sets, for instance, in the classification task. Such building is usually performed by manual labeling of each instance, providing it, at least, one class. This process has a high cost due to its manual nature. A current technique under research, able to mitigate labeling costs, is called active learning. The goal of an active learning strategy is to manage the training effort to focus on the most relevant instances, within a budget. Several effective sampling approaches having been proposed. However, when one needs to choose the proper strategy for a given problem, they are impossible to test beforehand without incurring into additional costs. Even more critical is the need to choose a learning algorithm to integrate the active learning strategy before the existence of a complete training set. This thesis presents two major contributions to cope with such challenges: a strategy based on the learning algorithm inhibition when it is prone to inaccurate predictions; and, an attempt to automatically select the learning algorithms, active querying strategies or pairs strategy-algorithm, based on meta-learning. This attempt tries to verify the feasibility of such kind of decision making before and during the learning process. The proposed sampling approach is empirically shown to be competitive. Additionally, meta-learning experiments show that it can be applied to active learning, although more a extensive investigation is still needed to assess its real practical effectivity. Important methodological contributions are made in this document, including an often neglected analysis in the literature of active learning: the risk due to the algorithms variability. A major methodological contribution, called ranking curves, is presented.
- Published
- 2017
240. Data stream classification with concept drift and verification latency
- Author
-
Denis Moreira dos Reis, Gustavo Enrique de Almeida Prado Alves Batista, Robson Leonardo Ferreira Cordeiro, Ricardo Bastos Cavalcante Prudêncio, and Marcela Xavier Ribeiro
- Abstract
Apesar do grau relativamente alto de maturidade existente na área de pesquisa de aprendizado supervisionado em lote, na qual são utilizados dados originários de problemas estacionários, muitas aplicações reais lidam com fluxos de dados cujas distribuições de probabilidade se alteram com o tempo, ocasionando mudanças de conceito. Diversas pesquisas vêm sendo realizadas nos últimos anos com o objetivo de criar modelos precisos mesmo na presença de mudanças de conceito. A maioria delas, no entanto, assume que tão logo um evento seja classificado pelo algoritmo de aprendizado, seu rótulo verdadeiro se torna conhecido. Este trabalho explora as situações complementares, com revisão dos trabalhos mais importantes publicados e análise do impacto de atraso na disponibilidade dos rótulos verdadeiros ou sua não disponibilização. Ainda, propõe um novo algoritmo que reduz drasticamente a complexidade de aplicação do teste de hipótese não-paramétrico Kolmogorov-Smirnov, tornado eficiente seu uso em algoritmos que analisem fluxos de dados. A exemplo, mostramos sua potencial aplicação em um método de detecção de mudança de conceito não-supervisionado que, em conjunto com técnicas de Aprendizado Ativo e Aprendizado por Transferência, reduz a necessidade de rótulos verdadeiros para manter boa performance de um classificador ao longo do tempo, mesmo com a ocorrência de mudanças de conceito. Despite the relatively maturity of batch-mode supervised learning research, in which the data typifies stationary problems, many real world applications deal with data streams whose statistical distribution changes over time, causing what is known as concept drift. A large body of research has been done in the last years, with the objective of creating new models that are accurate even in the presence of concept drifts. However, most of them assume that, once the classification algorithm labels an event, its actual label become readily available. This work explores the complementary situations, with a review of the most important published works and an analysis over the impact of delayed true labeling, including no true label availability at all. Furthermore, this work proposes a new algorithm that heavily reduces the complexity of applying Kolmogorov- Smirnov non-parametric hypotheis test, turning it into an uselful tool for analysis on data streams. As an instantiation of its usefulness, we present an unsupervised drift-detection method that, along with Active Learning and Transfer Learning approaches, decreases the number of true labels that are required to keep good classification performance over time, even in the presence of concept drifts.
- Published
- 2016
241. Predição temporal de links baseada na evolução de tríades
- Author
-
MELO, Hugo Neiva de and PRUDÊNCIO, Ricardo Bastos Cavalcante
- Subjects
Inteligência Computacional ,Tensor de Transições de Tríades ,Predição Temporal de Links ,Análise de Redes Sociais ,PrediçãoTemporal - Abstract
Atualmente, com o crescimento da área de inteligência artificial e devido à necessidade do estudo das redes sociais no mundo virtual, ficou em evidência a importância da análise dessas redes. Existem vários tipos de problemas que podem ser levantados nesse sentido, entre eles, o problema de Predição de Links dentro de uma rede social, tarefa associada à Análise de Redes Sociais. Atualmente as abordagens buscam observar algum tipo de padrão na rede, sendo esses padrões estruturais, de similaridades entre os indivíduos, estatísticos, até modelos mais complexos, como padrões temporais. Este trabalho tem como objetivo propor uma nova metodologia temporal, chamada de Predição Temporal de Links baseada na Evolução de Tríades, de modo a prover uma solução mais satisfatória e computacionalmente viável para o problema de Predição de Links. Para isto, foi criado um novo modelo temporal de dados, chamado de Tensor de Transições de Tríades, que serve de base para o cálculo de modelos de predição temporal estatística de séries temporais. Este modelo foi concebido a partir da análise das principais abordagens vistas na literatura e identificação das suas vantagens e limitações. Os resultados obtidos mostraram que, em relação às abordagens de trabalhos relacionados, houve uma considerável melhora na qualidade da predição ao utilizar o modelo criado. Nowadays, with the development of artificial intelligence and the need to study virtual social networks, the importance of the analysis of such networks has grown. There are many problems that arise when studying these networks, including the Link Prediction problem in a social network, a task associated with Social Network Analysis. The current state-of-the-art on Link Prediction seeks to find a hidden pattern in the network, including structural patterns, similarities and statistical characteristics and evolving to more complex models, like temporal patterns. This work aims to create a new temporal method, called Temporal Link Prediction based on Triads Evolution, which provides a more satisfactory and efficient solution for the Link Prediction problem. To achieve this goal, a new temporal data model, the Triad Transition Tensor, was created and used as a source to compute temporal forecasting statistic models based on time series. This method was conceived from a wide analysis of the state-of-the-art of the Link Prediction methods and identifying it’s advantages and limitations. The results in this work show that, compared to other methods found in related works, there was a considerable improvement in the quality of the predictions when using the proposed method.
- Published
- 2016
242. Disorderclassifier: classificação de texto para categorização de transtornos mentais
- Author
-
NUNES, Francisca Pâmela Carvalho, PRUDÊNCIO, Ricardo Bastos Cavalcante, and BARROS, Flavia de Almeida
- Subjects
Mental disorder ,Classificação de texto ,Depoimentos pessoais ,Text classification ,Text Mining ,Mineração de Texto ,Personal testimonies ,Transtorno mental - Abstract
Nos últimos anos, através da Internet, a comunicação se tornou mais ampla e acessível. Com o grande crescimento das redes sociais, blogs, sites em geral, foi possível estabelecer uma extensa base de conteúdo diversificado, onde os usuários apresentam suas opiniões e relatos pessoais. Esses informes podem ser relevantes para observações futuras ou até mesmo para o auxílio na tomada de decisão de outras pessoas. No entanto, essa massa de informação está esparsa na Web, em formato livre, dificultando a análise manual dos textos para categorização dos mesmos. Tornar esse trabalho automático é a melhor opção, porém a compreensão desses textos em formato livre não é um trabalho simples para o computador, devido a irregularidades e imprecisões da língua natural. Nessas circunstâncias, estão surgindo sistemas que classificam textos, de forma automática, por tema, gênero, características, entre outros, através dos conceitos da área de Mineração de Texto (MT). A MT objetiva extrair informações importantes de um texto, através da análise de um conjunto de documentos textuais. Diversos trabalhos de MT foram sugeridos em âmbitos variados como, por exemplo, no campo da psiquiatria. Vários dos trabalhos propostos, nessa área, buscam identificar características textuais para percepção de distúrbios psicológicos, para análise dos sentimentos de pacientes, para detecção de problemas de segurança de registros médicos ou até mesmo para exploração da literatura biomédica. O trabalho aqui proposto, busca analisar depoimentos pessoais de potenciais pacientes para categorização dos textos por tipo de transtorno mental, seguindo a taxonomia DSM-5. O procedimento oferecido classifica os relatos pessoais coletados, em quatro tipos de transtorno (Anorexia, TOC, Autismo e Esquizofrenia). Utilizamos técnicas de MT para o pré-processamento e classificação de texto, com o auxilio dos pacotes de software do Weka. Resultados experimentais mostraram que o método proposto apresenta alto índice de precisão e que a fase de pré-processamento do texto tem impacto nesses resultados. A técnica de classificação Support Vector Machine (SVM) apresentou melhor desempenho, para os fins apresentados, em comparação a outras técnicas usadas na literatura. In the last few years, through the internet, communication became broader and more accessible. With the growth of social media, blogs, and websites in general, it became possible to establish a broader, diverse content base, where users present their opinions and personal stories. These data can be relevant to future observations or even to help other people’s decision process. However, this mass information is dispersing on the web, in free format, hindering the manual analysis for text categorization. Automating is the best option. However, comprehension of these texts in free format is not a simple task for the computer, taking into account irregularities and imprecisions of natural language. Giving these circumstances, automated text classification systems, by theme, gender, features, among others, are arising, through Text Mining (MT) concepts. MT aims to extract information from a text, by analyzing a set of text documents. Several MT papers were suggested on various fields, as an example, psychiatric fields. A number of proposed papers, in this area, try to identify textual features to perceive psychological disorders, to analyze patient’s sentiments, to detect security problems in medical records or even biomedical literature exploration. The paper here proposed aim to analyze potential patient’s personal testimonies for text categorization by mental disorder type, according to DSM-5 taxonomy. The offered procedure classifies the collected personal testimonies in four disorder types (anorexia, OCD, autism, and schizophrenia). MT techniques were used for pre-processing and text classification, with the support of software packages of Weka. Experimental results showed that the proposed method presents high precision values and the text pre-processing phase has impact in these results. The Support Vector Machine (SVM) classification technique presented better performance, for the presented ends, in comparison to other techniques used in literature.
- Published
- 2016
243. Uma hiper-heurística híbrida para a otimização de algorítmos
- Author
-
MIRANDA, Pericles Barbosa Cunha de and PRUDÊNCIO, Ricardo Bastos Cavalcante
- Subjects
Meta-learning. Particle Swarm Optimization. Genetic Programming. Algorithm generation ,Meta-aprendizado. Otimização por enxame de partículas. Programação Genética. Geração de algoritmos - Abstract
A escolha de algoritmos ou heurísticas para a resolução de um dado problema é uma tarefa desafiadora devido à variedade de possíveis escolhas de variações/configurações de algoritmos e a falta de auxílio em como escolhê-las ou combiná-las. Por exemplo, o desempenho de algoritmo de otimização depende da escolha dos seus operadores de busca e do ajuste adequado de seus hiper-parâmetros, cada um deles com muitas possibilidades de opções a serem escolhidas. Por este motivo, existe um interesse de pesquisa crescente na automatização da otimização de algoritmos de modo a tornar esta tarefa mais independente da interação humana. Diferentes abordagens têm lidado com a tarefa de ajuste de algoritmos como sendo outro problema de (meta)otimização. Estas abordagens são comumente chamadas de hiper-heurísticas, onde cada solução do espaço de busca, neste caso, é um possível algoritmo avaliado em um dado problema. Inicialmente, hiper-heurísticas foram aplicadas na seleção de valores de hiper-parâmetros em um espaço de busca pré-definido e limitado. No entanto, recentemente, hiper-heurísticas têm sido desenvolvidas para gerar algoritmos a partir de componentes e funções especificados. Hiperheurísticas de geração são consideradas mais flexíveis que as de seleção devido à sua capacidade de criar algoritmos novos e personalizados para um dado problema. As hiper-heurísticas têm sido largamente utilizadas na otimização de meta-heurísticas. No entanto, o processo de busca torna-se bastante custoso, pois a avaliação das soluções trata-se da execução do algoritmo no problema de entrada. Neste trabalho, uma nova hiper-heurística foi desenvolvida para a otimização de algoritmos considerando um dado problema. Esta solução visa prover algoritmos otimizados que sejam adequados para o problema dado e reduzir o custo computacional do processo de geração significativamente quando comparado ao de outras hiper-heurísticas. A hiper-heurística proposta combina uma abordagem de seleção de algoritmos com uma hiper-heurística de geração. A hiperheurística de geração é responsável por criar uma base de conhecimento, que contém algoritmos que foram gerados para um conjunto de problemas. Uma vez que esta base de conhecimento esteja disponível, ela é usada como fonte de algoritmos a serem recomendados pela abordagem de seleção de algoritmos. A ideia é reusar algoritmos previamente construídos pela hiper-heurística de geração em problemas similares. Vale salientar que a criação de hiper-heurísticas visando reduzir o custo de geração de algoritmos sem comprometer a qualidade destes algoritmos não foi estudada na literatura. Além disso, hiper-heurísticas híbridas que combinam de abordagens de seleção de algoritmos e hiper-heurísticas de geração para a otimização de algoritmos, proposta nesta tese, é novidade. Para avaliar o algoritmo proposto, foi considerada como estudo de caso a otimização do algoritmo baseado em enxames (PSO). Nos experimentos realizados, foram considerados 32 problemas de otimização. O algoritmo proposto foi avaliado quanto à sua capacidade de recomendar bons algoritmos para problemas de entrada, se estes algoritmos atingem resultados competitivos frente à literatura. Além disso, o sistema foi avaliado quanto à sua precisão na recomendação, ou seja, se o algoritmo recomendado seria, de fato, o melhor a ser selecionado. Os resultados mostraram que a hiper-heurística proposta é capaz de recomendar algoritmos úteis para os problemas de entrada e de forma eficiente. Adicionalmente, os algoritmos recomendados atingiram resultados competitivos quando comparados com algoritmos estado da arte e a recomendação dos algoritmos atingiu um alto percentual de precisão. Designing an algorithm or heuristic to solve a given problem is a challenging task due to the variety of possible design choices and the lack of clear guidelines on how to choose and/or combine them. For instance, the performance of an optimization algorithm depends on the designofitssearchoperatorsaswellasanadequatesettingofspecifichyper-parameters,eachof them with many possible options to choose from. Because of that, there is a growing research interest in automating the design of algorithms by exploring mainly optimization and machine learningapproaches,aimingtomakethealgorithmdesignprocessmoreindependentfromhuman interaction. Different approaches have dealt with the task of optimizing algorithms as another (meta)optimization problem. These approaches are commonly called hyper-heuristics, where each solution of the search space is a possible algorithm. Initially, hyper-heuristics were applied for the selection of parameters in a predefined and limited search space. Nonetheless, recently, generation hyper-heuristics have been developed to generate algorithms from a set of specified components and functions. Generation hyper-heuristics are considered more flexible than the selection ones due to its capacity to create new and customized algorithms for a given problem. Hyper-heuristics have been widely used for the optimization of meta-heuristics. However, the search process becomes expensive because the evaluation of each solution depends on the execution of an algorithm in a problem. In this work, a novel hyper-heuristic was developed to optimize algorithms considering a given problem. The proposed approach aims to provide optimizedalgorithmsfortheinputproblemandreducethecomputationalcostoftheoptimization process significantly when compared to other hyper-heuristics. The proposed hyper-heuristics combines an automated algorithm selection method with a generation hyper-heuristic. The generation hyper-heuristic is responsible for the creation of the knowledge base, which contains previously built algorithms for a set of problems. Once the knowledge base is available, it is used as a source of algorithms to be recommended by the automated algorithm selection method. The idea is to reuse the algorithms already built by the generation hyper-heuristic on similar problems. It is worth mentioning that the creation of hyper-heuristics aiming to reduce the cost of the algorithm generation without harming the quality of these algorithms were not studied yet. Besides, hybrid hyper-heuristics which combine an algorithm selection approach with a generation hyper-heuristic for the algorithm optimization, proposed in this thesis, are a novelty. To evaluate the proposed algorithm, it was considered as case study the optimization of the Particle Swarm Optimization algorithm (PSO). In our experiments, we considered 32 optimizationproblems.Theproposedsystemwasevaluatedregardingitscapacitytorecommend adequate algorithms for an input problem, the quality of the recommended algorithms, and, finally, regarding its accuracy to recommend algorithms. The results showed that the proposed system recommends useful algorithms for the input problem. Besides, the algorithms achieved competitive results when compared to state-of-the-art algorithms, and also, the system presented a high percentage of accuracy in the recommendation.
- Published
- 2016
244. CD-cars: cross domain context-aware recomender systems
- Author
-
SILVA, Douglas Véras e, FERRAZ, Carlos André Guimarães, and Prudêncio, Ricardo Bastos Cavalcante
- Subjects
Filtragem Colaborativa ,Cross-Domain Context-Aware Recommendation ,Cross-domain Recommendation ,Recomendação Sensível a Contexto ,Recomendação de Domínio Cruzado Sensível a Contexto ,Recomendação de Domínio Cruzado ,Context-Aware Recommendation ,Collaborative Filtering Recommendation - Abstract
FACEPE Traditionally, single-domain recommender systems (SDRS) have achieved good results in recommending relevant items for users in order to solve the information overload problem. However, cross-domain recommender systems (CDRS) have emerged aiming to enhance SDRS by achieving some goals such as accuracy improvement, diversity, addressing new user and new item problems, among others. Instead of treating each domain independently, CDRS use knowledge acquired in a source domain (e.g. books) to improve the recommendation in a target domain (e.g. movies). Likewise SDRS research, collaborative filtering (CF) is considered the most popular and widely adopted approach in CDRS, because its implementation for any domain is relatively simple. In addition, its quality of recommendation is usually higher than that of content-based filtering (CBF) algorithms. In fact, the majority of the cross-domain collaborative filtering RS (CD-CFRS) can give better recommendations in comparison to single domain collaborative filtering recommender systems (SD-CFRS), leading to a higher users’ satisfaction and addressing cold-start, sparsity, and diversity problems. However, CD-CFRS may not necessarily be more accurate than SD-CFRS. On the other hand, context-aware recommender systems (CARS) deal with another relevant topic of research in the recommender systems area, aiming to improve the quality of recommendations too. Different contextual information (e.g., location, time, mood, etc.) can be leveraged in order to provide recommendations that are more suitable and accurate for a user depending on his/her context. In this way, we believe that the integration of techniques developed in isolation (cross-domain and contextaware) can be useful in a variety of situations, in which recommendations can be improved by information from different sources as well as they can be refined by considering specific contextual information. In this thesis, we define a novel formulation of the recommendation problem, considering both the availability of information from different domains (source and target) and the use of contextual information. Based on this formulation, we propose the integration of cross-domain and context-aware approaches for a novel recommender system (CD-CARS). To evaluate the proposed CD-CARS, we performed experimental evaluations through two real datasets with three different contextual dimensions and three distinct domains. The results of these evaluations have showed that the use of context-aware techniques can be considered as a good approach in order to improve the cross-domain recommendation quality in comparison to traditional CD-CFRS. Tradicionalmente, “sistemas de recomendação de domínio único” (SDRS) têm alcançado bons resultados na recomendação de itens relevantes para usuários, a fim de resolver o problema da sobrecarga de informação. Entretanto, “sistemas de recomendação de domínio cruzado” (CDRS) têm surgido visando melhorar os SDRS ao atingir alguns objetivos, tais como: “melhoria de precisão”, “melhor diversidade”, abordar os problemas de “novo usuário” e “novo item”, dentre outros. Ao invés de tratar cada domínio independentemente, CDRS usam conhecimento adquirido em um domínio fonte (e.g. livros) a fim de melhorar a recomendação em um domínio alvo (e.g. filmes). Assim como acontece na área de pesquisa sobre SDRS, a filtragem colaborativa (CF) é considerada a técnica mais popular e amplamente utilizada em CDRS, pois sua implementação para qualquer domínio é relativamente simples. Além disso, sua qualidade de recomendação é geralmente maior do que a dos algoritmos baseados em filtragem de conteúdo (CBF). De fato, a maioria dos “sistemas de recomendação de domínio cruzado” baseados em filtragem colaborativa (CD-CFRS) podem oferecer melhores recomendações em comparação a “sistemas de recomendação de domínio único” baseados em filtragem colaborativa (SD-CFRS), aumentando o nível de satisfação dos usuários e abordando problemas tais como: “início frio”, “esparsidade” e “diversidade”. Entretanto, os CD-CFRS podem não ser mais precisos do que os SD-CFRS. Por outro lado, “sistemas de recomendação sensíveis à contexto” (CARS) tratam de outro tópico relevante na área de pesquisa de sistemas de recomendação, também visando melhorar a qualidade das recomendações. Diferentes informações contextuais (e.g. localização, tempo, humor, etc.) podem ser utilizados a fim de prover recomendações que são mais adequadas e precisas para um usuário dependendo de seu contexto. Desta forma, nós acreditamos que a integração de técnicas desenvolvidas separadamente (de “domínio cruzado” e “sensíveis a contexto”) podem ser úteis em uma variedade de situações, nas quais as recomendações podem ser melhoradas a partir de informações obtidas em diferentes fontes além de refinadas considerando informações contextuais específicas. Nesta tese, nós definimos uma nova formulação do problema de recomendação, considerando tanto a disponibilidade de informações de diferentes domínios (fonte e alvo) quanto o uso de informações contextuais. Baseado nessa formulação, nós propomos a integração de abordagens de “domínio cruzado” e “sensíveis a contexto” para um novo sistema de recomendação (CD-CARS). Para avaliar o CD-CARS proposto, nós realizamos avaliações experimentais através de dois “conjuntos de dados” com três diferentes dimensões contextuais e três domínios distintos. Os resultados dessas avaliações mostraram que o uso de técnicas sensíveis a contexto pode ser considerado como uma boa abordagem a fim de melhorar a qualidade de recomendações de “domínio cruzado” em comparação às recomendações de CD-CFRS tradicionais.
- Published
- 2016
245. Sistemas de recomendação baseados em contexto físico e social
- Author
-
PEIREIRA, Alysson Bispo and PRUDÊNCIO, Ricardo Bastos Cavalcante
- Subjects
Filtragem Colaborativa ,Sistemas de Recomendação ,Collaborative Filtering ,Post Filtering ,Contexto Social ,Social Context ,Recommender Systems ,Contexto Físico ,Physical Context - Abstract
Em meio a grande sobrecarga de dados disponíveis na internet, sistemas de recomendação tornam-se ferramentas indispensáveis para auxiliar usuários no encontro de itens ou conteúdos relevantes. Diversas técnicas de recomendação são aplicadas em diversos tipos de domínios diferentes. Seja na recomendação de filmes, música, amigos, lugares ou notícias, sistemas de recomendação exploram diversas informações disponíveis para aprender as preferências dos usuários e promover recomendações úteis. Uma das estratégias mais utilizadas é a de filtragem colaborativa. A qualidade dessa estratégia depende da quantidade de avaliações disponíveis e da qualidade do algoritmo utilizado para predição de avaliação. Estudos recentes demonstram que informações provenientes de redes sociais podem ser muito úteis para aumentar a precisão das recomendações. Assim como acontece no mundo real, no mundo virtual usuários buscam recomendações e conselhos de amigos antes de comprar um item ou consumir algum serviço, informações desse tipo podem ser úteis para definição do contexto social da recomendação. Além do social, informações físicas e temporais passaram a ser utilizadas para definição do contexto físico de cada recomendação. A companhia, a localização e as condições climáticas são bons exemplos de elementos físicos que levam um usuário a preferir certos itens. Um processo de recomendação que não leve em consideração elementos contextuais pode fazer com que o usuário tenha uma péssima experiência consumindo determina do item recomendado equivocadamente. Esta dissertação tem como objetivo investigar técnicas de filtragem colaborativa que utilizam contexto a fim de realizar recomendações que auxiliem usuários no encontro de itens relevantes. Nesse tipo de técnica, um sistema de recomendação base é utilizando para fornecer recomendações para o usuário alvo. Em seguida, são filtrados apenas os itens considerados relevantes para contextos previamente identificados nas preferências do usuário alvo. As técnicas implementadas foram aplicadas em dois experimentos com duas bases de dados de domínios diferentes: uma base composta por eventos e outra por filmes. Na recomendação de eventos, investigamos o uso de contextos físicos (i.e., tempo e local) e de contextos sociais (i.e., amigos na rede social) associados aos itens sugeridos aos usuários. Na recomendação de filmes, por sua vez, investigamos novamente o uso de contexto social. A partir da aplicação de pós-filtragem em três algoritmos de filtragem colaborativa usados como base, foi possível recomendar itens de forma mais precisa, como demonstrado nos experimentos realizados. The overload of data available on the internet makes recommendation systems become indispensable tools to assist users in meeting items or relevant content. Several recommendation techniques were has been userd in many different types of domains. Those systems can recommend movies, music, friends, places or news; recommender systems can exploit different information available to learn preferences of users and promote more useful recommendations. The collaborative filtering strategy is one of the most used. The quality of this technique depends on the number of available ratings and the algorithm used to predict. Recent studies show that information from social networks can be very useful to increase the accuracy recommendations. Just as in the real world, the virtual world users ask recommendations and advice from friends before buying an item or consume a service. Furthermore, the context of each rating may be crucial for the definition of new ratings. Location, date time and weather conditions are good examples of useful elements to define what should be the best items to recommend for some user. A recommendation process that does not respect those elements can provide a user a bad experience. This dissertation investigates collaborative filtering techniques based on context, and more specifically techniques based on post-filtering. First, a recommendation system was used to provide recommendations for a specific user. Then, only relevant items according to context preferences for the target user will be recommended. The techniques implemented was applied in two case studies with two different domains databases: one base composed of events and another of movies. In the event of recommendation, we investigated the use of physical contexts (i.e., time and place) and social contexts (i.e., friends in the social network) associated with items suggested to users. On the recommendation of movies, in turn, again we investigated the use of social context. From the application of post-filtering in three collaborative filtering algorithms used as a baseline, it was possible to recommend items more accurately, as demonstrated in the experiments.
- Published
- 2016
246. Seleção multiobjetivo de casos de teste utilizando técnicas de busca híbridas
- Author
-
SOUZA, Luciano Soares de, PRUDENCIO, Ricardo Bastos Cavalcante, and BARROS,Flávia de Almeida
- Subjects
Engenharia de software ,Inteligência artificial - Abstract
CAPES O processo de geração automática de casos de teste de software pode produzir grandes suítes que podem ser custosas para executar. Por causa disso, é necessária uma forma de selecionar um subconjunto de casos de teste de forma a adequar a execução dos testes aos recursos disponíveis no ambiente de testes. Essa tarefa é conhecida como seleção de casos de teste. Assim como a execução dos testes, a seleção de casos de teste pode ser custosa, pois normalmente é realizada de forma manual. Além disso, essa tarefa não é trivial, pois a mesma é equivalente ao problema NP-Completo de cobertura de conjuntos. Portanto, técnicas de busca são indicadas na resolução desse tipo de problema. Essa área de pesquisa é conhecida como Engenharia de Software Baseada em Busca. A maioria dos trabalhos relacionados aos testes de software dentro dessa área consideram apenas um único critério de seleção (objetivo). Entretanto, em alguns ambientes de testes é necessário atender a mais de um objetivo durante o processo de seleção. Nesses casos o problema de seleção é considerado como multicritério (ou multiobjetivo). Dentro desse contexto, o presente trabalho propôs novas técnicas de busca (híbridas e não híbridas) para a seleção multiobjetivo de casos de teste. Essas técnicas foram comparadas (através de experimentos controlados) em relação à qualidade das fronteiras de Pareto retornadas e em relação à capacidade de detecção de falhas. Adicionalmente, restrições impostas pelo ambiente de testes foram consideradas e técnicas híbridas com mecanismos de tratamento de restrições foram propostas e comparadas. Por fim, das técnicas propostas a técnica BSMPSO-FB (Binary Speed-constrained Multi-objective Particle Swarm Optimization with Forward Selection and Backward Elimination) foi a que obteve melhores resultados. The automatic test generation process can produce large test suites that can be very expensive to execute. Because of this, it is necessary to select a subset of test cases in order to fit the test execution to the available resources. This task is known as test case selection. Like manual test execution, test case selection can be very expensive because it, is usually performed by humans. Furthermore, this is not a trivial task because it is equivalent to the NP-Complete set covering problem. Hence, search techniques are well suited to deal with this problem. This research area is known as Search Based Software Engineering. Most of the test case selection works considers only one criterion (objective) at a time. But, some test environments need to consider more the one objective during the test case selection. In this light, the problem is referred as multi-criteria search (or multi-objective). According to this scenario, this work proposed new search techniques (hybrid and non hybrid) for multi-objective test case selection. These techniques were compared (through controlled experiments) by considering the quality of the returned Pareto frontiers and its faults detection ability. Furthermore, environments constraints were considered and new hybrid techniques with constraints treatment mechanisms were proposed and evaluated. In the end the BSMPSO-FB (Binary Speed-constrained Multi-objective Particle Swarm Optimization with Forward Selection and Backward Elimination) technique was the one with the best results.
- Published
- 2016
247. Um estudo sobre aprendizado de máquina aplicado à modelagem de retornos de ações
- Author
-
Santos Junior, José Gilmar Alves, Thomé, Antônio Carlos Gay, Prudêncio, Ricardo Bastos Cavalcante, Araújo, João Medeiros de, Canuto, Anne Magaly de Paula, Thome, Antonio Carlos Gay, Araujo, Joao Medeiros De, and Canuto, Anne Magaly De Paula
- Subjects
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO [CNPQ] ,Séries temporais financeiras ,Aprendizado de máquina ,Máquinas de vetores de suporte ,Mercado de ações - Abstract
O comportamento do preço de ações tem sido objeto de estudo há mais de um século, e as primeiras aplicações de inteligência artificial na previsão de retornos datam da década de 1980. Neste trabalho, foi realizado um estudo sobre a aplicação de máquinas de vetores de suporte na previsão de aspectos da distribuição de probabilidade de taxas de retorno futuras dos preços de ações do mercado brasileiro: com base em valores anteriores das taxas de retorno e volatilidades, ambas extraídas dos preços, deseja-se verificar se a sua utilização é vantajosa em relação a modelos estatísticos mais simples. Através da comparação do desempenho de diversos modelos (lineares, não lineares baseados em máquinas de vetores de suporte e híbridos) em séries temporais com amostragens semanal, diária e intraday de dez minutos, foi evidenciado que: (a) modelos híbridos geram previsões mais precisas do que os demais nas séries de volatilidades; (b) a aplicação de máquinas de vetores de suporte na previsão de valores esperados e intervalos de previsão para taxas de retorno não leva a ganhos em relação a modelos lineares; e (c) a abordagem de tratar a evolução de séries temporais como função pode levar a resultados similares aos alcançados (e muito aquém do melhor possível), caso as séries sejam não lineares contaminadas por ruído aditivo de grande magnitude. Stock prices behavior has been subject of research for over a century, and artificial intelligence techniques has been applied to forecast returns since the 1980s. In the present research, we examine the performance of support vector machines to forecast Brazilian stock returns and predictions intervals: based on past values of stock returns and volatilities, both extracted from prices series, we want to figure out if there is some gain over traditional statistical models. Our findings are based on analysis of linear, support vector and hybrid models applied to weekly, daily and intraday data. The empirical evidence suggests that (a) hybrid models performs better on forecasting volatilities series; (b) linear models performs better on forecasting stock returns expected values and prediction intervals; and (c) the approach of treating time series dynamics as a function may lead to results like the ones we’ve got (far bellow the best possible) if the time series is nonlinear with large additive noise.
- Published
- 2015
248. Similaridade de algoritmos em cenários sensíveis a custo
- Author
-
MELO, Carlos Eduardo Castor de and PRUDÊNCIO, Ricardo Bastos Cavalcante
- Subjects
Similaridade de Algoritmos. Desempenho de Algoritmos a Nível de Instância. Cenários Sensíveis a Custo. Meta-Aprendizado. Método de Escolha de Limiar ,Algorithm Similarity. Instance level Algorithms Performance. Cost Sensitive Scenarios. Meta-Learning. Threshold Choice Selection - Abstract
FACEPE análise da similaridade entre algoritmos de aprendizagem de máquina é um importante aspecto na área de Meta-Aprendizado, onde informações obtidas a partir de processos de aprendizagem conhecidos podem ser utilizadas para guiar a seleção de algoritmos para tratar novos problemas apresentados. Essa similaridade é geralmente calculada através de métricas globais de desempenho, que omitem informações importantes para o melhor entendimento do comportamento dos algoritmos. Também existem abordagens onde é verificado o desempenho individualmente em cada instância do problema. Ambas as abordagens não consideram os custos associados a cada classe do problema, negligenciando informações que podem ser muito importantes em vários contextos de aprendizado. Nesse trabalho são apresentadas métricas para a avaliação do desempenho de algoritmos em cenários sensíveis a custo. Cada cenário é descrito a partir de um método para escolha de limiar para a construção de um classificador a partir de um modelo aprendido. Baseado nos valores de desempenho em cada instância, é proposta uma forma de avaliar a similaridade entre os algoritmos tanto em nível de problema como em nível global. Os experimentos realizados para ilustrar as métricas apresentadas neste trabalho foram realizados em um estudo de Meta-Aprendizado utilizando 19 algoritmos para a classificação das instâncias de 152 problemas. As medidas de similaridades foram utilizadas para a criação de agrupamentos hierárquicos. Os agrupamentos criados mostram como o comportamento entre os algoritmos diversifica de acordo com o cenário de custo a ser tratado. The analysis of the similarity between machine learning algorithms is an important aspect of Meta-Learning, where knowledge gathered from known learning processes can be used to guide the selection of algorithms to tackle new learning problems presented. This similarity is usually calculated through global performance metrics that omit important information about the algorithm behavior. There are also approaches where the performance is verified individually on each instance of a problem. Both these approaches do not consider the costs associated with each problem class, hence they neglect information that can be very important in different learning contexts. In this study, metrics are presented to evaluate the performance of algorithms in cost sensitive scenarios. Each scenario is described by a threshold choice method, used to build a crisp classifier from a learned model. Based on the performance values for each problem instance, it is proposed a method to measure the similarity between the algorithms in a local level (for each problem) and in a global level (across all problems observed). The experiments used to illustrate the metrics presented in this paper were performed in a Meta-Learning study using 19 algorithms for the classification of the instances of 152 learning problems. The similarity measures were used to create hierarchical clusters. The clusters created show how the behavior of the algorithms diversifies according to the cost scenario to be treated.
- Published
- 2015
249. Explorando informação relacional para análise de sentimentos em redes sociais
- Author
-
RABELO, Juliano Cícero Bitu, PRUDÊNCIO, Ricardo Bastos Cavalcante, and BARROS, Flávia de Almeida
- Subjects
Redes sociais ,Natural language processing ,Classificação Coletiva ,Collective classification ,Social networks ,Processamento de linguagem natural - Abstract
CNPq A web, inicialmente um mero repositório de informações estáticas, transformou-se numa enorme fonte de aplicações diversas, proporcionando ou fomentando entretenimento, negócios e relacionamentos. Com essa evolução, a web passou a conter uma enorme quantidade de informações valiosas sobre produtos e serviços, especialmente em sites de compra, sites específicos para avaliação de produtos e até mesmo em redes sociais. Com as ferramentas adequadas, é possível monitorar opiniões ou mensurar a aceitação de um objeto qualquer a partir de dados disponíveis online, ao invés de realizar pesquisas de opinião usuais, que são demoradas, trabalhosas, tem alto custo e alcançam um número bastante restrito de pessoas. Com o monitoramento online, todo o processo de consolidação de opiniões pode ser realizado de forma automática, oferecendo um feedback imediato e mais representativo sobre o objeto avaliado. O problema geral desta proposta de tese é a classificação dos usuários de acordo com suas opiniões sobre um objeto de interesse. Comumente, a classificação das opiniões emitidas por um dado usuário é feita através da classificação de sentimentos expressos em textos, postagens ou comentários. Se a classificação de opiniões, no entanto, for realizada em ambientes nos quais haja conexões entre seus usuários (como as redes sociais), uma nova dimensão de informação se apresenta: através da análise dos relacionamentos, é possível inferir as opiniões de usuários a partir da opinião de seus contatos. A abordagem proposta neste trabalho para realização de análise de sentimento em redes sociais é baseada no princípio da assortatividade, que estabelece que indivíduos tendem a se conectar a outros com os quais apresentam alto grau de semelhança. A partir desse conceito, são aplicadas técnicas de classificação coletiva sobre o grafo que representa a rede social. A intenção é explorar o fato de que a classificação coletiva não utiliza apenas as características locais dos nós no processo de inferência, mas também as características e classes dos nós relacionados. Além disso, a classificação é executada de forma simultânea sobre todas as instâncias, o que permite considerar as influências que cada instância exerce sobre outras às quais está relacionada. Para avaliação da viabilidade do método proposto, foi implementado um protótipo que usa um algoritmo de relaxation labeling para a classificação coletiva de opiniões de usuários, e foi desenvolvido um estudo de caso para predição de preferência política de usuários do Twitter, que alcançou resultados promissores. The web, which was initially a mere repository for static information, has turned into a huge source of different applications, containing not only information but also promoting entertainment, business and relationships. Thus, the web currently has plenty of valuable information on products and services, especially in shopping, product evaluation and social networks websites. With the proper tools, it is possible to monitor opinions or to measure acceptance of a given object from data available online, instead of running usual polls, which are time and labor consuming, expensive and have limited reach. With online monitoring, the opinion consolidation process may be done automatically, offering an immediate, representative feedback on the evaluated object. This thesis proposal general problem is the classification of users according to his/her opinions given a target object. Commonly, the user opinion classification is performed through the use of text classifiers over his/her texts, comments or posts. If this opinion classification process takes place in environments where there are connections among its users (like social networks), a new information dimension shows up: through analysis of users relationships, it is possible to infer users opinions by using his/her contacts opinions. The approach proposed here to social networks sentiment analysis is based on the homophily principle, which states that users are more likely to connect to similar others. Using that concept, we apply collective classification techniques on the graph that represents the social network. The intention is to leverage the fact that collective classification uses not only the local node features in the inference process, but also the features and classes of the neighborhood. Besides, the classification is executed simultaneously on all nodes, which allows considering the influences of each node on its neighbors. To evaluate the proposed method, we implemented a prototype which uses a relaxation labeling algorithm for the collective classification of users opinions, and developed a case study to predict the political preference of users in Twitter, achieving promising results.
- Published
- 2015
250. Investigação da combinação de filtragem colaborativa e recomendação baseada em confiança através de medidas de esparsidade
- Author
-
AZUIRSON, Gabriel de Albuquerque Veloso and PRUDÊNCIO, Ricardo Bastos Cavalcante
- Subjects
Fatoração de Matriz ,Filtragem Colaborativa ,Sistemas de Recomendação ,Collaborative Filtering ,Recommender Systems ,Matrix Factorization ,Trust-Based Recommendation Systems ,Sistemas de Recomendação Baseados em Confiança ,Sparsity Measures ,Medidas de Esparsidade - Abstract
Sistemas de recomendação têm desempenhado um papel importante em diferentes contextos de aplicação (e.g recomendação de produtos, filmes, músicas, livros, dentre outros). Eles automaticamente sugerem a cada usuário itens que podem ser relevantes, evitando que o usuário tenha que analisar uma quantidade gigantesca de itens para realizar sua escolha. Filtragem colaborativa (FC) é a abordagem mais popular para a construção de sistemas de recomendação, embora sofra com problemas relacionados à esparsidade dos dados (e.g., usuários ou itens com poucas avaliações). Neste trabalho, investigamos a combinação de técnicas de FC, representada pela técnica de Fatoração de Matrizes, e técnicas de recomendação baseada em confiança (RBC) em redes sociais para aliviar o problema da esparsidade dos dados. Sistemas de RBC têm se mostrado de fato efetivos para aumentar a qualidade das recomendações, em especial para usuários com poucas avaliações realizadas (e.g., usuários novos). Entretanto, o desempenho relativo entre técnicas de FC e de RBC pode depender da quantidade de informação útil presente nas bases de dados. Na arquitetura proposta nesse trabalho, as predições geradas por técnicas de FC e de RBC são combinadas de forma ponderada através de medidas de esparsidade calculadas para usuários e itens. Para isso, definimos inicialmente um conjunto de medidas de esparsidade que serão calculadas sobre a matriz de avaliações usuários-itens e matriz de confiança usuários-usuários. Através de experimentos realizados utilizando a base de dados Epinions, observamos que a proposta de combinação trouxe uma melhoria nas taxas de erro e na cobertura em comparação com as técnicas isoladamente. Recommender systems have played an important role in different application contexts (e.g recommendation of products, movies, music, books, among others). They automatically suggest each user items that may be relevant, preventing the user having to analyze a huge amount of items to make your choice. Collaborative filtering (CF) is the most popular approach for building recommendation systems, although suffering with sparsity of the data-related issues (eg, users or items with few evaluations). In this study, we investigated the combination of CF techniques represented by matrix factorization technique, and trust-based recommendation techniques (TBR) on social networks to alleviate the problem of data sparseness. TBR systems have in fact proven to be effective to increase the quality of the recommendations, especially for users with few assessments already carried out (e.g., cold start users). However, the relative performance between CF and TBR techniques may depend on the amount of useful information contained in the databases. In the proposed architecture in this work, the predictions generated by CF and TBR techniques are weighted combined through sparsity measures calculated to users and items. To do this, first we define a set of sparsity measures that will be calculated on the matrix of ratings users-items and matrix of trust users-users. Through experiments using Epinions database, we note that the proposed combination brought an improvement in error rates and coverage compared to combined techniques.
- Published
- 2015
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.