97 results on '"Ciferri, Ricardo"'
Search Results
2. ProvOER model: A provenance model for Open Educational Resources
- Author
-
Ribeiro dos Santos, Renata, Prado Santos, Marilde Terezinha, and Ciferri, Ricardo Rodrigues
- Published
- 2023
- Full Text
- View/download PDF
3. Porting disk-based spatial index structures to flash-based solid state drives
- Author
-
Carniel, Anderson Chaves, Roumelis, George, Ciferri, Ricardo R., Vassilakopoulos, Michael, Corral, Antonio, and Aguiar, Cristina D.
- Published
- 2022
- Full Text
- View/download PDF
4. Random access with a distributed Bitmap Join Index for Star Joins
- Author
-
Brito, Jaqueline J., Mosqueiro, Thiago, Ciferri, Ricardo R., and Ciferri, Cristina D.A.
- Published
- 2020
- Full Text
- View/download PDF
5. A generic and efficient framework for flash-aware spatial indexing
- Author
-
Carniel, Anderson C., Ciferri, Ricardo R., and Ciferri, Cristina D.A.
- Published
- 2019
- Full Text
- View/download PDF
6. Faster cloud Star Joins with Reduced Disk Spill and Network Communication
- Author
-
Brito, Jaqueline Joice, Mosqueiro, Thiago, Ciferri, Ricardo Rodrigues, and Ciferri, Cristina Dutra de Aguiar
- Published
- 2016
- Full Text
- View/download PDF
7. A non-intrusive and reactive architecture to support real-time ETL processes in data warehousing environments
- Author
-
de Assis Vilela, Flávio, primary, Times, Valéria Cesário, additional, de Campos Bernardi, Alberto Carlos, additional, de Paula Freitas, Augusto, additional, and Ciferri, Ricardo Rodrigues, additional
- Published
- 2023
- Full Text
- View/download PDF
8. Spatial data warehouses and spatial OLAP come towards the cloud: design and performance
- Author
-
Mateus, Rodrigo Costa, Siqueira, Thiago Luís Lopes, Times, Valéria Cesário, Ciferri, Ricardo Rodrigues, and de Aguiar Ciferri, Cristina Dutra
- Published
- 2016
- Full Text
- View/download PDF
9. Empowering integration processes with data provenance
- Author
-
Tomazela, Bruno, Hara, Carmem Satie, Ciferri, Ricardo Rodrigues, and Ciferri, Cristina Dutra de Aguiar
- Published
- 2013
- Full Text
- View/download PDF
10. Slicing the metric space to provide quick indexing of complex data in the main memory
- Author
-
Carélo, Caio César Mori, Pola, Ives Renê Venturini, Ciferri, Ricardo Rodrigues, Traina, Agma Juci Machado, Traina, Caetano, Jr, and Ciferri, Cristina Dutra de Aguiar
- Published
- 2011
- Full Text
- View/download PDF
11. Modeling vague spatial data warehouses using the VSCube conceptual model
- Author
-
Siqueira, Thiago Luís Lopes, Ciferri, Cristina Dutra de Aguiar, Times, Valéria Cesário, and Ciferri, Ricardo Rodrigues
- Published
- 2014
- Full Text
- View/download PDF
12. Porting disk-based spatial index structures to flash-based solid state drives
- Author
-
Carniel, Anderson Chaves, primary, Roumelis, George, additional, Ciferri, Ricardo R., additional, Vassilakopoulos, Michael, additional, Corral, Antonio, additional, and Aguiar, Cristina D., additional
- Published
- 2021
- Full Text
- View/download PDF
13. The SB-index and the HSB-index: efficient indices for spatial data warehouses
- Author
-
Siqueira, Thiago Luís Lopes, Ciferri, Cristina Dutra de Aguiar, Times, Valéria Cesário, and Ciferri, Ricardo Rodrigues
- Published
- 2012
- Full Text
- View/download PDF
14. The impact of spatial data redundancy on SOLAP query performance
- Author
-
Siqueira, Thiago Luís Lopes, Ciferri, Cristina Dutra de Aguiar, Times, Valéria Cesário, de Oliveira, Anjolina Grisi, and Ciferri, Ricardo Rodrigues
- Published
- 2009
- Full Text
- View/download PDF
15. FESTIval: A versatile framework for conducting experimental evaluations of spatial indices
- Author
-
Carniel, Anderson C., primary, Ciferri, Ricardo R., additional, and Ciferri, Cristina D.A., additional
- Published
- 2020
- Full Text
- View/download PDF
16. Analyzing the Performance of Spatial Indices on Hard Disk Drives and Flash-based Solid State Drives
- Author
-
Chaves Carniel, Anderson, Rodrigues Ciferri, Ricardo, Dutra de Aguiar Ciferri, Cristina, CAPES, CNPq, FAPESP, and Microsoft Research
- Subjects
benchmarking ,flash memory ,spatial database ,spatial indexing ,Hardware_MEMORYSTRUCTURES - Abstract
Spatial database systems and Geographic Information Systems frequently employ disk-based spatial indices like the R-tree and the R*-tree to speed up the processing of spatial queries, such as spatial range queries. Commonly, these indices are originally designed for Hard Disk Drives (HDDs) and thus, they take into account the slow mechanical access and the cost of search and rotational delay of magnetic disks. On the other hand, flash-based Solid State Drives (SSDs) have widely been adopted in local data centers and cloud data centers like the Microsoft Azure environment. Because of intrinsic characteristics of SSDs like the erase-before-update property and the asymmetric costs between reads and writes, the impact of spatial indexing on SSDs needs to be studied. In this article, we conduct an experimental evaluation in order to analyze the performance relation of spatial indexing on HDDs and SSDs. For this purpose, we execute our experiments on a local server equipped with an HDD and an SSD, as well as on virtual machines equipped with HDDs and SSDs and allocated in the Microsoft Azure environment. As a result, we show experimentally that spatial indices originally designed for HDDs should be redesigned for SSDs in order to take into account the intrinsic characteristics of SSDs. This means that a spatial index that showed a good performance on an HDD often did not show the same good performance on an SSD.
- Published
- 2017
17. An Encryption Methodology for Enabling the Use of Data Warehouses on the Cloud
- Author
-
Lopes, Claudivan Cruz, primary, Cesário-Times, Valéria, additional, Matwin, Stan, additional, Ciferri, Cristina Dutra de Aguiar, additional, and Ciferri, Ricardo Rodrigues, additional
- Published
- 2018
- Full Text
- View/download PDF
18. The VagueGeometry Abstract Data Type
- Author
-
Chaves Carniel, Anderson, Rodrigues Ciferri, Ricardo, Dutra de Aguiar Ciferri, Cristina, FAPESP, CAPES, and CNPq
- Subjects
abstract data types ,spatial databases ,vague spatial objects ,vague topological predicates - Abstract
Spatial vagueness has been increasingly required by geoscientists to handle vague spatial objects, that is, spatial objects found in real-world phenomena that do not have exact locations, strict boundaries, or sharp interiors. However, there is a gap in the literature in how to handle spatial vagueness in spatial database management systems and Geographical Information Systems (GIS) since they mainly provide support to crisp spatial objects, that is, objects that have well-defined locations, boundaries, and interiors. In this article, we propose VagueGeometry, a novel abstract data type that allows users to manipulate vague spatial objects in spatial applications and GIS. The main advantages of our VagueGeometry are that (i) it offers textual and binary representations for vague spatial objects, (ii) it includes an expressive set of vague spatial operations, (iii) it supports SQL operators, and (iv) its implementation is open source. We also propose an improvement of VagueGeometry to deal efficiently with the processing of vague topological predicates. Experimental results show that VagueGeometry improved the performance of spatial queries with vague topological predicates from 21% up to 98% if compared with functionalities available in current spatial databases.
- Published
- 2016
19. Handling Fuzzy Points and Fuzzy Lines using the FuzzyGeometry Abstract Data Type
- Author
-
Chaves Carniel, Anderson, Rodrigues Ciferri, Ricardo, Dutra de Aguiar Ciferri, Cristina, FAPESP, CAPES, and CNPq
- Subjects
abstract data types ,spatial databases ,fuzzy spatial objects ,spatial fuzzyness - Abstract
Crisp spatial objects are geometric features with exact location on the extent and well-known boundaries. On the other hand, vague or fuzzy spatial objects are characterized by uncertain or blurred boundaries and interiors. Despite the importance of fuzzy spatial data in spatial applications, few related work indeed implement them. In addition, related work do not define abstract data types to enable the management of fuzzy spatial objects by using database management systems (DBMS). In this article, we propose the abstract data type FuzzyGeometry to handle fuzzy spatial objects in the PostgreSQL DBMS. Its implementation is open source. It offers management for fuzzy point objects and fuzzy line objects as well as provides several operations to handle them. As a result, users are able to access PostgreSQL in order to use fuzzy spatial objects in spatial queries.
- Published
- 2016
20. USING ENSEMBLES WITH SPATIAL CLUSTERING APPROACHES APPLIED IN THE DELINEATION OF MANAGEMENT CLASSES IN PRECISION AGRICULTURE
- Author
-
Speranza, Eduardo Antonio, primary and Ciferri, Ricardo Rodrigues, additional
- Published
- 2017
- Full Text
- View/download PDF
21. The HeightBL Algorithm for Bulk-loading F-Onion-trees
- Author
-
Carosia, Arthur Emanuel de Oliveira, Ciferri, Ricardo Rodrigues, Ciferri, Cristina Dutra de Aguiar, and FAPESP, CNPq, CAPES and FINEP
- Subjects
metric access method, similarity search ,bulk-loading ,Onion-tree ,F-Onion-tree - Abstract
The F-Onion-tree is a robust access method that slices the metric space into disjoint subspaces to provide quick indexing of complex data in the main memory. However, the F-Onion-tree only performs element-by-element insertions into its structure, i.e. it does not introduce a technique to build the index considering all elements of the dataset at once. In this article, we fill this gap. We propose the HeightBL algorithm for bulk-loading F-Onion-trees. Performance tests with real-world data with different volumes and dimensionalities showed that the index produced by the HeightBL algorithm is very compact. Compared with the element-by-element insertion, the size of the index reduced from 53.42% to 71.25%. The experiments also showed that the HeightBL algorithm significantly improved range and k-NN query processing performance. It required from 13.38% up to 99.94% less distance calculations and was from 8.57% up to 99.04% faster than the element-by-element insertion.
- Published
- 2014
22. Indexing and Querying Vague Spatial Data Warehouses
- Author
-
Siqueira, Thiago, Oliveira, João, Times, Valéria, Ciferri, Cristina, Ciferri, Ricardo, and CAPES, CNPq, FAPESP and FINEP
- Subjects
Spatial Data Warehouses ,Spatial Vagueness ,Vague Regions ,VSB-index - Abstract
A vague spatial data warehouse allows multidimensional queries with spatial predicates to support the analysis of business scores related to vague spatial data, crisp spatial data and conventional data. However, vague spatial data are often represented and stored as multiple geometries and impair the query processing performance. In this paper, we describe an index called VSB-index to improve the query processing performance in vague spatial data warehouses, focusing on range queries and vague regions. We also conduct an experimental evaluation using a real dataset, demonstrating that our VSB-index provided remarkable performance gains up to 94% over existing solutions.
- Published
- 2014
23. A Novel Method for Selecting and Materializing Views based on OLAP Signatures and GRASP
- Author
-
Firmino, Andresson da Silva, Mateus, Rodrigo Costa, Times, Valéria Cesário, Cabral, Lucidio Formiga, Siqueira, Thiago Luís Lopes, Ciferri, Ricardo Rodrigues, and Ciferri, Cristina Dutra de Aguiar
- Subjects
Data Warehouse ,Materialized Views ,Performance Evaluation - Abstract
Although the materialization of views reduces the execution time of OLAP queries, the materialization of a large number of views may exceed computer storage thresholds. Thus, given a certain storage cost threshold, there is a need for selecting the best views to be materialized, i.e. views that ?t the storage requirements and provide the lowest response time to process OLAP queries. Several solutions have been proposed in the literature to solve this problem. However, most studies have adopted strictly greedy or purely random approaches. Also, most of them do not encompass the entire cycle of execution of multidimensional analysis, or do not specify and implement the whole cycle of multidimensional query execution. In this paper, we address these issues by proposing a novel method for selecting and materializing views based on OLAP signatures and GRASP (Greedy Randomized Adaptive Search). On the one hand, using OLAP signatures and their relationships with descriptions of the data cube, we are able to identify which views should be materialized for being more beneficial to the user query processing. On the other hand, using GRASP allows us to de?ne a hybrid method, which traverses the solution space in a comprehensive manner as performed in purely random approaches, while examines only the regions of the search space with a great concentration of good solutions generated by a greedy approach. GRASP was compared to other VSP algorithms, namely Pick by Size (PBS) and Ant Colony Optimization (ACO), and performance tests indicated that compared to PBS, the proposed method obtained a time reduction of about 20.4% in query processing. In addition, GRASP was more scalable than PBS, since it selected and materialized a smaller set of views, even when there was a wide range of possible views to be chosen. Also, GRASP obtained nearly the same query runtime of ACO (i.e. a small performance loss of about 2.84% was obtained by GRASP), but a shorter time for the selection of views than the ACO algorithm (i.e. a gain in processing time of about 77% was produced by GRASP).
- Published
- 2011
24. ADI-Minebio: A Graph Mining Algorithm for Biomedical Data
- Author
-
Gomide, Rodrigo de Sousa, Ciferri, Cristina Dutra de Aguiar, Ciferri, Ricardo Rodrigues, Vieira, Marina Teresa Pires, and FAPESP, CNPq, CAPES, and FINEP
- Subjects
graph ,graph mining ,biomedical data ,adjacency index - Abstract
Graph mining is concerned with mining frequent subgraph patterns over a collection of graphs, aiming to find novel and useful knowledge. It has being used to analyze data from different domains, sometimes using algorithms tailored for a specific area of knowledge. In this paper, we propose a graph-mining algorithm and its application in the biomedical domain. We introduce the ADI-bio structure, which organizes data from a database with information of a disease’s patient, and also the ADI-Minebio algorithm, which performs a search on the proposed ADI-bio structure to find frequent subgraphs. Our approach is based on the ADI (adjacency index) structure and the ADI-Mine algorithm, but specifies a different structure and hence a new way of analyzing data through this structure. We also present a performance study to show the feasibility of our approach.
- Published
- 2011
25. The Design of Vague Spatial Data Warehouses
- Author
-
Zimanyi, Esteban, Ciferri, Ricardo Rodrigues, Vansummeren, Stijn, Vaisman, Alejandro Ariel, Prado Santos, Marilde Terezinha, Ribeiro, Marcela Xavier, Lopes Siqueira, Thiago Luis, Zimanyi, Esteban, Ciferri, Ricardo Rodrigues, Vansummeren, Stijn, Vaisman, Alejandro Ariel, Prado Santos, Marilde Terezinha, Ribeiro, Marcela Xavier, and Lopes Siqueira, Thiago Luis
- Abstract
Spatial data warehouses (SDW) and spatial online analytical processing (SOLAP) enhance decision making by enabling spatial analysis combined with multidimensional analytical queries. A SDW is an integrated and voluminous multidimensional database containing both conventional and spatial data. SOLAP allows querying SDWs with multidimensional queries that select spatial data that satisfy a given topological relationship and that aggregate spatial data. Existing SDW and SOLAP applications mostly consider phenomena represented by spatial data having exact locations and sharp boundaries. They neglect the fact that spatial data may be affected by imperfections, such as spatial vagueness, which prevents distinguishing an object from its neighborhood. A vague spatial object does not have a precisely defined boundary and/or interior. Thus, it may have a broad boundary and a blurred interior, and is composed of parts that certainly belong to it and parts that possibly belong to it. Although several real-world phenomena are characterized by spatial vagueness, no approach in the literature addresses both spatial vagueness and the design of SDWs nor provides multidimensional analysis over vague spatial data. These shortcomings motivated the elaboration of this doctoral thesis, which addresses both vague spatial data warehouses (vague SDWs) and vague spatial online analytical processing (vague SOLAP). A vague SDW is a SDW that comprises vague spatial data, while vague SOLAP allows querying vague SDWs. The major contributions of this doctoral thesis are: (i) the Vague Spatial Cube (VSCube) conceptual model, which enables the creation of conceptual schemata for vague SDWs using data cubes; (ii) the Vague Spatial MultiDim (VSMultiDim) conceptual model, which enables the creation of conceptual schemata for vague SDWs using diagrams; (iii) guidelines for designing relational schemata and integrity constraints for vague SDWs, and for extending the SQL language to enable vague SOLAP; (i, Les entrepôts de données spatiales (EDS) et l'analyse en ligne spatiale (ALS) améliorent la prise de décision en permettant l'analyse spatiale combinée avec des requêtes analytiques multidimensionnelles. Un EDS est une base de données multidimensionnelle intégrée et volumineuse qui contient des données classiques et des données spatiales. L'ALS permet l'interrogation des EDS avec des requêtes multidimensionnelles qui sélectionnent des données spatiales qui satisfont une relation topologique donnée et qui agrègent les données spatiales. Les EDS et l'ALS considèrent essentiellement des phénomènes représentés par des données spatiales ayant une localisation exacte et des frontières précises. Ils négligent que les données spatiales peuvent être affectées par des imperfections, comme l'imprécision spatiale, ce qui empêche de distinguer précisément un objet de son entourage. Un objet spatial vague n'a pas de frontière et/ou un intérieur précisément définis. Ainsi, il peut avoir une frontière large et un intérieur flou, et est composé de parties qui lui appartiennent certainement et des parties qui lui appartiennent éventuellement. Bien que plusieurs phénomènes du monde réel sont caractérisés par l'imprécision spatiale, il n'y a pas dans la littérature des approches qui adressent en même temps l'imprécision spatiale et la conception d'EDS ni qui fournissent une analyse multidimensionnelle des données spatiales vagues. Ces lacunes ont motivé l'élaboration de cette thèse de doctorat, qui adresse à la fois les entrepôts de données spatiales vagues (EDS vagues) et l'analyse en ligne spatiale vague (ALS vague). Un EDS vague est un EDS qui comprend des données spatiales vagues, tandis que l'ALS vague permet d'interroger des EDS vagues. Les contributions majeures de cette thèse de doctorat sont: (i) le modèle conceptuel Vague Spatial Cube (VSCube), qui permet la création de schémas conceptuels pour des EDS vagues à l'aide de cubes de données; (ii) le modèle conceptuel Vague Spati, O data warehouse espacial (DWE) é um banco de dados multidimensional integrado e volumoso que armazena dados espaciais e dados convencionais. Já o processamento analítico-espacial online (SOLAP) permite consultar o DWE, tanto pela seleção de dados espaciais que satisfazem um relacionamento topológico, quanto pela agregação dos dados espaciais. Deste modo, DWE e SOLAP beneficiam o suporte a tomada de decisão. As aplicações de DWE e SOLAP abordam majoritarimente fenômenos representados por dados espaciais exatos, ou seja, que assumem localizações e fronteiras bem definidas. Contudo, tais aplicações negligenciam dados espaciais afetados por imperfeições, tais como a vagueza espacial, a qual interfere na identificação precisa de um objeto e de seus vizinhos. Um objeto espacial vago não tem sua fronteira ou seu interior precisamente definidos. Além disso, é composto por partes que certamente pertencem a ele e partes que possivelmente pertencem a ele. Apesar de inúmeros fenômenos do mundo real serem caracterizados pela vagueza espacial, na literatura consultada não se identificaram trabalhos que considerassem a vagueza espacial no projeto de DWE e nem para consultar o DWE. Tal limitação motivou a elaboração desta tese de doutorado, a qual introduz os conceitos de DWE vago e de SOLAP vago. Um DWE vago é um DWE que armazena dados espaciais vagos, enquanto que SOLAP vago provê os meios para consultar o DWE vago. Nesta tese, o projeto de DWE vago é abordado e as principais contribuições providas são: (i) o modelo conceitual VSCube que viabiliza a criação de um cubos de dados multidimensional para representar o esquema conceitual de um DWE vago; (ii) o modelo conceitual VSMultiDim que permite criar um diagrama para representar o esquema conceitual de um DWE vago; (iii) diretrizes para o projeto lógico do DWE vago e de suas restrições de integridade, e para estender a linguagem SQL visando processar as consultas de SOLAP vago no DWE vago; e (iv) o índice VSB-index que aprimora, Doctorat en Sciences de l'ingénieur et technologie, Location of the public defense: Universidade Federal de São Carlos, São Carlos, SP, Brazil., info:eu-repo/semantics/nonPublished
- Published
- 2015
26. How Does the Spatial Data Redundancy Affect Query Performance in Geographic Data Warehouses?
- Author
-
Mateus, Rodrigo Costa, Siqueira, Thiago Luís Lopes, Times, Valéria Cesário, Ciferri, Ricardo Rodrigues, Ciferri, Cristina Dutra de Aguiar, and This work has been supported by the following Brazilian research agencies: FAPESP, FACEPE, CNPq, CAPES, INEP and FINEP. The third and fourth authors also thank the support of the Web-PIDE Project in the context of the Observatory of the Education of the B
- Subjects
benchmark ,geographic data warehouse ,performance evaluation - Abstract
Geographic Data Warehouses (GDWs) are traditional data warehouses with spatial attributes that are used for defining spatial dimension tables, spatial measures and spatial hierarchies. Non-redundant spatial data warehouse schemas have been recognized as an essential issue in the GDW design. Although the lack of spatial redundancy represents a gain in data storage, it implies in a need for performing expensive join operations to answer a given query that may refer to one or more query windows. In this paper, we investigate to what extent the separate storage of spatial and conventional data is recommended in GDW, according to increasing numbers of query windows. We also investigate if the complexity of the spatial data (i.e. points versus polygons) influences the choice of storing spatial and conventional data in the same or in different dimension tables. Our experimental results indicated that if non-redundant spatial data are represented as point objects, an approach to avoid additional join costs by storing both point data and their descriptive data in a single table should be chosen. The results also showed that redundant GDW schemas introduce a severe drawback, as some spatial analytical queries cannot reuse previously fetched spatial data, impairing query performance. Finally, based on the experimental results, we propose in this paper a set of guidelines for the design of logical GDW schemas, called ``Logical GDW Design Guidelines''.
- Published
- 2010
27. Spatial data warehouses and spatial OLAP come towards the cloud: design and performance
- Author
-
Mateus, Rodrigo Costa, primary, Siqueira, Thiago Luís Lopes, additional, Times, Valéria Cesário, additional, Ciferri, Ricardo Rodrigues, additional, and de Aguiar Ciferri, Cristina Dutra, additional
- Published
- 2015
- Full Text
- View/download PDF
28. The impact of spatial data redundancy on SOLAP query performance
- Author
-
Ciferri, Ricardo Rodrigues
- Subjects
Banco de Dados - Published
- 2009
29. Análise da Influência do Fator Distribuição Espacial dos Dados no Desempenho de Métodos de Acesso Multidimensionais
- Author
-
CIFERRI, Ricardo Rodrigues and SALGADO, Ana Carolina Brandão
- Subjects
Técnica experimental de benchmark ,Banco de dados espaciais ,Árvores-R ,Distribuição espacial dos dados ,Estruturas de indexação espacial ,Métodos de acesso multidimensionais ,Análise de desempenho - Abstract
Um método de acesso multidimensional (MAM) é uma estrutura de indexação voltada ao suporte de objetos espaciais, especialmente de retângulos. O principal objetivo de um MAM é propiciar uma rápida obtenção dos objetos espaciais que satisfazem um certo relacionamento topológico, métrico ou direcional. Neste sentido, o espaço indexado é organizado de tal forma que, por exemplo, a recuperação dos retângulos de dados contidos em uma área particular requeira apenas o acesso aos retângulos próximos a esta área, em oposição à análise do conjunto completo de retângulos armazenados em memória secundária. Um MAM, portanto, é projetado como um caminho otimizado aos dados espaciais e o seu uso melhora significativamente o desempenho de sistemas gerenciadores de banco de dados espaciais no processamento de consultas. Nesta tese, nós investigamos o desempenho de um conjunto de MAM, a maioria dos quais tem sido identificado na literatura como um MAM muito eficiente no suporte a consultas espaciais de seleção. Este grupo consiste dos seguintes métodos de acesso: R-tree, R-tree Greene, R+-tree, Hilbert R-tree, SR-tree e três variantes da R* -tree chamadas de R* -tree CR (i.e., close reinsert), de R* -tree FR (isto é, far reinsert) e de R* -tree WR (isto é, without reinsertion). A comparação do desempenho destes MAM foi realizada visando-se analisar prioritariamente a influência do fator distribuição espacial dos dados. Neste sentido, nós propusemos uma metodologia de avaliação de desempenho que permite a geração de um conjunto de tipos de distribuição espacial com diferentes características, as quais tornam possível que a influência do fator distribuição espacial dos dados seja analisada sob diferentes perspectivas, desde uma fraca até uma forte influência. Por meio de diversos testes de desempenho, nós observamos de que forma a distribuição espacial dos dados afetou os custos de inserção e de armazenamento de novas entradas no índice espacial, além do custo de point queries, intersection range queries, enclosure range queries e containment range queries. Com relação a estas consultas espaciais de seleção, os resultados de desempenho mostraram que a R+-tree foi a melhor estrutura de indexação espacial para poin queries e enclosure range queries, ao passo que as variantes da R* -tree produziram os melhores resultados de desempenho para intersection e containment range queries. Por outro lado, os métodos Hilbert R-tree e SR-tree geraram um baixo desempenho para as quatro consultas espaciais investigadas. No entanto, em testes de desempenho adicionais, os quais modificaram tanto o tamanho quanto o formato dos retângulos de dados, os métodos de acesso Hilbert R-tree e SR-tree geraram resultados competitivos, particularmente para intersection e containment range queries
- Published
- 2002
30. Cube algebra: A generic user-centric model and query language for OLAP cubes
- Author
-
Ciferri, Cristina, Ciferri, Ricardo, Gómez, Leticia, Schneider, Markus, Vaisman, Alejandro Ariel, Zimanyi, Esteban, Ciferri, Cristina, Ciferri, Ricardo, Gómez, Leticia, Schneider, Markus, Vaisman, Alejandro Ariel, and Zimanyi, Esteban
- Abstract
The lack of an appropriate conceptual model for data warehouses and OLAP systems has led to the tendency to deploy logical models (for example, star, snowflake, and constellation schemas) for them as conceptual models. ER model extensions, UML extensions, special graphical user interfaces, and dashboards have been proposed as conceptual approaches. However, they introduce their own problems, are somehow complex and difficult to understand, and are not always user-friendly. They also require a high learning curve, and most of them address only structural design, not considering associated operations. Therefore, they are not really an improvement and, in the end, only represent a reflection of the logical model. The essential drawback of offering this system-centric view as a user concept is that knowledge workers are confronted with the full and overwhelming complexity of these systems as well as complicated and user-unfriendly query languages such as SQL OLAP and MDX. In this article, the authors propose a user-centric conceptual model for data warehouses and OLAP systems, called the Cube Algebra. It takes the cube metaphor literally and provides the knowledge worker with high-level cube objects and related concepts. A novel query language leverages well known high-level operations such as roll-up, drill-down, slice, and drill-across. As a result, the logical and physical levels are hidden from the unskilled end user. Copyright © 2013, IGI Global., SCOPUS: ar.j, info:eu-repo/semantics/published
- Published
- 2013
31. Cube Algebra
- Author
-
Ciferri, Cristina, primary, Ciferri, Ricardo, additional, Gómez, Leticia, additional, Schneider, Markus, additional, Vaisman, Alejandro, additional, and Zimányi, Esteban, additional
- Published
- 2013
- Full Text
- View/download PDF
32. Analytical Processing Over XML and XLink
- Author
-
Caetano da Silva, Paulo, primary, Times, Valéria Cesário, additional, Ciferri, Ricardo Rodrigues, additional, and Ciferri, Cristina Dutra de Aguiar, additional
- Published
- 2012
- Full Text
- View/download PDF
33. The SB-index and the HSB-index: efficient indices for spatial data warehouses
- Author
-
Siqueira, Thiago Luís Lopes, primary, Ciferri, Cristina Dutra de Aguiar, additional, Times, Valéria Cesário, additional, and Ciferri, Ricardo Rodrigues, additional
- Published
- 2011
- Full Text
- View/download PDF
34. Genome of Herbaspirillum seropedicae Strain SmR1, a Specialized Diazotrophic Endophyte of Tropical Grasses
- Author
-
Pedrosa, Fábio O., primary, Monteiro, Rose Adele, additional, Wassem, Roseli, additional, Cruz, Leonardo M., additional, Ayub, Ricardo A., additional, Colauto, Nelson B., additional, Fernandez, Maria Aparecida, additional, Fungaro, Maria Helena P., additional, Grisard, Edmundo C., additional, Hungria, Mariangela, additional, Madeira, Humberto M. F., additional, Nodari, Rubens O., additional, Osaku, Clarice A., additional, Petzl-Erler, Maria Luiza, additional, Terenzi, Hernán, additional, Vieira, Luiz G. E., additional, Steffens, Maria Berenice R., additional, Weiss, Vinicius A., additional, Pereira, Luiz F. P., additional, Almeida, Marina I. M., additional, Alves, Lysangela R., additional, Marin, Anelis, additional, Araujo, Luiza Maria, additional, Balsanelli, Eduardo, additional, Baura, Valter A., additional, Chubatsu, Leda S., additional, Faoro, Helisson, additional, Favetti, Augusto, additional, Friedermann, Geraldo, additional, Glienke, Chirlei, additional, Karp, Susan, additional, Kava-Cordeiro, Vanessa, additional, Raittz, Roberto T., additional, Ramos, Humberto J. O., additional, Ribeiro, Enilze Maria S. F., additional, Rigo, Liu Un, additional, Rocha, Saul N., additional, Schwab, Stefan, additional, Silva, Anilda G., additional, Souza, Eliel M., additional, Tadra-Sfeir, Michelle Z., additional, Torres, Rodrigo A., additional, Dabul, Audrei N. G., additional, Soares, Maria Albertina M., additional, Gasques, Luciano S., additional, Gimenes, Ciela C. T., additional, Valle, Juliana S., additional, Ciferri, Ricardo R., additional, Correa, Luiz C., additional, Murace, Norma K., additional, Pamphile, João A., additional, Patussi, Eliana Valéria, additional, Prioli, Alberto J., additional, Prioli, Sonia Maria A., additional, Rocha, Carmem Lúcia M. S. C., additional, Arantes, Olívia Márcia N., additional, Furlaneto, Márcia Cristina, additional, Godoy, Leandro P., additional, Oliveira, Carlos E. C., additional, Satori, Daniele, additional, Vilas-Boas, Laurival A., additional, Watanabe, Maria Angélica E., additional, Dambros, Bibiana Paula, additional, Guerra, Miguel P., additional, Mathioni, Sandra Marisa, additional, Santos, Karine Louise, additional, Steindel, Mario, additional, Vernal, Javier, additional, Barcellos, Fernando G., additional, Campo, Rubens J., additional, Chueire, Ligia Maria O., additional, Nicolás, Marisa Fabiana, additional, Pereira-Ferrari, Lilian, additional, da Conceição Silva, José L., additional, Gioppo, Nereida M. R., additional, Margarido, Vladimir P., additional, Menck-Soares, Maria Amélia, additional, Pinto, Fabiana Gisele S., additional, Simão, Rita de Cássia G., additional, Takahashi, Elizabete K., additional, Yates, Marshall G., additional, and Souza, Emanuel M., additional
- Published
- 2011
- Full Text
- View/download PDF
35. Analytical Processing Over XML and XLink.
- Author
-
da Silva, Paulo Caetano, Times, Valéria Cesário, Ciferri, Ricardo Rodrigues, and de Aguiar Ciferri, Cristina Dutra
- Published
- 2012
- Full Text
- View/download PDF
36. A non-intrusive and reactive architecture to perform the ETL process in a real-time in a data warehousing environment
- Author
-
Vilela, Flávio de Assis and Ciferri, Ricardo Rodrigues
- Subjects
ETL ,Data warehouse ,Data extraction ,Data loading ,Tempo real ,Carregamento de dados ,Real-time ,CIENCIA DA COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,Extração de dados ,Carga de dados ,Data warehousing - Abstract
Não recebi financiamento There is a great interest in obtaining data that support the decision-making process in business. These data are available in data sources in the operational environment, which are autonomous, heterogeneous, and distributed. The data are extracted through the Extract, Transform, and Load process (ETL) and stored in the informational environment in a homogeneous, integrated, and dimensional database called data warehouse. The ETL process traditionally takes place at predefined periods, such as daily, weekly, monthly, or according to the organization's data update rules. However, there are applications that need operational data as quickly as possible or immediately after the data is available from data sources. Examples of these applications are medical systems, highway control systems and digital farming systems. Therefore, the traditional ETL process and currently available techniques are unable to make the data available for decision making in real-time, ensuring availability, low elapsed time, and scalability. This work presents an innovative, non-intrusive and reactive architecture, called Data Magnet, from which it is possible to perform the ETL process in real time in data warehousing environments. The non-intrusive feature means that the solution does not need to search for data in the operating environment and, therefore, it is not necessary to make a connection with the data sources or deal directly with the heterogeneity of the data. The reactive feature indicates that the solution will react to events in the operating environment and perform an automatic action in order to guarantee real-time requirements. Two experimental tests were performed, the first one in a real environment in the field of dairy farming, and the second one in a synthetic environment, in order to assess the Data Magnet with a high volume of data. In addition, the Data Magnet produced a good performance with low elapsed time, guaranteed availability and great scalability as the data volume increased. The Data Magnet also produced a huge performance gain for the average metric with regard to the traditional trigger technique commonly used in real-time ETL process. É cada vez maior o interesse em se obter dados que apoiem o processo de tomada de decisão estratégica nas organizações. Esses dados estão disponíveis em fontes de dados no ambiente operacional, as quais são autônomas, heterogêneas e distribuídas. Os dados são obtidos por meio do processo de Extração, Transformação e Carga (do inglês Extract, Transform, and Loading - (ETL)) e armazenados no ambiente informacional em uma base de dados homogênea e dimensional chamada data warehouse. O processo ETL ocorre tradicionalmente em momentos predefinidos, tais como diariamente, semanalmente, mensalmente ou de acordo com as regras de atualização de dados da organização. Entretanto, existem aplicações que necessitam obter os dados operacionais o mais rápido possível ou imediatamente após os dados serem produzidos nas fontes de dados. Exemplos dessas aplicações são sistemas médicos, sistemas de controle de rodovias e sistemas para agropecuária digital. Portanto, o processo ETL tradicional e as técnicas disponíveis atualmente são incapazes de disponibilizar os dados para tomada de decisão em tempo real, garantindo os requisitos de disponibilidade, baixo tempo de resposta e escalabilidade. Este trabalho apresenta uma inovadora arquitetura não intrusiva e reativa, chamada Imã de Dados, a partir da qual é possível realizar o processo ETL em tempo real em ambientes de data warehousing. A característica não intrusiva permite que a solução não necessite buscar os dados no ambiente operacional e desta forma não é necessário realizar a conexão com as fontes de dados e nem lidar diretamente com a heterogeneidade dos dados. Já a característica reativa indica que a solução irá reagir a eventos ocorridos no ambiente operacional e executar uma ação automaticamente de forma a garantir os requisitos de tempo real. Dois testes experimentais foram realizados, o primeiro em ambiente real no domínio da pecuária leiteira e o segundo em um ambiente sintético, mostraram que o Imã de Dados é capaz de processar corretamente todo o fluxo de ETL em tempo real. Além disso, o Imã de Dados apresentou um bom desempenho com baixo tempo de resposta, garantiu disponibilidade e apresentou escalabilidade à medida que ocorreu o aumento do volume de dados. Em especial, o Imã de Dados produziu um grande ganho de desempenho considerando o tempo médio, ao ser comparado com a tradicional técnica de gatilhos, comumente usada em processos ETL de tempo real.
- Published
- 2021
37. Benchmarks benchmark analysis for property graph oriented NoSQL database
- Author
-
Silva, Laís Bethânia Brito and Ciferri, Ricardo Rodrigues
- Subjects
Databases ,Banco de dados orientados a grafos de propriedade ,Property graph ,Performance analysis ,Comparative analysis ,NoSQL ,Análise comparativa ,Banco de dados ,Benchmark ,CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,Graph database ,Análise de desempenho - Abstract
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) The new era of data economics, based on data sets with enormous volume, wide variety of formats, and rapid speed in data production and utilization, has brought the need for new data management structures and methods. Then come Not Only SQL (NoSQL) databases, which provide a new way of storing and retrieving data with features that go beyond relational database management systems. NoSQL databases are divided into four major models: key -value, column-oriented, document-oriented and graph-oriented. They are able to scalably handle the storage and processing of gigantic volumes of data with a flexible format, where manipulations are not exclusively performed through the SQL language. These data sets, many of which, modeled as large graphs, to - a challenge for industry and academia, which has been increasingly committed to research and innovation in the area. Thus, there is a natural increase in demand for performance analysis systems for Graph Oriented NoSQL Databases. This implies the need for new benchmarks capable of testing these new technologies and that guide users to identify tools that best adapt to their applications. Many studies approach the proposal of benchmarks for an analysis of Graph Oriented NoSQL Database systems. However, no study studies the comparison of such benchmarks. Thus, this Master's research work aimed to carry out a comparative analysis of benchmarks for performance evaluation of Graph Oriented NoSQL Databases, with specific emphasis on the property graph model, and thus highlight as main differences between these, in addition to identifying strengths and limitations of each benchmark. Thus, it becomes possible to identify the most appropriate benchmark to analyze the performance of Property Graph-Oriented NoSQL Database systems according to a set of requirements of a specific domain. Application. Among the several existing benchmarks, it was investigated to compare the LDBC SNB, XGDBench, HPC-SGAB, TGDB and Cyclone benchmarks. In general terms, the LDBC-SNB benchmark stood out in relation to the other benchmarks, especially when it comes to query types and performance measures, and because of its tester support for several graph-oriented NoSQL DBMS's. A nova era da economia de dados, baseada em conjuntos de dados com enorme volume, grande variedade de formatos e rápida velocidade na produção e utilização de dados, trouxe a necessidade de novas estruturas e métodos de gerenciamento de dados. Surgem então os bancos de dados Not Only SQL (NoSQL), que fornecem uma nova forma de armazenamento e recuperação dedados com capacidades que vão além dos sistemas gerenciadores de bancos de dados relacionais.Bancos de dados NoSQL são divididos em quatro grandes modelos: chave-valor, orientados à colunas, orientados a documentos e orientados a grafos. São capazes de lidar de forma escalável com o armazenamento e o processamento de gigantescos volumes de dados com formato flexível, onde as manipulações não são exclusivamente realizadas por meio da linguagem SQL. Esses conjuntos de dados, muitos dos quais, modelados como grandes grafos, tornaram-se um desafio para a indústria e a academia, que vem se empenhando cada vez mais em pesquisa e inovação na área. Assim, naturalmente ocorre o aumento da demanda por sistemas de análise de desempenho de Bancos de Dados NoSQL Orientados a Grafos. Isso implica na necessidade de novos benchmarks capazes de testar essas novas tecnologias e que orientemos usuários a identificar as ferramentas que melhor se adéquem às suas aplicações. Muitos estudos têm abordado a proposta de benchmarks para a análise dos sistemas de Bancos de Dados NoSQL Orientados a Grafos. Porém, nenhum estudo descreve a comparação detalhada desses benchmarks. Dessa forma, este trabalho de pesquisa de Mestrado teve por objetivo realizar uma análise comparativa de benchmarks para avaliação de desempenho de Bancos de Dados NoSQL Orientados a Grafos, com ênfase especificamente no modelo de grafos de propriedade, e assim destacar as principais diferenças entre esses, além de identificar pontos positivos e limitações de cada benchmark. Assim, torna-se possível identificar o benchmark mais adequado para analisar o desempenho de sistemas de Bancos de Dados NoSQL Orientados a Grafos de Propriedades em função de um conjunto de requisitos de um domínio específico de aplicação. Dentre os diversos benchmarks existentes, foi investigada a relevância dos benchmarks LDBC SNB, XGDBench, HPC, TGDB e Cyclone. Em termos gerais, o benchmark LDBC-SNB se sobressaiu em relação aos outros benchmarks, principalmente quando se trata dos tipos de consultas e medidas de desempenho e por prover suporte a diversos SGBD’s NoSQL orientados a grafos. CAPES/DS (01/08/2018 a 17/07/2020)
- Published
- 2021
38. Detecção de postagens com informações falsas sobre a pandemia do Covid-19 na rede social Instagram
- Author
-
Cabral, Mateus Oliveira and Ciferri, Ricardo Rodrigues
- Subjects
Social network ,Fake news ,Redes sociais ,Instagram ,COVID-19 ,Conteúdo falso ,CIENCIA DA COMPUTACAO [CIENCIAS EXATAS E DA TERRA] - Abstract
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) This dissertation addresses the detection of false information on Instagram, the social network that has been growing more and more compared to other social media platforms. Because it is a social network with multimedia content (image, video and text), but with an emphasis on posting photos, there are few scientific research on the impacts of posts with false information that this network provides on society. This happens mainly in times of political elections or in historical events, when there is a great demand for information. Therefore, this Master’s research had as its domain the health area, with emphasis on the subject of the COVID-19 pandemic, a subject of extreme importance and big social impact. Many studies address various techniques for identifying fake news articles and/or fake posts on social networks such as Facebook, Twitter, Youtube and Whatsapp.Some studies focus on the content of the news, other studies focus on the social context through information from social networks that involves sentiment analysis, while for other studies the focus is on the temporal, which is also very much analyzed on the dynamics of posts on the social network. In this Master’s research, the source chosen to extract study data has a functional dynamic that is completely different from other social networks. Sharing the phenomena that impact the dispersion of news on social media does not work in the same way on Instagram. In addition, the posted images may contain text within the images, which creates the need to use Optical Character Recognition (OCR) based tools to extract the texts, and only then compare the extracted information in posts in Portuguese to classify whether it is false or true information. Another problem, in addition to the lack of research on false information related to Instagram, is the existence of few content datasets in Portuguese for analysis and benchmark of false information detection models, especially those containing images. The aim of this Master’s research was to investigate the detection of posts in Portuguese with false information about the COVID-19 pandemic on the Instagram social network. In this sense, the research resulted in the proposal of a machine learning model that allows the detection of false information. In addition, this research performed the compilation of a dataset related to COVID-19 to be made available for future investigations into fake content on the Instagram social network. The model was validated through experimental tests with real data. The results showed an accuracy between 96% and 99% in detecting posts with false information about COVID-19. Esta dissertação aborda a detecção de informações falsas no Instagram, a rede social que vem crescendo cada vez mais em comparação com as demais plataformas de redes sociais. Por se tratar de uma rede social com conteúdo multimídia (imagem, vídeo e texto), mas com ênfase na postagem de fotos, há pouca pesquisa científica dos impactos das postagens com informações falsas que essa rede proporciona na sociedade. Isso acontece principalmente em épocas de eleições políticas ou em acontecimentos históricos, em que existe uma grande demanda sobre informações. Por isso, essa pesquisa de Mestrado teve como domínio a área da saúde com ênfase no assunto da pandemia de COVID-19, assunto de extrema importância e impacto social. Muitos estudos abordam diversas técnicas para identificação de artigos de notícias falsas e/ou postagens falsas em redes sociais como Facebook, Twitter, Youtube e Whatsapp. Alguns estudos enfocam no conteúdo da notícia, outros estudos enfocam no contexto social por meio de informações das redes sociais que envolve análise de sentimento, enquanto para outros estudos o foco é o temporal muito analisado também sobre a dinâmica das postagens na rede social. Nesta pesquisa de Mestrado, a fonte escolhida para extrair dados de estudo, tem uma dinâmica funcional completamente diferente das demais redes sociais. O compartilhamento dos fenômenos que impactam a dispersão das notícias nas redes sociais não funciona da mesma forma no Instagram. Além disso, as imagens postadas podem conter textos dentro das imagens, o que gera a necessidade de utilizar ferramentas baseadas em Optical Character Recognition (OCR) para extrair os textos, para somente depois confrontar a informação extraída em postagens em português para classificar se é uma informação falsa ou verdadeira. Outro problema, além da falta de pesquisas sobre informações falsas relacionados ao Instagram, é a existência de poucos conjuntos de dados de conteúdos em português para análises e benchmark de modelos de detecção de informações falsas, principalmente que contenham imagens. O objetivo desta pesquisa de Mestrado foi investigar a detecção de postagens em português com informações falsas sobre a pandemia de COVID-19 na rede social Instagram. Nesse sentido, a pesquisa teve como resultado a proposta de um modelo de aprendizado de máquina que permite a detecção de informações falsas. Além disso, esta pesquisa realizou a compilação de um conjunto de dados relacionadas a COVID-19 para ser disponibilizada para futuras investigações sobre conteúdos falsos na rede social Instagram. O modelo foi validado por meio de testes experimentais com dados reais. Os resultados mostraram uma acurácia entre 96% e 99% na detecção de postagens com informações falsas sobre COVID-19. CAPES: Código de Financiamento 001
- Published
- 2021
39. Mineração de series temporais de dados de sensores
- Author
-
Mariote, Leonardo Elias, Medeiros, Claudia Maria Bauzer, 1954, Ciferri, Ricardo Rodrigues, Torres, Ricardo da Silva, Universidade Estadual de Campinas. Instituto de Computação, Programa de Pós-Graduação em Ciência da Computação, and UNIVERSIDADE ESTADUAL DE CAMPINAS
- Subjects
Oscilações ,Mineração de dados (Computação) ,Time series ,Oscillations ,Data mining ,Séries temporais - Abstract
Orientador: Claudia Maria Bauzer Medeiros Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: Redes de sensores têm aumentado a quantidade e variedade de dados temporais disponíveis. Com isto, surgiram novos desafios na definição de novas técnicas de mineração, capazes de descrever características distintas em séries temporais. A literatura correlata endereça problemas diversos, como indexação, classificação, definição de vetores de características e funções de distâncias mais eficazes. No entanto, a maioria dos trabalhos atuais tem como objetivo descrever e analisar os valores de uma série temporal, e não sua evolução. Além disto, vários fenômenos requerem uma análise mais elaborada, capaz de relacionar várias grandezas. Tal tipo de análise não pode ser realizada pela maioria das técnicas existentes hoje. Esta dissertação apresenta uma técnica que descreve séries temporais sob uma premissa diferente - a de caracterizar a oscilação das séries e não seus valores propriamente ditos. O novo descritor apresentado - TID ES (TIme series oscillation D EScriptor) - utiliza os coeficientes angulares de uma segmentação linear da curva que representa a evolução das . séries analisadas, em múltiplas escalas. Com isso, permite a comparação e a mineração de séries utilizando várias granularidades, enriquecendo a análise efetuada. As principais contribuições são: ~I) A especificação de um descritor que caracteriza a oscilação de séries temporais, ao invés de seus valores, utilizando múltiplas escalas; (II) A implementação deste descritor, validada por meio de dados sintéticos e reais; (III) A extensão do descritor de modo a suportar a análise de coevolução em um conjunto de séries Abstract: Sensor networks have increased the amount and variety of temporal data available. This motivated the appearance of new techniques far data mining, which describe different aspects of time series. Related work addresses several issues, such as indexing and clustering time series, and the definition of more efficient feature vectares and distance functions. However, most results focus on describing the values in a series, and not their evolution. Furthermore, the majority of papers only characterize a single series, which is not enough in cases where multiple kinds of data must be considered simultaneously. This thesis presents a new technique, which describes time series using a distinct approach, characterizing their oscillation, rather than the values themselves. The descriptor presented - called TIDES (TIme series oscillation DEScriptor) uses the angular coefficients from a linear segmentation of the curve that represents the evolution of the analyzed series. Furthermore, TIDES suports multiscale analysis, what enables series and series mining under different granularities. The main contributions are: (I) The specification of a descriptor that characterizes the oscillation of time series, rather than their values, unde multiple scale; (II) The implementation of this descriptor, validated for synthetic and real data; (III) The extension of the descriptor to support the analysis of the coevolution of a set of series Mestrado Banco de Dados Mestre em Ciência da Computação
- Published
- 2021
- Full Text
- View/download PDF
40. Intuitive: conceptual model for ETL workflows
- Author
-
Portes, Ana Célia Ribeiro Bizigato and Ciferri, Ricardo Rodrigues
- Subjects
Modelagem conceitual ,ETL ,CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,Data warehouse ,Modeling ,Conceptual modeling ,Modelagem ,Workflow - Abstract
Não recebi financiamento The information domain is seen as a competitive differential in the most varied business areas, such as health, agribusiness, telecommunications, logistics, and government agencies. The correct and updated information is a valuable subsidy for corporative strategic decisions. Additionally, nowadays, huge volumes of data are generated at high speed and in various formats. In this context, research has been made to propose new models, architectures, processes, and algorithms that can contribute to transforming data into useful information for strategic decision making. In this scenario, a data warehousing environment plays a key role. The environment contains the data warehouse (DW), a huge repository with data that serves as a basis for responding to OLAP (Online Analytical Processing) queries. In a data warehousing environment, the ETL process is used to extract raw data from different data sources and to transform, clean, and integrate that data, loading to the DW. The ETL process is used for first data loading and, also for refreshing the data in the DW. This master's research investigated the best practices in conceptual modeling for ETL workflows and, as a result, proposes a new model, called “Intuitive”. The Intuitive Model adds simplicity, agility, clarity, and consistency to the modeling stage and can contribute to the improvement of construction and maintenance of ETL workflows. Theoretical analysis activities and practical experiments were performed with the users’ participation in order to validate the Intuitive Model. Such steps allowed us to evaluate that the elements of the Intuitive Model are sufficient to represent clearly several regular ETL scenarios showing advantages in comparison with the main related work in the state of the art. O domínio da informação é visto como um diferencial competitivo nas mais variadas áreas de negócio, tais como na saúde, agronegócio, telecomunicações, logística e em órgãos governamentais. A informação correta e atualizada é um valioso subsídio para decisões estratégicas nas corporações. Soma-se a isso o fato de que, atualmente, imensos volumes de dados são gerados em alta velocidade e em diversos formatos. Nesse contexto, pesquisas têm sido realizadas com o objetivo de propor novos modelos, arquiteturas, processos e algoritmos que possam contribuir para a transformação dos dados em informações úteis para a tomada de decisão estratégica. Nesse cenário, um ambiente de data warehousing exerce um papel fundamental. Esse ambiente contém o data warehouse (DW), que é o grande repositório que armazena dados extraídos de diversas fontes e que foram devidamente tratados e acurados. Os dados contidos no DW são usados para responder a consultas OLAP (Online Analytical Processing). Em um ambiente de data warehousing, o processo de ETL é usado para a extração dos dados brutos das diversas fontes de dados, seguido das etapas de transformação, limpeza e integração desses dados, para no final prover o armazenamento dos dados acurados no DW. Além da carga inicial dos dados, o pesquisa de ETL é usado para a constante atualização dos dados no DW. Esta pesquisa de Mestrado investigou as melhores práticas utilizadas na modelagem conceitual de workflows de ETL e, como resultado, propõe um novo modelo, denominado “Intuitive”, que adiciona simplicidade, agilidade, clareza e consistência à etapa de modelagem, podendo contribuir para melhorar a construção e a manutenção de workflows de ETL. Para a validação do modelo Intuitive forma realizadas atividades de análise teórica e, também, experimentos práticos com a participação de usuários. Tais atividades permitiram avaliar o modelo Intuitive, cujos elementos se mostraram suficientes para representar com clareza diversos cenários típicos de ETL demonstrando vantagens quando comparado ao principal trabalho relacionado no estado da arte.
- Published
- 2020
41. Improved handling of obstacles in the SWMU clustering spatial data clustering approach
- Author
-
Gallo, Gabriel Passatuto and Ciferri, Ricardo Rodrigues
- Subjects
Database ,Agrupamento de dados ,Precision agriculture ,Dados espaciais ,Mineração de dados ,Zonas de manejo ,CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS [CIENCIAS EXATAS E DA TERRA] ,Spatial data ,Banco de dados ,Data clustering ,Data mining ,Management zones ,Agricultura de precisão - Abstract
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) The technological has been improved considerably in recent years, providing the great benefits to several areas of application. Among these areas, agriculture had a great boost, enabling the increasing of the production and at the same time reducing costs and environmental impacts through crop management techniques, thus in this sense practicing the concepts of Precision Agriculture (AP). One of the methods used in PA is to design the planted area in smaller plots with similar values of soil and plant attributes, known as management zones or differentiated management units (UGDs). In this way, spatial data clustering algorithms are used to create UGD maps, in which they depict soil variability. Spatial Ward’s Management Units Clustering (SWMU Clustering) is an approach to spatial data clustering that enables the design of UGDs in AP. Its main advantage over related approaches is the significant reduction of stratification in clusters, obtaining maps of UGDs that are easily interpretable by the end user. This Master’s research investigated how to improve the management of spatial obstacles performed by the SWMU Clustering approach. In this sense, two new strategies were proposed: Replacement Strategy for the Set of Internal Samples to Obstacles and Buffer Strategy. These strategies were compared to the original strategy of the SWMU Clustering approach, showing that the Buffer strategy generated the best results. In addition, as a result of this research, an web application was developed for the SWMU Clustering approach, making it available as a service so that the end user can interact with the SWMU Clustering ap, from sending the input data until the visualization of the UGD results. O cenário tecnológico vem se ampliando consideravelmente nos últimos anos, trazendo os mais diversos benefícios para inúmeras áreas de aplicação. Dentre essas áreas, a agricultura teve um grande impulso, conseguindo elevar a sua produção e ao mesmo tempo reduzir custos e impactos ambientais por intermédio de técnicas de gestão da lavoura, praticando assim, os conceitos de Agricultura de Precisão (AP). Um dos métodos usados em AP é o delineamento da área plantada em parcelas menores com valores semelhantes de atributos de solo e de planta, conhecido como zonas de manejo ou unidades de gestão diferenciada (UGDs). Desse modo, o agrupamento de dados espaciais é usado para criação de mapas de UGDs, nos quais retratam a variabilidade do solo. Spatial Ward’s Management Units Clustering (SWMU Clustering) é uma abordagem de agrupamentos de dados espaciais que possibilita o delineamento de UGDs em AP. A sua principal vantagem com relação a outras abordagens correlatas é a redução significativa da estratificação nos agrupamentos, obtendo-se mapas de UGDs facilmente interpretáveis pelo usuário final. Tendo isso exposto, esta pesquisa de Mestrado investigou como melhorar o gerenciamento de obstáculos espaciais realizado pela abordagem SWMU Clustering. Nesse sentido, foram propostas duas novas estratégias: Estratégia de Substituição do Conjunto de Amostras Internas aos Obstáculos e Estratégia de Buffer. Essas estratégias foram comparadas com a estratégia original da abordagem SWMU Clustering, mostrando que a estratégia de Buffer gerou os melhores resultados. Além disso, como resultado desta pesquisa foi desenvolvida uma aplicação web para a abordagem SWMU Clustering, disponibilizando-a como um serviço para que o usuário final possa interagir e usar a abordagem, desde o envio dos dados de entrada até a visualização dos resultados de delineamento de UGDs. CAPES: 88882.426558/2019-01
- Published
- 2020
42. An ER algebra for querying NoSQL databases: implementing additional operators and performance analysis
- Author
-
Cabral, João Vitor Lopes and Ciferri, Ricardo Rodrigues
- Subjects
Databases ,CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,MongoDB ,Mapping ,Entity Relationship ,Consultas ,NoSQL ,Queries ,Mapeamento ,Entidade Relacionamento ,Bancos de dados - Abstract
Não recebi financiamento Databases and database systems are essential to modern life. In a scenario of increasing data handling arose the need to find newer ways to store and process data that are able to cope with the rapid evolution of society. NoSQL databases are an alternative to this scenario but the lack of standard between each database implementation increases the difficulty to perform some tasks when compared to a SQL database. To solve this problem, this paper increments the work of Noguera e Lucrédio (2019), using the query language it improves the join operation and implements the operations Cartesian Product, Selection and Projection that were proposed by Parent e Spaccapietra (1984). In order to make the metamodel creation process more friendly, a textual representation was created for the metamodels and a parser for generating code compatible with the algorithm. Two software systems were analyzed to validate the MongoDB code generated by the algorithm and to check if the query result conforms to the structure defined by the algebra. The query performance was also analyzed, comparing it to the performance of queries that were handcrafted by a Software Engineer. This paper shows that the ER algebra is compatible with document-oriented NoSQL databases and that automated query generation does not significantly affects performance. Bancos de dados e sistemas de bancos de dados são essenciais para a vida moderna. Em um ambiente com crescente volume de dados surgiu a necessidade de se encontrar novas formas de armazenamento e processamento de dados que também sejam capazes de se adequar à rápida evolução da sociedade. Bancos de dados NoSQL são uma alternativa nesse cenário mas a falta de padrão entre as implementações torna algumas tarefas mais trabalhosas do que em bancos de dados SQL, entre elas a escrita de consultas. Para resolver esse problema, este trabalho expande a abordagem proposta por Noguera e Lucrédio (2019), utilizando a linguagem de consulta proposta, incrementa a implementação da operação de junção e implementa as operações Produto Cartesiano, Seleção e Projeção definidas na álgebra proposta por Parent e Spaccapietra (1984). Para tornar mais amigável o processo de criação dos metamodelos foi criada uma representação textual para estes e um “parser” para geração de código compatível com o algoritmo. Foram analisados dois sistemas a fim de validar o código gerado pelo algoritmo e a conformidade do resultado com a álgebra. Também foi analisado o desempenho das consultas geradas pelo algoritmo e comparadas com consultas escritas à mão por um Engenheiro de Software. Neste trabalho mostra-se que a álgebra ER é compatível com bases de dados NoSQL orientada a documentos e que a geração automatizada de consultas não afeta significativamente o desempenho das consultas.
- Published
- 2020
43. Model for the Project of Work Plans in Mobile Computing Platforms
- Author
-
Santos, Mateus dos and Ciferri, Ricardo Rodrigues
- Subjects
Ensino ,Inclusão digital ,Teaching ,Dispositivos móveis ,Mobile devices ,Digital inclusion ,CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,Tablets - Abstract
Não recebi financiamento Mobile platforms can provide teaching programs that favor student learning. The characteristics of autonomy and personalization of mobile devices are factors that reinforce this. However, designing a teaching program requires an increased attention from the educator due to the particularities of the mobile platforms. This proposal presents a model for projects of mobile teaching studies. This model presents six steps for the elaboration of study plans considering as characteristics of autonomy of the student. This model was tested through an application for data storage machines and the application of tools for the use of a search engine tool. The application was designed according to the steps determined by the model and tested with the group of people. The results of the tests were satisfactory, thus concluding a viability of the proposed model. These charges refer to the use of the model for other systems that use mobile platforms. Plataformas móveis podem prover programas de ensino que favoreçam a aprendizagem de estudantes. As características de autonomia e personalização dos dispositivos móveis são fatores que reforçam isso. Entretanto, elaborar um programa de ensino requer uma atenção redobrada do educador devido as particularidades das plataformas móveis. Esta tese apresenta um modelo para projetos de planos de ensino em plataformas móveis. Este modelo estabelece seis passos para a elaboração de planos de ensino considerando as características de autonomia do estudante. Este modelo foi testado através de um aplicativo para dispositivos móveis que tinha o propósito de ensinar pessoas a utilizarem a ferramenta de motor de buscas. O aplicativo foi elaborado seguindo os passos estabelecidos pelo modelo e testado com grupo de pessoas. Os resultados destes testes foram satisfatórios, concluindo-se assim a viabilidade do modelo proposto. As contribuições deste trabalho remetem ao uso do modelo proposto para outros conteúdos que utilizem plataformas móveis.
- Published
- 2018
44. Processamento eficiente de junção espacial em ambiente paralelo e distribuído baseado em Spatialhadoop
- Author
-
Mendes, Eduardo Fernando and Ciferri, Ricardo Rodrigues
- Subjects
Banco de dados espaciais ,Query processing ,Parallel and distributed processing ,Processamento paralelo e distribuído ,Spatial databases ,Processamento de consulta ,Spatial join ,Junção espacial ,Cluster computing ,CIENCIA DA COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,Clusters de computadores - Abstract
Não recebi financiamento The huge volume of spatial data generated and made available in recent years from different sources, such as remote sensing, smart phones, space telescopes, and satellites, has motivated researchers and practitioners around the world to find out a way to process efficiently this huge volume of spatial data. Systems based on the MapReduce programming paradigm, such as Hadoop, have proven to be an efficient framework for processing huge volumes of data in many applications. However, Hadoop has showed not to be adequate in native support for spatial data due to its central structure is not aware of the spatial characteristics of such data. The solution to this problem gave rise to SpatialHadoop, which is a Hadoop extension with native support for spatial data. However, SpatialHadoop does not enable to jointly allocate related spatial data and also does not take into account any characteristics of the data in the process of task scheduler for processing on the nodes of a cluster of computers. Given this scenario, this PhD dissertation aims to propose new strategies to improve the performance of the processing of the spatial join operations for huge volumes of data using SpatialHadoop. For this purpose, the proposed solutions explore the joint allocation of related spatial data and the scheduling strategy of MapReduce for related spatial data also allocated in a jointly form. The efficient data access is an essential step in achieving better performance during query processing. Therefore, the proposed solutions allow the reduction of network traffic and I/O operations to the disk and consequently improve the performance of spatial join processing by using SpatialHadoop. By means of experimental evaluations, it was possible to show that the novel data allocation policies and scheduling tasks actually improve the total processing time of the spatial join operations. The performance gain varied from 14.7% to 23.6% if compared to the baseline proposed by CoS-HDFS and varied from 8.3% to 65% if compared to the native support of SpatialHadoop. A explosão no volume de dados espaciais gerados e disponibilizados nos últimos anos, provenientes de diferentes fontes, por exemplo, sensoriamento remoto, telefones inteligentes, telescópios espaciais e satélites, motivaram pesquisadores e profissionais em todo o mundo a encontrar uma forma de processar de forma eficiente esse grande volume de dados espaciais. Sistemas baseados no paradigma de programação MapReduce, como exemplo Hadoop, provaram ser durante anos um framework eficiente para o processamento de enormes volumes de dados em muitas aplicações. No entanto, o Hadoop demonstrou não ser adequado no suporte nativo a dados espaciais devido a sua estrutura central não ter conhecimento das características espaciais desses dados. A solução para este problema deu origem ao SpatialHadoop, uma extensão do Hadoop, com suporte nativo para dados espaciais. Entretanto o SpatialHadoop não é capaz de alocar conjuntamente dados espaciais relacionados e também não leva em consideração qualquer característica dos dados no processo de escalonamento das tarefas para processamento nos nós de um cluster de computadores. Diante deste cenário, esta tese tem por objetivo propor novas estratégias para melhorar o desempenho do processamento das operações de junção espacial para grandes volumes de dados usando o SpatialHadoop. Para tanto, as soluções propostas exploram a alocação conjunta dos dados espaciais relacionados e a estratégia de escalonamento de tarefas MapReduce para dados espaciais relacionados também alocados de forma conjunta. Acredita-se que o acesso eficiente aos dados é um passo essencial para alcançar um melhor desempenho durante o processamento de consultas. Desta forma, as soluções propostas permitem a redução do tráfego de rede e operações de Entrada/Saída para o disco e consequentemente melhoram o desempenho no processamento de junção espacial usando SpatialHadoop. Por meio de testes de desempenho experimentais foi possível comprovar que as novas políticas de alocação de dados e escalonamento de tarefas de fato melhoram o tempo total de processamento das operações de junção espacial. O ganho de desempenho variou de 14,7% a 23,6% com relação ao baseline proposto por CoS-HDFS e variou de 8,3% a 65% com relação ao suporte nativo do SpatialHadoop.
- Published
- 2017
45. Visões em bancos de dados de grafos : uma abordagem multifoco para dados heterogêneos
- Author
-
Daltio, Jaudete, 1983, Medeiros, Claudia Maria Bauzer, 1954, Salgado, Ana Carolina Brandão, Ciferri, Ricardo Rodrigues, Santanchè, André, Telles, Guilherme Pimentel, Universidade Estadual de Campinas. Instituto de Computação, Programa de Pós-Graduação em Ciência da Computação, and UNIVERSIDADE ESTADUAL DE CAMPINAS
- Subjects
Databases ,Graph (Computer system) ,Gerenciamento da informação ,Information management ,Grafo (Sistema de computador) ,Banco de dados ,Modelagem de dados ,Data modeling - Abstract
Orientador: Claudia Maria Bauzer Medeiros Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: A pesquisa científica tornou-se cada vez mais dependente de dados. Esse novo paradigma de pesquisa demanda técnicas e tecnologias computacionais sofisticadas para apoiar tanto o ciclo de vida dos dados científicos como a colaboração entre cientistas de diferentes áreas. Uma demanda recorrente em equipes multidisciplinares é a construção de múltiplas perspectivas sobre um mesmo conjunto de dados. Soluções atuais cobrem vários aspectos, desde o projeto de padrões de interoperabilidade ao uso de sistemas de gerenciamento de bancos de dados não-relacionais. Entretanto, nenhum desses esforços atende de forma adequada a necessidade de múltiplas perspectivas, denominadas focos nesta tese. Em termos gerais, um foco é projetado e construído para atender um determinado grupo de pesquisa (mesmo no escopo de um único projeto) que necessita manipular um subconjunto de dados de interesse em múltiplos níveis de agregação/generalização. A definição e criação de um foco são tarefas complexas que demandam mecanismos capazes de manipular múltiplas representações de um mesmo fenômeno do mundo real. O objetivo desta tese é prover múltiplos focos sobre dados heterogêneos. Para atingir esse objetivo, esta pesquisa se concentrou em quatro principais problemas. Os problemas inicialmente abordados foram: (1) escolher um paradigma de gerenciamento de dados adequado e (2) elencar os principais requisitos de pesquisas multifoco. Nossos resultados nos direcionaram para a adoção de bancos de dados de grafos como solução para o problema (1) e a utilização do conceito de visões, de bancos de dados relacionais, para o problema (2). Entretanto, não há consenso sobre um modelo de dados para bancos de dados de grafos e o conceito de visões é pouco explorado nesse contexto. Com isso, os demais problemas tratados por esta pesquisa são: (3) a especificação de um modelo de dados de grafos e (4) a definição de um framework para manipular visões em bancos de dados de grafos. Nossa pesquisa nesses quatro problemas resultaram nas contribuições principais desta tese: (i) apontar o uso de bancos de dados de grafos como camada de persistência em pesquisas multifoco - um tipo de banco de dados de esquema flexível e orientado a relacionamentos que provê uma ampla compreensão sobre as relações entre os dados; (ii) definir visões para bancos de dados de grafos como mecanismo para manipular múltiplos focos, considerando operações de manipulação de dados em grafos, travessias e algoritmos de grafos; (iii) propor um modelo de dados para grafos - baseado em grafos de propriedade - para lidar com a ausência de um modelo de dados pleno para grafos; (iv) especificar e implementar um framework, denominado Graph-Kaleidoscope, para prover o uso de visões em bancos de dados de grafos e (v) validar nosso framework com dados reais em aplicações distintas - em biodiversidade e em recursos naturais - dois típicos exemplos de pesquisas multidisciplinares que envolvem a análise de interações de fenômenos a partir de dados heterogêneos Abstract: Scientific research has become data-intensive and data-dependent. This new research paradigm requires sophisticated computer science techniques and technologies to support the life cycle of scientific data and collaboration among scientists from distinct areas. A major requirement is that researchers working in data-intensive interdisciplinary teams demand construction of multiple perspectives of the world, built over the same datasets. Present solutions cover a wide range of aspects, from the design of interoperability standards to the use of non-relational database management systems. None of these efforts, however, adequately meet the needs of multiple perspectives, which are called foci in the thesis. Basically, a focus is designed/built to cater to a research group (even within a single project) that needs to deal with a subset of data of interest, under multiple ggregation/generalization levels. The definition and creation of a focus are complex tasks that require mechanisms and engines to manipulate multiple representations of the same real world phenomenon. This PhD research aims to provide multiple foci over heterogeneous data. To meet this challenge, we deal with four research problems. The first two were (1) choosing an appropriate data management paradigm; and (2) eliciting multifocus requirements. Our work towards solving these problems made as choose graph databases to answer (1) and the concept of views in relational databases for (2). However, there is no consensual data model for graph databases and views are seldom discussed in this context. Thus, research problems (3) and (4) are: (3) specifying an adequate graph data model and (4) defining a framework to handle views on graph databases. Our research in these problems results in the main contributions of this thesis: (i) to present the case for the use of graph databases in multifocus research as persistence layer - a schemaless and relationship driven type of database that provides a full understanding of data connections; (ii) to define views for graph databases to support the need for multiple foci, considering graph data manipulation, graph algorithms and traversal tasks; (iii) to propose a property graph data model (PGDM) to fill the gap of absence of a full-fledged data model for graphs; (iv) to specify and implement a framework, named Graph-Kaleidoscope, that supports views over graph databases and (v) to validate our framework for real world applications in two domains - biodiversity and environmental resources - typical examples of multidisciplinary research that involve the analysis of interactions of phenomena using heterogeneous data Doutorado Ciência da Computação Doutora em Ciência da Computação CAPES CNPQ FAPESP 2013/08293-7
- Published
- 2017
46. Dynamic topic herarchies and segmented rankings in textual OLAP technology
- Author
-
Souza, Adriano Neves de Paula e, Lima, Joubert de Castro, Fortes, Reinaldo Silva, Ciferri, Ricardo Rodrigues, and Silva, Rodrigo Rocha
- Subjects
Administração de dados ,Cubo de dados ,Dados textuais ,Classificação - Abstract
Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto. A tecnologia OLAP tem se consolidado há 20 anos e recentemente foi redesenhada para que suas dimensões, hierarquias e medidas possam suportar as particularidades dos dados textuais. A tarefa de organizar dados textuais de forma hierárquica pode ser resolvida com a construção de hierarquias de tópicos. Atualmente, a hierarquia de tópicos é definida apenas uma vez no cubo de dados, ou seja, para todo o \textit{lattice} de cuboides. No entanto, tal hierarquia é sensível ao conteúdo da coleção de documentos, portanto em um mesmo cubo de dados podem existir células com conteúdos completamente diferentes, agregando coleções de documentos distintas, provocando potenciais alterações na hierarquia de tópicos. Além disso, o segmento de texto utilizado na análise OLAP também influencia diretamente nos tópicos elencados por tal hierarquia. Neste trabalho, apresentamos um cubo de dados textual com múltiplas e dinâmicas hierarquias de tópicos. Múltiplas por serem construídas a partir de diferentes segmentos de texto e dinâmicas por serem construídas para cada célula do cubo. Outra contribuição deste trabalho refere-se à resposta das consultas multidimensionais. O estado da arte normalmente retorna os top-k documentos mais relevantes para um determinado tópico. Vamos além disso, retornando outros segmentos de texto, como os títulos mais significativos, resumos e parágrafos. A abordagem é projetada em quatro etapas adicionais, onde cada passo atenua um pouco mais o impacto da construção de várias hierarquias de tópicos e rankings de segmentos por célula de cubo. Experimentos que utilizam parte dos documentos da DBLP como uma coleção de documentos reforçam nossas hipóteses. The OLAP technology emerged 20 years ago and recently has been redesigned so that its dimensions, hierarchies and measures can support the particularities of textual data. Organizing textual data hierarchically can be solved with topic hierarchies. Currently, the topic hierarchy is de ned only once in the data cube, e.g., forthe entire lattice of cubo ids. However, such hierarchy is sensitive to the document collection content. Thus, a data cube cell can contain a collection of documents distinct fromothers in the same cube, causing potential changes in the topic hierarchy. Further more, the text segment used in OLAP analysis also changes this hierarchy. In this work, we present a textual data cube with multiple dynamic topic hierarchies for each cube cell. Multiple hierarchies, since the presented approach builds a topic hierarchy per text segment. Another contribution of this work refers to query response. The state-of-the-art normally returns the top-k documents to the topic selected in the query. We go beyond by returning other text segments, such as the most signi cant titles, abstracts and paragraphs. The approach is designed in four complementary steps and each step attenuates a bit more the impact of building multiple to pic hierarchies and segmented rankings per cube cell. Experiments using part of the DBLP papers as a document collection reinforce our hypotheses.
- Published
- 2017
47. SEnsembles – uma abordagem para melhorar a qualidade das correspondências de instâncias disjuntas em estudos observacionais explorando características idênticas e ensembles de regressores
- Author
-
Borges Junior, Sergio Ricardo, Ciferri, Ricardo Rodrigues, and Santos, Marilde Terezinha Prado
- Subjects
Propensity score ,Correspondência de instâncias ,Estudos observacionais ,Escore de propensão ,Ensembles ,Observational studies ,Instance correspondence ,CIENCIA DA COMPUTACAO [CIENCIAS EXATAS E DA TERRA] - Abstract
Não recebi financiamento Introduction. The datasets used in observational studies have instances belonging to two distinct groups (i.e. treatment group and control group), which are compared in order to estimate the effect of the treatment over the results. For such, in one of the approaches, called Propensity Score Matching (PSM), the propensity score for the instances of both groups is estimated and, subsequently, the correspondence of these instances is performed based on the values for the propensity score. The propensity score is the probability of attribution of a treatment based on the observed characteristics (e.g. income, sex and age). In this context, the logistic regression is widely used to estimate the propensity score and there is an great variety of instance correspondence methods. Objective. This doctor´s thesis has as its main objective to investigate computational alternatives in order to improve the quality of the instance correspondence in datasets that are manipulated in observational studies. Methodology. Techniques that estimate the propensity score and methods to perform the instance correspondence in observational studies were investigated. Thus, it was possible to investigate how the identical characteristics of the instances could be exploited in a new process to perform correspondence and, how ensembles could substitute the logistic regression by estimating the propensity scores of the instances, in the context of the PSM process. Proposal. This thesis proposes a new approach in the context of the PSM process, called “SEnsembles”, which aims to improve the quality of instance correspondence based on two main processes, which use techniques that separately consider the identical characteristics of the instances and the ensembles of regressors, more precisely, bagging, random forest and boosting. Results. The proposed approach “SEnsembles” improves the quality of the instance correspondence for the majority of calipers used (i.e. zero, 0.05, 0.10, 0.15, 0.20, 0.25 and 0.30) when compared to the baseline Nearest Neighbor Matching (NNM). Based on the experiments, when there was an improvement over the baseline, the technique that separates the identical characteristics of the instances presented improvements of up to 53.8% in the quality of correspondence, with an average of gains of 12.1%; and only 2.7% of average in the reduction of the number of pairs of instances matched. The technique which substituted the logistic regression for ensembles of regressors, in turn, presented the best correspondence with the caliper zero and with the values 0.20, 0.25 and 0.30, with improvements of up to 36.3% and an average of gains of 12.7%; and a slightly reduction of 7.6% in the number of pairs of instances matched. Introdução. Os conjuntos de dados manipulados em estudos observacionais possuem instâncias pertencentes a dois grupos distintos (i.e. grupo de tratamento e grupo de controle), as quais são comparadas para estimar o efeito do tratamento sobre os resultados. Para isso, em uma das abordagens, chamada de Propensity Score Matching (PSM), estima-se o escore de propensão para as instâncias de ambos os grupos e, em seguida, efetua-se a correspondência dessas instâncias com base nos valores dos escores de propensão. O escore de propensão é a probabilidade de atribuição de um tratamento com base nas características observadas (por exemplo, renda, sexo e idade). Neste contexto, a regressão logística é amplamente utilizada para estimar o escore de propensão e há uma ampla variedade de métodos de correspondência de instâncias. Objetivo. Esta pesquisa de doutorado tem como objetivo principal investigar alternativas computacionais para melhorar a qualidade das correspondências de instâncias em conjuntos de dados que são manipulados em estudos observacionais. Metodologia. Investigou-se técnicas que estimam o escore de propensão e métodos para se efetuar a correspondência das instâncias em estudos observacionais. Assim, foi possível investigar como as características idênticas das instâncias poderiam ser exploradas em um novo processo de correspondência e, como ensembles, mais precisamente, bagging, random forest e boosting, poderiam substituir a regressão logística ao estimar os escores de propensão das instâncias, no contexto do processo de PSM. Proposta. Esta pesquisa propõe uma nova abordagem no contexto do processo PSM, denominada “SEnsembles”, que visa melhorar a qualidade da correspondência das instâncias com base em 2 processos principais, os quais utilizam técnicas que considerem em separado as características idênticas das instâncias e os ensembles de regressores, mais precisamente, bagging, random forest e boosting. Resultados. A abordagem proposta “SEnsembles” melhorou a qualidade da correspondência de instâncias para a maioria dos calipers utilizado (zero, 0,05, 0,10, 0,15, 0,20, 0,25 e 0,30) quando comparada ao baseline Nearest Neighbor Matching (NNM). Com base nos experimentos, quando houve ganho, a técnica que separa as características idênticas das instâncias proporcionou ganhos de até 53,8% na qualidade da correspondência, com média de 12,1% de melhoria e 2,7% de redução média do número de pares de instâncias correspondidas. Já a técnica que substituiu a regressão logística pelos ensembles proporcionou as melhores correspondências com o caliper zero e com os valores 0,20, 0,25 e 0,30, com ganhos de até 36,3% e, com média de 12,7% de melhoria e 7,6% de redução do número de pares de instâncias correspondidas.
- Published
- 2016
48. Análise de desempenho de consultas OLAP espaçotemporais em função da ordem de processamento dos predicados convencional, espacial e temporal
- Author
-
Joaquim Neto, Cesar and Ciferri, Ricardo Rodrigues
- Subjects
Data Warehouse ,Spatio-temporal Data Warehouses ,Bitmap indexes ,Índices bitmap ,Bancos de dados espaço-temporais ,CIENCIA DA COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,Data warehouses espaço-temporais ,Spatio-temporal databases - Abstract
Não recebi financiamento By providing ever-growing processing capabilities, many database technologies have been becoming important support tools to enterprises and institutions. The need to include (and control) new data types to the existing database technologies has brought also new challenges and research areas, arising the spatial, temporal, and spatiotemporal databases. Besides that, new analytical capabilities were required facilitating the birth of the data warehouse technology and, once more, the need to include spatial or temporal data (or both) to it, thus originating the spatial, temporal, and spatio-temporal data warehouses. The queries used in each database type had also evolved, culminating in the STOLAP (Spatio Temporal OLAP) queries, which are composed of predicates dealing with conventional, spatial, and temporal data with the possibility of having their execution aided by specialized index structures. This work’s intention is to investigate how the execution of each predicate affects the performance of STOLAP queries by varying the used indexes, their execution order and the query’s selectivity. Bitmap Join Indexes will help in conventional predicate’s execution and in some portions of the temporal processing, which will also count with the use of SQL queries for some of the alternatives used in this research. The SB-index and HSB-index will aid the spatial processing while the STB-index will be used to process temporal and spatial predicates together. The expected result is an analysis of the best predicate order while running the queries also considering their selectivity. Another contribution of this work is the evolution of the HSB-index to a hierarchized version called HSTB-index, which should complement the execution options. Por proverem uma capacidade de processamento de dados cada vez maior, várias tecnologias de bancos de dados têm se tornado importantes ferramentas de apoio a empresas e instituições. A necessidade de se incluir e controlar novos tipos de dados aos bancos de dados já existentes fizeram também surgir novos desafios e novas linhas de pesquisa, como é o caso dos bancos de dados espaciais, temporais e espaçotemporais. Além disso, novas capacidades analíticas foram se fazendo necessárias culminando com o surgimento dos data warehouses e, mais uma vez, com a necessidade de se incluir dados espaciais e temporais (ou ambos) surgindo os data warehouses espaciais, temporais e espaço-temporais. As consultas relacionadas a cada tipo de banco de dados também evoluíram culminando com as consultas STOLAP (Spatio-Temporal OLAP) que são compostas basicamente por predicados envolvendo dados convencionais, espaciais e temporais e cujo processamento pode ser auxiliado por estruturas de indexação especializadas. Este trabalho pretende investigar como a execução de cada um dos tipos de predicados afeta o desempenho de consultas STOLAP variando-se os índices utilizados, a ordem de execução dos predicados e a seletividade das consultas. Índices Bitmap de Junção auxiliarão na execução dos predicados convencionais e de algumas partes dos predicados temporais que também contarão com o auxílio de consultas SQL, enquanto os índices SB-index e HSB-index serão utilizados para auxiliar na execução dos predicados espaciais das consultas. O STB-index também será utilizado nas comparações e envolve ambos os predicados espacial e temporal. Espera-se obter uma análise das melhores opções de combinação de execução dos predicados em consultas STOLAP tendo em vista também a seletividade das consultas. Outra contribuição deste trabalho é a evolução do HSB-index para uma versão hierarquizada chamada HSTB-index e que servirá para complementar as opções de processamento de consultas STOLAP.
- Published
- 2016
49. The Design of Vague Spatial Data Warehouses
- Author
-
Lopes Siqueira, Thiago Luis, Zimanyi, Esteban, Ciferri, Ricardo Rodrigues, Vansummeren, Stijn, Vaisman, Alejandro Ariel, Prado Santos, Marilde Terezinha, and Ribeiro, Marcela Xavier
- Subjects
logical design ,Systèmes d'information géographique ,Informatique de gestion ,spatial data warehouses ,Informatique générale ,conceptual modeling ,Informatique administrative ,spatial vagueness ,indexing - Abstract
Spatial data warehouses (SDW) and spatial online analytical processing (SOLAP) enhance decision making by enabling spatial analysis combined with multidimensional analytical queries. A SDW is an integrated and voluminous multidimensional database containing both conventional and spatial data. SOLAP allows querying SDWs with multidimensional queries that select spatial data that satisfy a given topological relationship and that aggregate spatial data. Existing SDW and SOLAP applications mostly consider phenomena represented by spatial data having exact locations and sharp boundaries. They neglect the fact that spatial data may be affected by imperfections, such as spatial vagueness, which prevents distinguishing an object from its neighborhood. A vague spatial object does not have a precisely defined boundary and/or interior. Thus, it may have a broad boundary and a blurred interior, and is composed of parts that certainly belong to it and parts that possibly belong to it. Although several real-world phenomena are characterized by spatial vagueness, no approach in the literature addresses both spatial vagueness and the design of SDWs nor provides multidimensional analysis over vague spatial data. These shortcomings motivated the elaboration of this doctoral thesis, which addresses both vague spatial data warehouses (vague SDWs) and vague spatial online analytical processing (vague SOLAP). A vague SDW is a SDW that comprises vague spatial data, while vague SOLAP allows querying vague SDWs. The major contributions of this doctoral thesis are: (i) the Vague Spatial Cube (VSCube) conceptual model, which enables the creation of conceptual schemata for vague SDWs using data cubes; (ii) the Vague Spatial MultiDim (VSMultiDim) conceptual model, which enables the creation of conceptual schemata for vague SDWs using diagrams; (iii) guidelines for designing relational schemata and integrity constraints for vague SDWs, and for extending the SQL language to enable vague SOLAP; (iv) the Vague Spatial Bitmap Index (VSB-index), which improves the performance to process queries against vague SDWs. The applicability of these contributions is demonstrated in two applications of the agricultural domain, by creating conceptual schemata for vague SDWs, transforming these conceptual schemata into logical schemata for vague SDWs, and efficiently processing queries over vague SDWs., Les entrepôts de données spatiales (EDS) et l'analyse en ligne spatiale (ALS) améliorent la prise de décision en permettant l'analyse spatiale combinée avec des requêtes analytiques multidimensionnelles. Un EDS est une base de données multidimensionnelle intégrée et volumineuse qui contient des données classiques et des données spatiales. L'ALS permet l'interrogation des EDS avec des requêtes multidimensionnelles qui sélectionnent des données spatiales qui satisfont une relation topologique donnée et qui agrègent les données spatiales. Les EDS et l'ALS considèrent essentiellement des phénomènes représentés par des données spatiales ayant une localisation exacte et des frontières précises. Ils négligent que les données spatiales peuvent être affectées par des imperfections, comme l'imprécision spatiale, ce qui empêche de distinguer précisément un objet de son entourage. Un objet spatial vague n'a pas de frontière et/ou un intérieur précisément définis. Ainsi, il peut avoir une frontière large et un intérieur flou, et est composé de parties qui lui appartiennent certainement et des parties qui lui appartiennent éventuellement. Bien que plusieurs phénomènes du monde réel sont caractérisés par l'imprécision spatiale, il n'y a pas dans la littérature des approches qui adressent en même temps l'imprécision spatiale et la conception d'EDS ni qui fournissent une analyse multidimensionnelle des données spatiales vagues. Ces lacunes ont motivé l'élaboration de cette thèse de doctorat, qui adresse à la fois les entrepôts de données spatiales vagues (EDS vagues) et l'analyse en ligne spatiale vague (ALS vague). Un EDS vague est un EDS qui comprend des données spatiales vagues, tandis que l'ALS vague permet d'interroger des EDS vagues. Les contributions majeures de cette thèse de doctorat sont: (i) le modèle conceptuel Vague Spatial Cube (VSCube), qui permet la création de schémas conceptuels pour des EDS vagues à l'aide de cubes de données; (ii) le modèle conceptuel Vague Spatial MultiDim (VSMultiDim), qui permet la création de schémas conceptuels pour des EDS vagues à l'aide de diagrammes; (iii) des directives pour la conception de schémas relationnels et des contraintes d'intégrité pour des EDS vagues, et pour l'extension du langage SQL pour permettre l'ALS vague; (iv) l'indice Vague Spatial Bitmap (VSB-index) qui améliore la performance pour traiter les requêtes adressées à des EDS vagues. L'applicabilité de ces contributions est démontrée dans deux applications dans le domaine agricole, en créant des schémas conceptuels des EDS vagues, la transformation de ces schémas conceptuels en schémas logiques pour des EDS vagues, et le traitement efficace des requêtes sur des EDS vagues., O data warehouse espacial (DWE) é um banco de dados multidimensional integrado e volumoso que armazena dados espaciais e dados convencionais. Já o processamento analítico-espacial online (SOLAP) permite consultar o DWE, tanto pela seleção de dados espaciais que satisfazem um relacionamento topológico, quanto pela agregação dos dados espaciais. Deste modo, DWE e SOLAP beneficiam o suporte a tomada de decisão. As aplicações de DWE e SOLAP abordam majoritarimente fenômenos representados por dados espaciais exatos, ou seja, que assumem localizações e fronteiras bem definidas. Contudo, tais aplicações negligenciam dados espaciais afetados por imperfeições, tais como a vagueza espacial, a qual interfere na identificação precisa de um objeto e de seus vizinhos. Um objeto espacial vago não tem sua fronteira ou seu interior precisamente definidos. Além disso, é composto por partes que certamente pertencem a ele e partes que possivelmente pertencem a ele. Apesar de inúmeros fenômenos do mundo real serem caracterizados pela vagueza espacial, na literatura consultada não se identificaram trabalhos que considerassem a vagueza espacial no projeto de DWE e nem para consultar o DWE. Tal limitação motivou a elaboração desta tese de doutorado, a qual introduz os conceitos de DWE vago e de SOLAP vago. Um DWE vago é um DWE que armazena dados espaciais vagos, enquanto que SOLAP vago provê os meios para consultar o DWE vago. Nesta tese, o projeto de DWE vago é abordado e as principais contribuições providas são: (i) o modelo conceitual VSCube que viabiliza a criação de um cubos de dados multidimensional para representar o esquema conceitual de um DWE vago; (ii) o modelo conceitual VSMultiDim que permite criar um diagrama para representar o esquema conceitual de um DWE vago; (iii) diretrizes para o projeto lógico do DWE vago e de suas restrições de integridade, e para estender a linguagem SQL visando processar as consultas de SOLAP vago no DWE vago; e (iv) o índice VSB-index que aprimora o desempenho do processamento de consultas no DWE vago. A aplicabilidade dessas contribuições é demonstrada em dois estudos de caso no domínio da agricultura, por meio da criação de esquemas conceituais de DWE vago, da transformação dos esquemas conceituais em esquemas lógicos de DWE vago, e do processamento de consultas envolvendo as regiões vagas do DWE vago., Doctorat en Sciences de l'ingénieur et technologie, Location of the public defense: Universidade Federal de São Carlos, São Carlos, SP, Brazil., info:eu-repo/semantics/nonPublished
- Published
- 2015
50. The design of vague spatial data warehouses
- Author
-
Siqueira, Thiago Luís Lopes and Ciferri, Ricardo Rodrigues
- Subjects
Indexação ,Vagueza espacial ,Modelo conceitual ,Indexing ,Spatial vagueness ,Conceptual modeling ,Logical design ,Banco de dados ,CIENCIA DA COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,Spatial data warehouses ,Data warehouse espacial ,Projeto lógico - Abstract
Universidade Federal de Minas Gerais O data warehouse espacial (DWE) é um banco de dados multidimensional integrado e volumoso que armazena dados espaciais e dados convencionais. Já o processamento analítico espacial online (SOLAP) permite consultar o DWE, tanto pela seleção de dados espaciais que satisfazem um relacionamento topológico, quanto pela agregação dos dados espaciais. Deste modo, DWE e SOLAP beneficiam o suporte a tomada de decisão. As aplicações de DWE e SOLAP abordam majoritarimente fenômenos representados por dados espaciais exatos, ou seja, que assumem localizações e fronteiras bem definidas. Contudo, tais aplicações negligenciam dados espaciais afetados por imperfeições, tais como a vagueza espacial, a qual interfere na identificação precisa de um objeto e de seus vizinhos. Um objeto espacial vago não tem sua fronteira ou seu interior precisamente definidos. Além disso, é composto por partes que certamente pertencem a ele e partes que possivelmente pertencem a ele. Apesar de inúmeros fenômenos do mundo real serem caracterizados pela vagueza espacial, na literatura consultada não se identificaram trabalhos que considerassem a vagueza espacial no projeto de DWE e nem para consultar o DWE. Tal limitação motivou a elaboração desta tese de doutorado, a qual introduz os conceitos de DWE vago e de SOLAP vago. Um DWE vago é um DWE que armazena dados espaciais vagos, enquanto que SOLAP vago provê os meios para consultar o DWE vago. Nesta tese, o projeto de DWE vago é abordado e as principais contribuições providas são: (i) o modelo conceitual VSCube que viabiliza a criação de um cubos de dados multidimensional para representar o esquema conceitual de um DWE vago; (ii) o modelo conceitual VSMultiDim que permite criar um diagrama para representar o esquema conceitual de um DWE vago; (iii) diretrizes para o projeto lógico do DWE vago e de suas restrições de integridade, e para estender a linguagem SQL visando processar as consultas de SOLAP vago no DWE vago; e (iv) o índice VSB-index que aprimora o desempenho do processamento de consultas no DWE vago. A aplicabilidade dessas contribuições é demonstrada em dois estudos de caso no domínio da agricultura, por meio da criação de esquemas conceituais de DWE vago, da transformação dos esquemas conceituais em esquemas lógicos de DWE vago, e do processamento de consultas envolvendo as regiões vagas do DWE vago. Spatial data warehouses (SDW) and spatial online analytical processing (SOLAP) enhance decision making by enabling spatial analysis combined with multidimensional analytical queries. A SDW is an integrated and voluminous multidimensional database containing both conventional and spatial data. SOLAP allows querying SDWs with multidimensional queries that select spatial data that satisfy a given topological relationship and that aggregate spatial data. Existing SDW and SOLAP applications mostly consider phenomena represented by spatial data having exact locations and sharp boundaries. They neglect the fact that spatial data may be affected by imperfections, such as spatial vagueness, which prevents distinguishing an object from its neighborhood. A vague spatial object does not have a precisely defined boundary and/or interior. Thus, it may have a broad boundary and a blurred interior, and is composed of parts that certainly belong to it and parts that possibly belong to it. Although several real-world phenomena are characterized by spatial vagueness, no approach in the literature addresses both spatial vagueness and the design of SDWs nor provides multidimensional analysis over vague spatial data. These shortcomings motivated the elaboration of this doctoral thesis, which addresses both vague spatial data warehouses (vague SDWs) and vague spatial online analytical processing (vague SOLAP). A vague SDW is a SDW that comprises vague spatial data, while vague SOLAP allows querying vague SDWs. The major contributions of this doctoral thesis are: (i) the Vague Spatial Cube (VSCube) conceptual model, which enables the creation of conceptual schemata for vague SDWs using data cubes; (ii) the Vague Spatial MultiDim (VSMultiDim) conceptual model, which enables the creation of conceptual schemata for vague SDWs using diagrams; (iii) guidelines for designing relational schemata and integrity constraints for vague SDWs, and for extending the SQL language to enable vague SOLAP; (iv) the Vague Spatial Bitmap Index (VSB-index), which improves the performance to process queries against vague SDWs. The applicability of these contributions is demonstrated in two applications of the agricultural domain, by creating conceptual schemata for vague SDWs, transforming these conceptual schemata into logical schemata for vague SDWs, and efficiently processing queries over vague SDWs.
- Published
- 2015
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.