25 results on '"Extração de dados"'
Search Results
2. Utilización de reglas de asociación para determinar soluciones tecnológico-constructivas para el mejoramiento de la eficiencia energética en edificios de salud.
- Author
-
Urteneche, Emilia, Andrés Barbero, Dante, and Martini, Irene
- Abstract
Copyright of Anales de Investigación en Arquitectura is the property of Universidad ORT Uruguay, Facultad de Arquitectura and its content may not be copied or emailed to multiple sites or posted to a listserv without the copyright holder's express written permission. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)
- Published
- 2023
- Full Text
- View/download PDF
3. UM RETRATO DA PRODUÇÃO CIENTÍFICA BRASILEIRA BASEADO EM DADOS DA PLATAFORMA LATTES.
- Author
-
Rodrigues Dias, Thiago Magela and Farias Moita, Gray
- Abstract
Studies on scientific production data have received attention from researchers in various fields to gain insight into the evolution of research in general. Such studies allow the analysis of scientific production for various purposes and one of the challenges in this type of analysis lies in the diversity of repositories containing data in different formats and structures. In addition, problems such as data redundancy, ambiguity, and incorrect data make the analysis even more complex. In this article, an analysis of the curricular data of Brazilian researchers enrolled in the Lattes Platform is carried out. The amount of data analyzed makes it possible to obtain a view of the whole set consisting of millions of curricula, and contains data on scientific publications, training level, areas of activity, among others. In the results presented, it is possible to obtain an overview of the Brazilian scientific production and the profile of the productivity of the doctors who have worked in Brazil. [ABSTRACT FROM AUTHOR]
- Published
- 2018
- Full Text
- View/download PDF
4. Um processo para caracterização e análise de redes de colaboração científica institucional
- Author
-
Thiago Magela Rodrigues Dias, Roberth Santos Gomes, Jhonatan Fernando Oliveira, and Gray Farias Moita
- Subjects
Redes de colaboração científica ,Extração de dados ,Recuperação da informação ,Bibliography. Library science. Information resources - Abstract
http://dx.doi.org/10.5007/1518-2924.2017v22n48p59 O conhecimento é nos dias atuais fator primordial na definição e análise do desenvolvimento de um país e de sua população como um todo. A construção do conhecimento ocorre inevitavelmente através de colaborações, onde pesquisadores se reúnem em prol de objetivos em comum, formando as redes de colaboração científica. Tais redes são caracterizadas quando pesquisadores realizam e publicam seus trabalhos de forma conjunta, independentemente da instituição ou região geográfica em que estejam localizados. A colaboração científica entre instituições distintas, possibilita o intercâmbio de conhecimento e consequentemente efetiva troca de experiências, impulsionando a evolução da ciência. Nesse contexto, analisar tais redes pode proporcionar conhecimento sobre como vem ocorrendo à colaboração científica entre instituições de pesquisa e o quanto estas colaborações tem contribuído para a excelência das pesquisas realizadas. Este trabalho tem como objetivo analisar as redes de colaborações institucionais a partir de dados dos currículos Lattes. As redes são caracterizadas pelas colaborações entre pesquisadores de diferentes instituições, após a caracterização das redes, técnicas de visualização de grande volume de dados e métricas de análise de redes são aplicadas para verificar como a colaboração científica nacional tem ocorrido.
- Published
- 2017
- Full Text
- View/download PDF
5. Adoção da plataforma lattes como fonte de dados para caracterização de redes científicas
- Author
-
Thiago Magela Rodrigues Dias, Gray Farias Moita, and Patrícia Mascarenhas Dias
- Subjects
Plataforma Lattes ,Extração de dados ,Recuperação de informações ,Colaboração científica ,Bibliography. Library science. Information resources - Abstract
Os estudos sobre dados de produções científicas têm recebido atenção de pesquisadores, de diversas áreas, que visam obter conhecimento sobre a evolução das pesquisas em geral. Tais estudos possibilitam a análise da produção científica para diversos propósitos e um dos desafios neste tipo de análise está na diversidade de repositórios contendo dados em formatos e estruturas distintas. Os currículos da Plataforma Lattes se caracterizam atualmente como importante ferramenta para que pesquisadores, acadêmicos e estudantes, registrem seus dados, sendo amplamente utilizados, se caracterizando como um dos maiores repositórios de dados sobre produção científica, técnica, artística e profissional, contendo milhões de pesquisadores cadastrados. Neste trabalho é proposta uma plataforma para extração de todo o conjunto de dados dos currículos Lattes compondo um grande repositório de dados científicos, além disso, são implementadas técnicas para análises bibliométricas dos dados e identificação de redes de colaboração científica. Como resultados são apresentados estudos que objetivam obter uma visão geral sobre o repositório de currículos Lattes e como o conteúdo destes currículos pode ser utilizado para a caracterização de redes de colaboração científica. Conclui-se que os currículos Lattes são uma fonte extremamente rica de dados científicos e que sua adoção para estudos bibliométricos e baseados em análise de redes cientificas podem proporcionar resultados importantes para compreensão de como a ciência brasileira tem sido realizada. A grande dificuldade ao se analisar todo o repositório de dados da Plataforma Lattes está relacionada ao grande volume de dados que a compõem e ainda devido ao uso de técnicas, como por exemplo de identificação de colaborações pouco eficientes e computacionalmente complexas. Logo, este trabalho apresenta todo o potencial da Plataforma Lattes para análises bibliométricas de pesquisadores, sendo para isso proposta uma plataforma capaz de coletar e analisar todo o conjunto de dados com baixo custo computacional e com precisão satisfatória.
- Published
- 2016
- Full Text
- View/download PDF
6. Extração de informações em imagens de tráfego: uma abordagem com aprendizado profundo
- Author
-
Fraga, Vitor Augusto, Barbosa, Jorge Luis Victória, and Ramos, Gabriel de Oliveira
- Subjects
Visão computacional ,Data extraction ,Traffic ,Intelligent traffic systems ,Tráfego ,Computer vision ,Deep learning ,Convolutional neural networks ,Ciências Exatas e da Terra::Ciência da Computação [ACCNPQ] ,Sistemas inteligentes de tráfego ,Redes neurais convolucionais ,Aprendizado profundo ,Extração de dados - Abstract
Submitted by Anna Barbara Alves Beraldine (annabarbara@unisinos.br) on 2022-06-03T18:40:28Z No. of bitstreams: 1 Vitor Augusto Fraga_.pdf: 4463129 bytes, checksum: d983c4a44cd268657f5fc47c5ec8ee2f (MD5) Made available in DSpace on 2022-06-03T18:40:28Z (GMT). No. of bitstreams: 1 Vitor Augusto Fraga_.pdf: 4463129 bytes, checksum: d983c4a44cd268657f5fc47c5ec8ee2f (MD5) Previous issue date: 2022-04-06 Nenhuma Os sistemas de tráfego são fundamentais no desenvolvimento das cidades. Todavia, esses sistemas sofrem cada vez mais com problemas como congestionamentos. Problemas como este podem elevar o consumo de combustíveis e poluição do ar. Além disso, estes problemas afetam diretamente a saúde das pessoas, estudos apontam que a exposição ao tráfego como fator que colabora com fases iniciais de infarto do miocárdio. Uma maneira eficiente de reduzir essa categoria de problema é realizar o controle semafórico inteligentemente, por algoritmos de aprendizado por reforço ou gerenciamento de tráfego. Todavia, para implementar essa categoria de solução, é necessário extrair informações do ambiente. O advento do processamento digital de imagens e das redes neurais convolucionais possibilitaram a extração de dados de forma menos problemática comparado a métodos mais tradicionais, como a instalação de sensores nas pistas. Utilizando imagens é possível extrair diferentes categorias de dados, como a quantidade de veículos em uma faixa, tempo que ficam parados e também a categoria que este trabalho se propõe a extrair, a origem e destino dos veículos em cruzamentos. Com motivação gerada a partir da necessidade de obter dados para resolver problemas ligados ao tráfego, este trabalho contribuí com um pipeline completo para processamento de imagens em cruzamentos de tráfego filmados com angulação aérea. O pipeline detecta veículos, identifica suas trajetórias e metrifica as origens e destinos, diferenciado-se assim dos trabalhos da literatura pesquisados. O pipeline é composto por três principais Os sistemas de tráfego são fundamentais no desenvolvimento das cidades. Todavia, esses sistemas sofrem cada vez mais com problemas como congestionamentos. Problemas como este podem elevar o consumo de combustíveis e poluição do ar. Além disso, afeta diretamente a saúde das pessoas, estudos apontam que a exposição ao tráfego como fator que colabora com fases iniciais de infarto do miocárdio. Uma maneira eficiente de reduzir essa categoria de problema é realizar o controle semafórico inteligentemente, por algoritmos de aprendizado por reforço ou gerenciamento de tráfego. Todavia, para implementar essa categoria de solução, é necessário extrair informações do ambiente. O advento do processamento digital de imagens e das redes neurais convolucionais possibilitaram a extração de dados de forma menos problemática comparado a métodos mais tradicionais, como a instalação de sensores nas pistas. Utilizando imagens é possível extrair diferentes categorias de dados, como a quantidade de veículos em uma faixa, tempo que ficam parados e também a categoria que este trabalho se propõe a extrair, a origem e destino dos veículos em cruzamentos. Com motivação gerada a partir da necessidade de obter dados para resolver problemas ligados ao tráfego, este trabalho contribuí com um pipeline completo para processamento de imagens em cruzamentos de tráfego filmados com angulação aérea. O pipeline detecta veículos, identifica suas trajetórias e metrifica as origens e destinos, diferenciado-se assim dos trabalhos da literatura pesquisados. O pipeline é composto por três principais módulos. Uma rede neural convolucional do tipo YOLO (You Only Look Once) customizada, capaz detectar veículos em filmagens com angulação aérea. O segundo módulo possui a implementação de método rastreador referenciado na literatura cujo objetivo é atribuir identidade aos veículos em todos os frames. O terceiro módulo é chamado "origens e destinos", cujo objetivo é quantificar a quantidade de veículos que passam por um único local na cena e extrair a quantidade de veículos por rotas. Como método de avaliação, cada módulo do pipeline foi metrificado. O modelo detector atingiu o resultado de IDP 77,5% e IDR de 95,8%. O algoritmo rastreador obteve um resultado de MOTA 72,6% e MOTP 74,4%. Dado que cada módulo do pipeline depende do outro, o resultado geral é visto através da metrificação do terceiro, origens e destinos. Esta etapa é avaliada em duas fases, a primeira sendo a quantidade de veículos que passam por um único ponto na cena, onde a média de OD Error % é 1,80% e a média de OD Error % para rotas é 7.53%.tidade aos veículos em todos os frames. O terceiro módulo é chamado origens e destinos, cujo objetivo é metrificar a quantidade de veículos que passam por um único local na cena e extrair a quantidade de veículos por rotas. Como método de avaliação, cada módulo do pipeline foi metrificado. O modelo detector atingiu o resultado de IDP 77,5% e IDR de 95,8%. O algoritmo rastreador obteve um resultado de MOTA 72,6% e MOTP 74,4%. Dado que cada módulo do pipeline depende do outro, o resultado geral é visto através da metrificação do terceiro, origens e destinos. Esta etapa é avaliada em duas fases, a primeira sendo a quantidade de veículos que passam por um único ponto na cena, onde a média de OD Error % é 1,80% e a média de OD Error % para rotas é 7.53%. Traffic systems are fundamental in the development of cities. However, these systems increasingly suffer from problems such as congestion. Problems like this can increase fuel consumption and air pollution. In addition, it directly affects people’s health. For example, studies indicate that exposure to traffic is a factor that collaborates with the early stages of myocardial infarction. An efficient way to reduce this problem category is to perform traffic light control intelligently by reinforcement learning or traffic management algorithms. However, it becomes necessary to extract information from the environment to implement this solution category. The advent of digital image processing and convolutional neural networks made it possible to extract data in a less problematic way compared to more traditional methods, such as installing sensors on the tracks. Using images, it is possible to extract different categories of data, such as the number of vehicles in a lane, the time they are stopped, and the category that this work proposes to extract, the origin and destination of vehicles at intersections. With motivation generated from the need to obtain data to solve problems related to traffic, this work contributes with a complete pipeline for image processing in traffic intersections filmed with aerial angle. The pipeline detects vehicles, identifies their trajectories, and metrifies origins and destinations, thus differentiating itself from the researched works in the literature. The pipeline consists of three main blocks. A custom YOLO (You Only Look Once) convolutional neural network capable of detecting vehicles in aerial angled footage. The second block has the implementation of a tracking method referenced in the literature whose objective is to attribute identity to vehicles in all frames. Finally, the third block is called origins and destinations, whose objective is to measure the number of vehicles that pass through a single location in the scene and extract the number of vehicles by the route. As an evaluation method, each block of the pipeline was metric. The detector model reached the result of IDP 77.5% and IDR of 95.8%. The tracking algorithm obtained a result of MOTA 72.6% and MOTP 74.4%. Since each block of the pipeline depends on the other, the overall result is seen through the metrification of the third, "origins and destinations". This step is evaluated in two phases, the first being the number of vehicles that pass through a single point in the scene, where the average OD Error% is 1.80% and the average OD Error% for routes it is 7.53%.
- Published
- 2022
7. A non-intrusive and reactive architecture to perform the ETL process in a real-time in a data warehousing environment
- Author
-
Vilela, Flávio de Assis and Ciferri, Ricardo Rodrigues
- Subjects
ETL ,Data warehouse ,Data extraction ,Data loading ,Tempo real ,Carregamento de dados ,Real-time ,CIENCIA DA COMPUTACAO [CIENCIAS EXATAS E DA TERRA] ,Extração de dados ,Carga de dados ,Data warehousing - Abstract
Não recebi financiamento There is a great interest in obtaining data that support the decision-making process in business. These data are available in data sources in the operational environment, which are autonomous, heterogeneous, and distributed. The data are extracted through the Extract, Transform, and Load process (ETL) and stored in the informational environment in a homogeneous, integrated, and dimensional database called data warehouse. The ETL process traditionally takes place at predefined periods, such as daily, weekly, monthly, or according to the organization's data update rules. However, there are applications that need operational data as quickly as possible or immediately after the data is available from data sources. Examples of these applications are medical systems, highway control systems and digital farming systems. Therefore, the traditional ETL process and currently available techniques are unable to make the data available for decision making in real-time, ensuring availability, low elapsed time, and scalability. This work presents an innovative, non-intrusive and reactive architecture, called Data Magnet, from which it is possible to perform the ETL process in real time in data warehousing environments. The non-intrusive feature means that the solution does not need to search for data in the operating environment and, therefore, it is not necessary to make a connection with the data sources or deal directly with the heterogeneity of the data. The reactive feature indicates that the solution will react to events in the operating environment and perform an automatic action in order to guarantee real-time requirements. Two experimental tests were performed, the first one in a real environment in the field of dairy farming, and the second one in a synthetic environment, in order to assess the Data Magnet with a high volume of data. In addition, the Data Magnet produced a good performance with low elapsed time, guaranteed availability and great scalability as the data volume increased. The Data Magnet also produced a huge performance gain for the average metric with regard to the traditional trigger technique commonly used in real-time ETL process. É cada vez maior o interesse em se obter dados que apoiem o processo de tomada de decisão estratégica nas organizações. Esses dados estão disponíveis em fontes de dados no ambiente operacional, as quais são autônomas, heterogêneas e distribuídas. Os dados são obtidos por meio do processo de Extração, Transformação e Carga (do inglês Extract, Transform, and Loading - (ETL)) e armazenados no ambiente informacional em uma base de dados homogênea e dimensional chamada data warehouse. O processo ETL ocorre tradicionalmente em momentos predefinidos, tais como diariamente, semanalmente, mensalmente ou de acordo com as regras de atualização de dados da organização. Entretanto, existem aplicações que necessitam obter os dados operacionais o mais rápido possível ou imediatamente após os dados serem produzidos nas fontes de dados. Exemplos dessas aplicações são sistemas médicos, sistemas de controle de rodovias e sistemas para agropecuária digital. Portanto, o processo ETL tradicional e as técnicas disponíveis atualmente são incapazes de disponibilizar os dados para tomada de decisão em tempo real, garantindo os requisitos de disponibilidade, baixo tempo de resposta e escalabilidade. Este trabalho apresenta uma inovadora arquitetura não intrusiva e reativa, chamada Imã de Dados, a partir da qual é possível realizar o processo ETL em tempo real em ambientes de data warehousing. A característica não intrusiva permite que a solução não necessite buscar os dados no ambiente operacional e desta forma não é necessário realizar a conexão com as fontes de dados e nem lidar diretamente com a heterogeneidade dos dados. Já a característica reativa indica que a solução irá reagir a eventos ocorridos no ambiente operacional e executar uma ação automaticamente de forma a garantir os requisitos de tempo real. Dois testes experimentais foram realizados, o primeiro em ambiente real no domínio da pecuária leiteira e o segundo em um ambiente sintético, mostraram que o Imã de Dados é capaz de processar corretamente todo o fluxo de ETL em tempo real. Além disso, o Imã de Dados apresentou um bom desempenho com baixo tempo de resposta, garantiu disponibilidade e apresentou escalabilidade à medida que ocorreu o aumento do volume de dados. Em especial, o Imã de Dados produziu um grande ganho de desempenho considerando o tempo médio, ao ser comparado com a tradicional técnica de gatilhos, comumente usada em processos ETL de tempo real.
- Published
- 2021
8. Gestão de conteúdos digitais em múltiplos monitores com possibilidade de interação e recolha de estatísticas
- Author
-
Valente, Cátia Marisa dos Santos, Neves, António José Ribeiro, and Georgieva, Pétia
- Subjects
Visão por computador ,Sinalização digital ,Reconhecimento facial ,Ecrãs públicos ,Deteção de faces ,Deteção de olhar ,Extração de dados ,Reconhecimento de emoções - Abstract
Com o aparecimento de novos mecanismos de publicidade digital, nomeadamente ecrãs públicos, tem havido cada vez mais necessidade de perceber o impacto que a informação disponibilizada tem entre as pessoas para a qual estes sistemas são dirigidos. Pretende-se assim com o desenvolvimento desta dissertação criar um sistema de sinalização digital capaz de gerir remotamente conteúdo multimédia e de recolher métricas associadas às pessoas que observam os conteúdos. Essas métricas, como por exemplo a emoção demonstrada e grau de atenção prestada, serão apresentadas sobre a forma de uma dashboard, para que seja possível a interpretação do comportamento das pessoas ao longo do tempo. Além disso, pretende-se que as pessoas possam interagir com o sistema, navegando ou mesmo parando a lista de reprodução caso tenham interesse especial em algum dos conteúdos visualizados. With the appearance of new publicity mechanisms, in particular public displays, it starts to have necessity to understand the impact of the information that is displayed to the target public. In this dissertation, it is intended to develop a digital signage system capable of remotely managing the multimedia content to be displayed and collect metrics associated with the people watching the content, such as emotion and gaze. These metrics will be displayed in a dashboard that will help to understand how the audience reacts to the media being displayed. In addition, it is intended that people who pass through the digital signage system can interact with the playlist if they are interested in any of the contents viewed. Mestrado em Engenharia de Computadores e Telemática
- Published
- 2021
9. EXTRAÇÃO DE DADOS DO SITE TRIPADVISOR COMO SUPORTE NA ELABORAÇÃO DE INDICADORES DO TURISMO DE MINAS GERAIS: UMA INICIATIVA EM BIG DATA.
- Author
-
Almeida de Oliveira, Rafael and Arantes Baracho Porto, Renata Maria
- Abstract
The research aims to study the phenomenon called “Big Data" and the possibility of using free web data extraction tools (web scrapers) to help the development of indicators about tourist attractions in Minas Gerais State (Brazil) registered in the world's most famous travel-related website known as “TripAdvisor". Therefore, we carried out a brief study of themes such as information sciences and the role of web-based information extraction tools. After the literature review, we used a web scraper tool called Import.io to collect data from TripAdvisor, searching for key information of Minas Gerais' tourist attractions and turning them into a structured database. Thus, it was possible to extract information such as the division of tourist attractions by categories from the state and municipalities, the number of evaluations, visitors' profiles, satisfaction levels, and the period of most visits at each of the attractions. We expect this methodology to assist the state authorities and municipalities to create performance indicators form data extraction that is already available on the web at low cost, improving actions and ensuring an improvement in the use of public resources in tourism policies. [ABSTRACT FROM AUTHOR]
- Published
- 2016
10. ETL for data science?: A case study
- Author
-
Oliveira, Nicole Furtado, Nunes, Luís Miguel Martins, and Cardoso, Elsa Alexandra Cabral da Rocha
- Subjects
Artificial intelligence ,Modelos de processo ,Data normalization ,Data extraction ,KDD ,Case study ,Process models ,Limpeza de dados ,Grant funds for the private sector ,Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática [Domínio/Área Científica] ,Data transformation ,Normalização de dados ,Data science ,Data cleaning ,Data warehouse ,Pipeline ,Machine learning ,Compreensão do negócio ,Caso de estudo ,Ciência de dados ,Data understanding ,Data preparation ,Grant funds management ,Business understanding ,Metodologia ,Compreensão de dados ,Fundos de investimento para o setor privado ,Inteligência artificial ,Fundos estruturais e de investimento europeus ,Data mining ,CRISP-DM ,ETL ,European structural and investment funds ,Gestão de fundos de investimento ,Methodologies ,Transformação de dados ,Preparação de dados ,Extração de dados ,Python - Abstract
Big data has driven data science development and research over the last years. However, there is a problem - most of the data science projects don't make it to production. This can happen because many data scientists don’t use a reference data science methodology. Another aggravating element is data itself, its quality and processing. The problem can be mitigated through research, progress and case studies documentation about the topic, fostering knowledge dissemination and reuse. Namely, data mining can benefit from other mature fields’ knowledge that explores similar matters, like data warehousing. To address the problem, this dissertation performs a case study about the project “IA-SI - Artificial Intelligence in Incentives Management”, which aims to improve the management of European grant funds through data mining. The key contributions of this study, to the academia and to the project’s development and success are: (1) A combined process model of the most used data mining process models and their tasks, extended with the ETL’s subsystems and other selected data warehousing best practices. (2) Application of this combined process model to the project and all its documentation. (3) Contribution to the project’s prototype implementation, regarding the data understanding and data preparation tasks. This study concludes that CRISP-DM is still a reference, as it includes all the other data mining process models’ tasks and detailed descriptions, and that its combination with the data warehousing best practices is useful to the project IA-SI and potentially to other data mining projects. A big data tem impulsionado o desenvolvimento e a pesquisa da ciência de dados nos últimos anos. No entanto, há um problema - a maioria dos projetos de ciência de dados não chega à produção. Isto pode acontecer porque muitos deles não usam uma metodologia de ciência de dados de referência. Outro elemento agravador são os próprios dados, a sua qualidade e o seu processamento. O problema pode ser mitigado através da documentação de estudos de caso, pesquisas e desenvolvimento da área, nomeadamente o reaproveitamento de conhecimento de outros campos maduros que exploram questões semelhantes, como data warehousing. Para resolver o problema, esta dissertação realiza um estudo de caso sobre o projeto “IA-SI - Inteligência Artificial na Gestão de Incentivos”, que visa melhorar a gestão dos fundos europeus de investimento através de data mining. As principais contribuições deste estudo, para a academia e para o desenvolvimento e sucesso do projeto são: (1) Um modelo de processo combinado dos modelos de processo de data mining mais usados e as suas tarefas, ampliado com os subsistemas de ETL e outras recomendadas práticas de data warehousing selecionadas. (2) Aplicação deste modelo de processo combinado ao projeto e toda a sua documentação. (3) Contribuição para a implementação do protótipo do projeto, relativamente a tarefas de compreensão e preparação de dados. Este estudo conclui que CRISP-DM ainda é uma referência, pois inclui todas as tarefas dos outros modelos de processos de data mining e descrições detalhadas e que a sua combinação com as melhores práticas de data warehousing é útil para o projeto IA-SI e potencialmente para outros projetos de data mining.
- Published
- 2021
11. Técnicas em software livre para exploração de corpora do português livremente disponíveis na WWW.
- Author
-
de Alencar, Leonel Figueiredo
- Subjects
- *
LANGUAGE & languages , *CORPORA , *INFORMATION science , *ELECTRONIC systems , *SCRIPTS , *COMMAND languages (Computer science) , *COMPUTATIONAL linguistics , *COMPUTER operating systems , *FEASIBILITY studies - Abstract
This paper approaches corpus linguistics as a subfield in applied informatics which features among its main focuses automatic data extraction from corpora. For this purpose, we develop commands and scripts in the UNIX bash command language, illustrating its applicability in the investigation of the -vel suffix and of iterations of letters and words in two of the main corpuses of Portuguese. We argue that using free software tools with textual interface, whose mastering together with programming skills is a necessity in computational linguistics, is more advantageous in corpus linguistics in comparison to commercial and proprietary programs with graphical interface. [ABSTRACT FROM AUTHOR]
- Published
- 2009
12. A presença das fake news em mídias sociais : um extrato de publicações sobre a Covid-19 no Facebook
- Author
-
Silva, Júlia Rodrigues da, Lopes, Larissa Bacelar Pontes, and Silva, Márcio Bezerra da
- Subjects
Fake news ,Mídia social ,Covid-19 ,Comunicação social ,Extração de dados - Abstract
Identifica notícias consideradas como fake news na mídia social Facebook. Apresenta-se como uma pesquisa exploratória, bibliográfica e de abordagem quantitativa-qualitativa, a partir de uma coleta de dados realizada por extração pelo software Facepager e por expressões de buscas no perfil do jornal Metrópoles (Brasília/Distrito Federal) no Facebook. Conclui-se que as fake news sobre a Covid-19 são representadas pela produção de conteúdo impostor, usando o nome de terceiros para validar a informação, pela disseminação de boatos a partir de conteúdos fabricados por cidadãos comuns, que podem causar malefícios, e pela exposição de conteúdos enganosos, minimizando cenários e apresentando dados falsos. Identifies reports considered as fake news on Facebook social media. Presents as an exploratory, bibliographic research with a quantitative-qualitative approach, based on a data collection performed by extraction by the Facepager software and by expressions of searches in the profile of the newspaper Metropolis (Brasilia/Federal District). Concludes that the fake news about COVID-19 is represented by the production of imposter content, using the name of third parties to validate the information, by the spread of rumors from content manufactured by ordinary citizens, whichcan cause harm, and by the exposure of misleading content, minimizing scenarios and presenting false data.
- Published
- 2020
13. Extração semiautomática de redes bayesianas a partir de ontologias com base em sumarização
- Author
-
Silva, Diego Pinheiro da, Bez, Marta Rosecler, and Rigo, Sandro José
- Subjects
Data Extraction ,Redes Bayesianas ,Ontology Summarization ,Ontology ,Bayesian Network ,Sumarização de Ontologias ,Ciências Exatas e da Terra::Ciência da Computação [ACCNPQ] ,Ontologia ,Extração de Dados - Abstract
Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2019-08-29T16:17:08Z No. of bitstreams: 1 Diego Pinheiro da Silva_.pdf: 8847981 bytes, checksum: 64c23efa4c2a28eb73af9b98398d4af4 (MD5) Made available in DSpace on 2019-08-29T16:17:08Z (GMT). No. of bitstreams: 1 Diego Pinheiro da Silva_.pdf: 8847981 bytes, checksum: 64c23efa4c2a28eb73af9b98398d4af4 (MD5) Previous issue date: 2019-03-14 CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior Ontologias são modelos de representação de conhecimento facilmente interpretados tanto por seres humanos como por computadores. Redes Bayesianas são modelos de representação de conhecimento que incorporam o tratamento de incerteza. A sumarização de ontologias tem como proposta facilitar e melhorar o entendimento de uma ontologia, com o intuito de delimitar os conceitos mais importantes dentro o conjunto de conceitos representados. Existe uma grande dificuldade na construção de Redes Bayesianas, segundo a literatura. A maioria dos modelos conhecidos envolve uma extensa interação manual. Por outro lado, existe uma disponibilidade crescente de ontologias que descrevem o conhecimento de diversas áreas. Essas ontologias podem ser utilizadas como fontes para a criação de Redes Bayesianas, através de modelos diversos. Este trabalho apresenta um novo modelo para a extração semiautomática de Redes Bayesianas a partir de Ontologias. O diferencial desse trabalho localiza-se na abordagem com análise de relevância dos aspectos semânticos das ontologias, presentes em um algoritmo de conversão desenvolvido, bem como a estruturação do conhecimento necessário a ser convertido com uso de um método de sumarização de ontologias, o que é considerado como uma abordagem inédita na área. O texto descreve o embasamento teórico e os trabalhos relacionados, bem como as hipóteses formuladas, o modelo proposto, o protótipo desenvolvido e o experimento de avaliação de resultados. O modelo foi implementado em um caso real de geração de Redes Bayesianas para casos clínicos e foi integrado a um editor interativo de Redes Bayesianas. Realizou-se três experimentos diferentes, através de análises comparativas, com especialistas na área da saúde. Os resultados indicam boas possibilidades na geração das redes bayesianas, sendo efetivos quando comparados com resultados manuais e com avanços em relação ao estado da arte. O modelo foi bem recebido e considerado útil por especialistas. Ontologies are models of representation of knowledge easily interpreted by both humans and computers. Bayesian networks are models of knowledge that work with uncertain reasoning, providing a way to treat uncertainty. The ontology summarization aims to facilitate and improve the understanding of an ontology, in order to restrict the knowledge of the domain to the most important concepts. There is a great difficulty in the construction and / or generation of Bayesian Networks, according to the literature. Most known models involve extensive manual interaction. On the other hand, there is a growing availability of ontologies that describe the knowledge of several areas. These ontologies can be applied as sources for the creation of Bayesian networks, through several models. This work presents a new model for the semiautomatic extraction of Bayesian Networks from ontologies. The differential of this work is the analysis of the relevance of the semantic aspects of the ontologies present in a developed conversion algorithm, as well as the structuring of the knowledge needed to be converted, where in this work we use the ontology summarization. The literature presents no approach that resembles this one. The text describes the theoretical basis and related works, as well as the formulated hypotheses, the developed model and the preliminary evaluation experiment. The model was implemented in a real case of Bayesian network generation for clinical cases and was integrated to a Bayesian Network editor. Three different experiments were carried out, through comparative analyzes, with specialists and questionnaires. The results indicate good possibilities in the generation of Bayesian networks, being effective when compared with manual results and advances in relation to the state of the art. The model was well received and endorsed by experts.
- Published
- 2019
14. Um retrato da produção científica brasileira baseado em dados da plataforma LATTES
- Author
-
Gray Farias Moita and Thiago Magela Rodrigues Dias
- Subjects
Embryology ,Bibliometria ,Training level ,Scientific production ,Cell Biology ,Sociology ,Anatomy ,Publicações Científicas ,Extração de Dados ,Humanities ,Bibliotecas Digitais ,Developmental Biology - Abstract
EnglishStudies on scientific production data have received attention from researchers in various fields to gain insight into the evolution of research in general. Such studies allow the analysis of scientific production for various purposes and one of the challenges in this type of analysis lies in the diversity of repositories containing data in different formats and structures. In addition, problems such as data redundancy, ambiguity, and incorrect data make the analysis even more complex. In this article, an analysis of the curricular data of Brazilian researchers enrolled in the Lattes Platform is carried out. The amount of data analyzed makes it possible to obtain a view of the whole set consisting of millions of curricula, and contains data on scientific publications, training level, areas of activity, among others. In the results presented, it is possible to obtain an overview of the Brazilian scientific production and the profile of the productivity of the doctors who have worked in Brazil. portuguesOs estudos sobre dados de producoes cientificas tem recebido atencao de pesquisadores, de diversas areas, que visam obter conhecimento sobre a evolucao das pesquisas em geral. Tais estudos possibilitam a analise da producao cientifica para diversos propositos e um dos desafios neste tipo de analise esta na diversidade de repositorios contendo dados em formatos e estruturas distintas. Alem disso, problemas como redundância dos dados, ambiguidade e dados incorretos tornam as analises ainda mais complexas. Neste artigo, e realizada uma analise dos dados curriculares de pesquisadores brasileiros cadastrados na Plataforma Lattes. A quantidade de dados analisados possibilita obter uma visao de todo o conjunto que e composto por milhoes de curriculos, e que contem dados sobre publicacoes cientificas, nivel de formacao, areas de atuacao, dentre outros. Nos resultados apresentados, e possivel obter uma visao sobre a producao cientifica brasileira e qual o perfil da produtividade dos doutores que tem atuado no Brasil.
- Published
- 2018
15. Um retrato da produção científica brasileira baseado em dados da plataforma lattes
- Author
-
Magela Rodrigues Dias, Thiago, Moita, Gray Farias, Magela Rodrigues Dias, Thiago, and Moita, Gray Farias
- Abstract
Studies on scientific production data have received attention from researchers in various fields to gain insight into the evolution of research in general. Such studies allow the analysis of scientific production for various purposes and one of the challenges in this type of analysis lies in the diversity of repositories containing data in different formats and structures. In addition, problems such as data redundancy, ambiguity, and incorrect data make the analysis even more complex. In this article, an analysis of the curricular data of Brazilian researchers enrolled in the Lattes Platform is carried out. The amount of data analyzed makes it possible to obtain a view of the whole set consisting of millions of curricula, and contains data on scientific publications, training level, areas of activity, among others. In the results presented, it is possible to obtain an overview of the Brazilian scientific production and the profile of the productivity of the doctors who have worked in Brazil., Os estudos sobre dados de produções científicas têm recebido atenção de pesquisadores, de diversas áreas, que visam obter conhecimento sobre a evolução das pesquisas em geral. Tais estudos possibilitam a análise da produção científica para diversos propósitos e um dos desafios neste tipo de análise está na diversidade de repositórios contendo dados em formatos e estruturas distintas. Além disso, problemas como redundância dos dados, ambiguidade e dados incorretos tornam as análises ainda mais complexas. Neste artigo, é realizada uma análise dos dados curriculares de pesquisadores brasileiros cadastrados na Plataforma Lattes. A quantidade de dados analisados possibilita obter uma visão de todo o conjunto que é composto por milhões de currículos, e que contém dados sobre publicações científicas, nível de formação, áreas de atuação, dentre outros. Nos resultados apresentados, é possível obter uma visão sobre a produção científica brasileira e qual o perfil da produtividade dos doutores que tem atuado no Brasil.
- Published
- 2018
16. Strategies for extracting web data: practical case
- Author
-
Cunha, Paulo Ricardo Gonçalves da, Oliveira e Sá, Jorge, and Universidade do Minho
- Subjects
Scraping ,Data extraction ,Engenharia e Tecnologia::Outras Engenharias e Tecnologias ,Outras Engenharias e Tecnologias [Engenharia e Tecnologia] ,Wrapper ,Extração de dados - Abstract
Dissertação de mestrado integrado em Engineering and Management of Information Systems, Nowadays, the task of collecting data from Web sources is becoming increasingly complex. This complexity arises, in part, from the large data volume (and continues to increase), as well as from the proliferation of platforms that make them available. Based on the previous assumption, this dissertation project had as main objective the identification of strategies that allow the extraction of data from Web sources. In order to reach this goal, the following tasks were defined: identification of tools and frameworks that aid in the extraction process of data, tests with the tools and frameworks identified, development of a framework that illustrates possible strategies for the extraction of data and finally the application of the proposed framework in a Practical Case. The proposed framework consists of a methodology with possible strategies for extracting data from web sources. The Practical Case was carried out on the ALGORITMI Research Centre of the University of Minho. In the first instance, the data of the authors in the ALGORITMI Research Centre are collected. Other data are then collected from other sources, such as their publications and later stored in a relational database. The collections and decisions taken during the study case are based on the application of the proposed framework. The insertion of the data obtained from different sources in a single location allows the creation of a Single Entry Point for reading data, that is, we have a single data source. The creation of this unique data source will allow the user to access all the data desired without the need to spend time trying to locate it The present work is organized in five chapters: introduction (where a brief description is given to the problem and objectives of the work), literary review (concepts, methodologies and strategies for obtaining data from Web sources), framework proposal, application of the proposed framework in a Practical Case that focuses on the ALGORITMI Research Centre and finally the conclusion (where some considerations are woven and some proposals for future work are presented)., Nos dias de hoje, a tarefa de recolha de dados proveniente de fontes Web está a tornar-se cada vez mais complexa. Esta complexidade surge, em parte, do grande volume de dados existente (e que continua a aumentar), assim como, da proliferação de plataformas que os disponibilizam. Tendo por base o pressuposto anterior, este projeto de dissertação teve como principal objetivo a identificação de estratégias que possibilitam a extração de dados de fontes Web. Para alcançar esse objetivo foram definidas as seguintes tarefas: identificação de ferramentas e frameworks que auxiliam no processo de extração de dados, realização de testes com as ferramentas e frameworks identificados, desenvolvimento de um framework que ilustra as estratégias possíveis para a extração de dados e por fim a aplicação do framework proposto num caso de estudo. O framework proposto consiste numa metodologia com as estratégias possíveis para a extração de dados provenientes de fontes web. O caso de estudo realizado incide sobre o Centro ALGORITMI da Universidade do Minho. Em primeira instância procede-se à recolha dos dados dos autores existentes no Centro ALGORITMI. De seguida são recolhidos outros dados de outras fontes, tais como, as suas publicações e posteriormente armazenados numa base de dados relacional. As recolhas e decisões tomadas no decorrer do caso de estudo baseiam-se na aplicação do framework proposto. A inserção dos dados obtidos de diferentes fontes num único local permite a criação de um Single Entry Point para a leitura de dados, ou seja, passamos a possuir uma única fonte de dados. A criação desta fonte única de dados permitirá ao utilizador aceder aos dados que pretende sem a necessidade de despender muito tempo à sua procura. O presente trabalho encontra-se organizado em cinco capítulos sendo eles: introdução (onde é efetuada uma descrição ao problema e objetivos do trabalho), revisão literária (conceitos, metodologias e estratégias para obtenção de dados de fontes Web), framework (proposta e explicação da metodologia desenvolvida), caso de estudo (aplicação do framework proposto num caso de estudo que incide sobre o centro ALGORITMI) e conclusão (onde são tecidas consideração e apresentadas algumas propostas para trabalhos futuros).
- Published
- 2018
17. Aspectos da investigação criminal relacionados à interceptação telefônica e à extração de dados da telefonia móvel
- Author
-
Deves, Jeferson and Moreno, Márcio de Abreu
- Subjects
Garantias constitucionais ,Violação da privacidade em aparelho celular ,Interceptação telefônica ,Investigação criminal ,CSA ,Extração de dados - Abstract
A Constituição Cidadã incorporou diversos direitos e garantias fundamentais pulsantes no mundo pós Segunda Guerra Mundial, portanto, o presente artigo objetiva traçar uma linha do tempo Constitucional quanto à garantia da inviolabilidade das comunicações telefônicas, analisando as hipóteses de relativização destas garantias e fazendo conexão com a lei infraconstitucional. Em segundo momento, passa a analisar os direitos do Estado frente à persecução penal, colidindo com os interesses individuais quanto à vida privada e à intimidade. Em terceiro momento, serão analisados dois julgados das instâncias superiores de nosso sistema jurídico, sendo um favorável e outro desfavorável à extração de dados armazenados, culminando ao fim com um breve cotejo destas jurisprudências frente a doutrina e a legislação atual, concluindo que, para uma melhor aplicabilidade do instituto, correta seria a aplicação da orientação da Senhora Ministra Maria Thereza de Assis Moura, julgadora do Habeas Corpus desfavorável à extração de dados. A pesquisa será qualitativa, valendo-se do método dedutivo com análise de bibliografia e jurisprudência para elaboração do estudo de caso.
- Published
- 2017
18. Extração de dados web como suporte na elaboração de indicadores do turismo de Minas Gerais: uma iniciativa em Big Data
- Author
-
Oliveira, Rafael Almeida De, Renata Maria Abrantes Baracho Porto, Nelson Antonio Quadros Vieira Filho, Max Cirino de Mattos, and Catia Rodrigues Barbosa
- Subjects
Big Data ,Gerenciamento da informação ,Recuperação da informação ,Políticas públicas ,Turismo ,Ciência da Informação ,Sites da Web Indicadores ,Turismo e Estado ,Extração de dados - Abstract
A pesquisa teve como objetivo estudar o fenômeno Big Data e a possibilidade de utilização de ferramentas de extração de dados em ambiente web para auxiliar na elaboração de indicadores referente ao turismo em Minas Gerais. Primeiramente, realizou-se uma fundamentação teórica sobre conceitos fundamentais da ciência da informação para a contextualização do tema, além de pontuar o papel das ferramentas de extração de informações via web. Após essa etapa, foi realizado um estudo de caso com uma ferramenta de extração de dados denominada Import.io para coletar dados do site de viagens TripAdvisor, buscando as principais informações dos atrativos turísticos de Minas Gerais transformando-as em um banco de dados estruturado. Assim, foi possível analisar informações como a oferta de atrativos por categorias no estado e por município, o número de avaliações, o perfil dos visitantes, o nível de satisfação e o período de maior visitação de cada um dos atrativos. Para comprovar a utilidade das informações capturadas foi realizado um acompanhamento dos dados referentes ao Conjunto Arquitetônico da Pampulha com o objetivo de avaliar um possível impacto do seu reconhecimento como patrimônio mundial da humanidade na percepção dos visitantes. Os resultados mostraram que é possível utilizar a extração de dados disponibilizados em espaço web para a criação de indicadores de monitoramento do turismo que auxiliem o poder público na tomada de decisão. Constatou-se também a necessidade de uma maior discussão sobre a forma de disponibilização dos dados por parte das plataformas online para órgãos governamentais, visando dar utilidade à informação que possam beneficiar o público final. A metodologia apresentada poderá auxiliar as esferas públicas em extrair informações estratégicas que estão disponibilizadas na web, com baixo custo, otimizando ações e garantindo uma melhoria no uso de recursos The research aims to study the phenomenon called Big Data and the possibility of using web data extraction tools (web scrapers) to help the development of indicators about tourism in Minas Gerais State (Brazil). For that, it was carried out a bibliographical review of authors related to information science to contextualize the subject, as well as to emphasize the role of web information extraction tools. After this step, we used a case study with a web scraper tool to collect data from TripAdvisor, searching for key information about Minas Gerais tourist attractions and turning them into a structured database. Thus, it was possible to analyse information such as the division of tourist attractions by categories from the state and municipalities, the number of evaluations, visitors' profiles, satisfaction levels, and the period of most visits at each of the attractions. To prove the use of the information captured it was carried out a follow-up of the data concerning the Pampulha Architectural Complex with the objective of evaluating a possible impact of its recognition as a world heritage site in the visitors perception. The results showed that it is possible to use data from the platform to monitor actions and create indicators that aim to assist public decision-making. However, there is still need for further discussion about the availability of data delivered by online companies to the final public, which could be used by government agencies. We expect this methodology to assist the state authorities and municipalities to extract strategic information that is already available on the web at low costs, improving actions and ensuring an improvement in the use of public resources in tourism policies
- Published
- 2017
19. Um processo para caracterização e análise de redes de colaboração científica institucional
- Author
-
Roberth Santos Gomes, Gray Farias Moita, Thiago Magela Rodrigues Dias, and Jhonatan Fernando de Oliveira
- Subjects
Computer science ,Recuperação da informação ,Redes de colaboração científica ,Library and Information Sciences ,Extração de dados ,lcsh:Z ,Information Systems ,Management Information Systems ,lcsh:Bibliography. Library science. Information resources - Abstract
http://dx.doi.org/10.5007/1518-2924.2017v22n48p59O conhecimento é nos dias atuais fator primordial na definição e análise do desenvolvimento de um país e de sua população como um todo. A construção do conhecimento ocorre inevitavelmente através de colaborações, onde pesquisadores se reúnem em prol de objetivos em comum, formando as redes de colaboração científica. Tais redes são caracterizadas quando pesquisadores realizam e publicam seus trabalhos de forma conjunta, independentemente da instituição ou região geográfica em que estejam localizados. A colaboração científica entre instituições distintas, possibilita o intercâmbio de conhecimento e consequentemente efetiva troca de experiências, impulsionando a evolução da ciência. Nesse contexto, analisar tais redes pode proporcionar conhecimento sobre como vem ocorrendo à colaboração científica entre instituições de pesquisa e o quanto estas colaborações tem contribuído para a excelência das pesquisas realizadas. Este trabalho tem como objetivo analisar as redes de colaborações institucionais a partir de dados dos currículos Lattes. As redes são caracterizadas pelas colaborações entre pesquisadores de diferentes instituições, após a caracterização das redes, técnicas de visualização de grande volume de dados e métricas de análise de redes são aplicadas para verificar como a colaboração científica nacional tem ocorrido.
- Published
- 2017
20. Caraterização de utilizadores em redes sociais
- Author
-
Vicente, Miguel Reis and Gomes, Diogo Nuno Pereira
- Subjects
Análise de dados ,Twitter ,Visualização de Dados ,Redes Sociais ,Extração de Dados ,Aprendizagem de Máquina ,Análise de Grafos ,Engenharia de computadores e telemática ,Bases de dados ,Grafos - Abstract
Mestrado em Engenharia de Computadores e Telemática O crescimento acentuado das Redes Sociais que se verificou num passado recente, criou uma nova área de estudo na investigação em análise e extração de dados. A sua disseminação pela sociedade moderna torna-as uma fonte interessante para a aplicação de ciência dos dados, visto que auxiliam a perceção de comportamentos e padrões em dados sociais. Este tipo de informação possui valor estratégico em áreas como a publicidade e o marketing. Nesta dissertação é apresentado um protótipo para uma aplicação web que visa apresentar informação sobre a rede Twitter e os utilizadores que a compõem, através de esquemas de visualização de dados. Esta aplicação adota um modelo de dados de um grafo de propriedades, armazenado numa base de dados de grafos, para permitir uma análise eficiente das relações entre os dados existentes no Twitter. Para além disso, também faz uso de algoritmos de aprendizagem supervisionados e não-supervisionados, assim como análise estatística, para extrair padrões no conteúdo de tweets e prever atributos latentes em utilizadores do Twitter. O objetivo final é permitir a caraterização dos utilizadores Portugueses do Twitter, através da interpretação dos resultados apresentados. The massive growth of Social Media platforms in recent years has created a new area of study for Data Mining research. Its general dissemination in modern society makes it a very interesting data science resource, as it enables the better understanding of social behavior and demographic statistics, information that has strategic value in business areas like marketing and advertising. This dissertation presents a prototype for a web application that provides a number of intuitive and interactive data visualization schemes that present information about the Twitter network and its individual users. This application leverages a property graph data model, modeled from a collection of millions of tweets from the Portuguese community and stored in a state of the art graph database, to enable an efficient analysis of the existent relationships in Twitter data. It also makes use of Supervised and Unsupervised learning algorithms, as well as statistical analysis, to extract meaningful patterns in tweets content and predict latent attributes in Twitter users. The end goal is to allow the characterization of the Portuguese users in Twitter, through the created visual representations of the achieved results.
- Published
- 2016
21. Adoção da plataforma lattes como fonte de dados para caracterização de redes científicas
- Author
-
Patricia Mascarenhas Dias, Gray Farias Moita, and Thiago Magela Rodrigues Dias
- Subjects
Bibliometric analysis ,Computer science ,Scientific production ,Recuperação de informações ,Library and Information Sciences ,Information repository ,Data science ,lcsh:Z ,Management Information Systems ,lcsh:Bibliography. Library science. Information resources ,Colaboração científica ,Identification (information) ,Vocational education ,Data set (IBM mainframe) ,Plataforma Lattes ,Paragraph ,Cartography ,Curriculum ,Extração de dados ,Information Systems - Abstract
Os estudos sobre dados de produções científicas têm recebido atenção de pesquisadores, de diversas áreas, que visam obter conhecimento sobre a evolução das pesquisas em geral. Tais estudos possibilitam a análise da produção científica para diversos propósitos e um dos desafios neste tipo de análise está na diversidade de repositórios contendo dados em formatos e estruturas distintas. Os currículos da Plataforma Lattes se caracterizam atualmente como importante ferramenta para que pesquisadores, acadêmicos e estudantes, registrem seus dados, sendo amplamente utilizados, se caracterizando como um dos maiores repositórios de dados sobre produção científica, técnica, artística e profissional, contendo milhões de pesquisadores cadastrados. Neste trabalho é proposta uma plataforma para extração de todo o conjunto de dados dos currículos Lattes compondo um grande repositório de dados científicos, além disso, são implementadas técnicas para análises bibliométricas dos dados e identificação de redes de colaboração científica. Como resultados são apresentados estudos que objetivam obter uma visão geral sobre o repositório de currículos Lattes e como o conteúdo destes currículos pode ser utilizado para a caracterização de redes de colaboração científica. Conclui-se que os currículos Lattes são uma fonte extremamente rica de dados científicos e que sua adoção para estudos bibliométricos e baseados em análise de redes cientificas podem proporcionar resultados importantes para compreensão de como a ciência brasileira tem sido realizada. A grande dificuldade ao se analisar todo o repositório de dados da Plataforma Lattes está relacionada ao grande volume de dados que a compõem e ainda devido ao uso de técnicas, como por exemplo de identificação de colaborações pouco eficientes e computacionalmente complexas. Logo, este trabalho apresenta todo o potencial da Plataforma Lattes para análises bibliométricas de pesquisadores, sendo para isso proposta uma plataforma capaz de coletar e analisar todo o conjunto de dados com baixo custo computacional e com precisão satisfatória.
- Published
- 2016
22. Plataforma parametrizável para análise forense de dispositivos móveis: análise forense para SO Android
- Author
-
Chainho, Francisco Nicolau Gomes and Silva, Rui Miguel Soares
- Subjects
Agente forense ,Metodologias de investigação ,Android ,Dispositivos móveis ,DroidExport ,Extração de Dados ,Forensics ,DroidImport - Abstract
Dissertação de Mestrado em Engenharia de segurança informática. Instituto politécnico de Beja. Escola Superior de Tecnologia e Gestão, 2014, A Computação Forense tem procurado dar reposta as questões dos investigadores em diversos sistemas informaticos, sempre com o objetivo de procurar evidências para recriar a verdade de um evento. Esta dissertação centra-se na Computação Forense em SO Android. Procurando em primeiro lugar aplicar uma metodologia a investigação dos SO Android e em segundo lugar implementar um software que consiga extrair dados de um dispositivos móvel. Sempre com o objetivo de que esse software funcione em qualquer versão o SO Android e consiga gerar relatórios de forma automatizada. Para testar o sistema implementado são feitos testes de extração em dois dispositivos móveis, com diferentes versões do SO Android para comprovar a eficácia do sistema e gerar um relatório com os dados extraídos.
- Published
- 2014
23. Uso de técnicas de extração de dados na web para o cálculo de impacto de conferências científicas
- Author
-
Henrique Pontes Cavalcante, André Luiz Lopes Porto, ELI CORTEZ CUSTODIO VILARINHO, and Altigran Soares da Silva
- Subjects
Bancos de Dados ,Extração de Dados ,Aprendizagem de Máquina ,CIÊNCIA DA COMPUTAÇÃO [CIÊNCIAS EXATAS E DA TERRA] - Abstract
Made available in DSpace on 2016-09-23T15:20:10Z (GMT). No. of bitstreams: 1 Relatório_Final_Pibic_2012.pdf: 496451 bytes, checksum: e6617f1f714a10e873a4db3bafd054a2 (MD5) Previous issue date: 2012-07-31 CNPQ O presente projeto visa melhorar o desempenho e precisão do método ONDUX, incorporando técnicas de Active Learning na ferramenta desenvolvida no projeto antetior visando detectar erros e reparar anomalias no processo de extração. Para isso será realizado um estudo sobre como incorporar essas técnicas no modelo de extração, verificando o impacto das técnicas no modelo, e a possível utilização desses novos resultados na realimentação das bases de conhecimento utilizadas pelo ONDUX.
- Published
- 2012
24. Técnicas em software livre para exploração de corpora do português livremente disponíveis na WWW
- Author
-
Araripe, Leonel Figueiredo de Alencar
- Subjects
Informática Aplicada ,Repetição ,Linha de comando do UNIX ,Linguística de Corpus ,Sufixação ,Extração de dados - Abstract
This paper approaches corpus linguistics as a subfield in applied informatics which features among its main focuses automatic data extraction from corpora. For this purpose, we develop commands and scripts in the UNIX bash command language, illustrating its applicability in the investigation of the -vel suffix and of iterations of letters and words in two of the main corpuses of Portuguese. We argue that using free software tools with textual interface, whose mastering together with programming skills is a necessity in computational linguistics, is more advantageous in corpus linguistics in comparison to commercial and proprietary programs with graphical interface. Este artigo aborda a lingüística de corpus como subárea da informática aplicada que tem na extração automática de dados de corpora um de seus focos principais. Com esse propósito, desenvolvemos comandos e scripts na linguagem de comandos bash do UNIX, exemplificando a sua aplicabilidade na investigação do sufixo -vel e de repetições de letras e palavras em dois dos principais corpora do português. Argumentamos que autilização de software livre com interface textual, cujo domínio, juntamente com a habilidade de programar, constitui uma necessidade na lingüística computacional, é mais vantajosa na lingüística de corpus em comparação com programas comerciais e proprietários com interface gráfica.
- Published
- 2009
25. Estratégias baseadas em exemplos para extração de dados semi-estruturados da web
- Author
-
Altigran Soares da Silva, Alberto Henrique Frade Laender, Berthier Ribeiro de Araujo Neto, Nivio Ziviani, Carlos Alberto Heuser, and Marco Antonio Casanova
- Subjects
Recuperação de dados (Computação) ,Sistemas de recuperação da informação ,Ferramentas Computação ,extração de dados ,Computação ,web - Abstract
Neste trabalho, são propostas, implementadas e avaliadas estratégias e técnicas para o problema de extração de dados semi-estruturados de fontes de dados da Web, dentro do contexto de uma abordagem chamada DEByE (Data Extraction By Example). Os resultados obtidos com o trabalho foram usados na implementação de um ferramenta de extração de dados, também chamada DEByE, e tiveram sua eficácia verificada através de experimentação.A abordagem DEByE é dita semi-automática, no sentido em que o papel dos usuários (ou seja, dos desenvolvedores de extratores) é limitado ao fornecimento de exemplos dos dados a serem extraídos, o que os isola de ter que conhecer as características especifícas de formação das páginas alvo. Os exemplos fornecidos descrevem a estrutura dos objetos a serem extraídos por meio de tabelas aninhadas, as quais são simples, intuitivas e expressivas o suficiente para representar a estrutura dos dados normalmente presentes empáginas Web.Para lidar com variações típicas de objetos complexos semi-estruturados, estendemos o conceito original de tabelas aninhadas, relaxando a restrição original de que as tabelas aninhadas em uma mesma coluna devem todas ter a mesma estrutura interna.Com base nesta forma estendida de tabelas aninhadas, formalizamos o conceito de wrapper através de gramáticas tabulares. Tais gramáticas livres de contexto são compostas por produções que levam a árvores de parsing que podem ser diretamente mapeadas para tabelas aninhadas. Foram desenvolvidas estratégias para gerar gramáticas tabulares a partir de um conjunto de objetos de exemplo fornecidos por um usuário que os seleciona de uma página de amostra. O processo de geração inclui: (1) geração de produções terminais para extrair valores atômicos pertencentes a um domínio específico (por exemplo, uma descrição de um item, um preço, etc.) e (2) a geração de produções não-terminais que representam a estrutura de objetos complexos a serem extraídos.A extração dos dados das páginas alvo é feita através de um processo de parsing sobre estas páginas usando a gramática tabular. Para isso, desenvolvemos uma eficiente estratégia bottom-up, a qual envolve duas fases distintas: uma fase de extração, na qual os valores atômicos dos atributos são extraídos como base na informação de contexto local disponível nas produções de extração, e uma fase de montagem, na qual os valores atômicos extraídos são montados de acordo com a estrutura alvo fornecida pelo usuário através de exemplos e que está representada nas produções não terminais. A eficácia da estratégia bottom-up foi comprovada experimentalmente, em especial para tratar objetos complexosmulti-nível que apresentam variações estruturais. O principio geral utilizado pela estratégia bottom-up, ou seja, primeiro extrair valores atômicos e depois agrupar estes valores para montar objetos complexos, foi também explorado por um outro algoritmo que desenvolvemos chamado Hot Cycles. Este algoritmo temcomo objetivo descobrir estruturas tabulares plausíveis para montar objetos complexos com um conjunto de valores atômicos extraídos de uma página alvo. Ele é útil para o emprego da abordagem DEByE em aplicações onde não se pode depender do usuário para montar tabelas de exemplo. In this work we propose, implement and evaluate strategies and techniques for the problem of extracting semistructured data fromWeb data sources within the context of an approach we call DEByE (Data Extraction By Example). The results we have reached have been used in the implementation of a data extraction tool,also called DEByE, and have their effectiveness verified through experiments.The DEByE approach is semi-automatic, in the sense that the role of users (i.e., wrapper developers) is limited to providing examples of the data to be extracted, what shields them from being aware of specific formatting features of the target pages. The examples provided describe the structure of theobjects being extracted by means of nested tables, which are simple and intuitive, and expressive enough to represent the structure of the data normally present in Web pages. To deal with typical variations of complexsemistructured objects, we have extended the original concept of nested tables by relaxing the original assumption that all inner tables nested in a column should have a same internal structure.Based on this extended form of nested tables, we formalize the concept of wrappers by means of tabular grammars. Such context-free grammars are formed by productions that lead to parse trees that can be directly mapped to nested tables. We have developed strategies for generating tabular grammars from a set of example objects provided by a user from a sample page. This includes: (1) the generation of terminal productions for extracting single values belonging to a specific domain (e.g., an item description, a price, etc.) and (2) the generation of non-terminal productions that represent the structure of the complex objects to be extracted.The extraction of data from target pages is accomplished by parsing these pages using a tabular grammar. For this, we have developed an eficient bottom-up strategy. This strategy includes two distinct phases: an extraction phase, in which atomic attribute values are extracted based on local context informationavailable in the extraction productions, and an assembling phase, in which such values are assembled to form complex objects according to the target structure supplied by the user through examples, which is encoded in the non-terminal productions. We experimentally demonstrate the effectiveness of thebottom-up strategy for dealing with multi-level objects presenting structural variations.The general principle used by the bottom-up algorithm, that is, first extracting atomic values and then grouping these values to assemble complex objects, has been further exploited by the Hot Cycles algorithm we have developed. This algorithm aims at uncovering a plausible tabular structure for assembling complex objects with a given set of atomic values extracted from a target page. This algorithm is useful for deploying the DEByE approach in applications where the user is not available for assembling example tables.
- Published
- 2002
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.