1. Uma arquitetura de software para descoberta de regras de associação multidimensional, multinível e de outliers em cubos OLAP: um estudo de caso com os algoritmos APriori e FPGrowth
- Author
-
Moreira Tanuro, Carla and do Nascimento Fidalgo, Robson
- Subjects
Regras de associação ,OLAP ,Mineração de dados ,OLAM ,APriori ,Outlier ,KDD ,Mineração multinível ,FP-growth ,Mineração multidimensional - Abstract
Conselho Nacional de Desenvolvimento Científico e Tecnológico O processo tradicional de descoberta de conhecimento em bases de dados (KDD Knowledge Discovery in Databases) não contempla etapas de processamento multidimensional e multinível (i.e., processamento OLAP - OnLine Analytical Processing) para minerar cubos de dados. Por conseqüência, a maioria das abordagens de OLAM (OLAP Mining) propõe adaptações no algoritmo minerador. Dado que esta abordagem provê uma solução fortemente acoplada ao algoritmo minerador, ela impede que as adaptações para mineração multidimensional e multinível sejam utilizadas com outros algoritmos. Além disto, grande parte das propostas de OLAM para regras de associação não considera o uso de um servidor OLAP e não tira proveito de todo o potencial multidimensional e multinível presentes nos cubos OLAP. Por estes motivos, algum retrabalho (e.g., re-implementação de operações OLAP) é realizado e padrões possivelmente fortes decorrentes de generalizações não são identificados. Diante desse cenário, este trabalho propõe a arquitetura DOLAM (Decoupled OLAM) para mineração desacoplada de regras de associação multidimensional, multinível e de outliers em cubos OLAP. A arquitetura DOLAM deve ser inserida no processo de KDD (Knowledge Discovery in Databases) como uma etapa de processamento que fica entre as etapas de Pré-Processamento e Transformação de Dados. A arquitetura DOLAM define e implementa três componentes: 1) Detector de Outliers, 2) Explorador de Subcubos e 3) Expansor de Ancestrais. A partir de uma consulta do usuário, estes componentes são capazes de, respectivamente: 1) identificar ruídos significativos nas células do resultado; 2) explorar, recursivamente, todas as células do resultado, de forma a contemplar todas as possibilidades de combinações multidimensional e multinível e 3) recuperar todos os antecessores (generalizações) das células do resultado. O componente central da arquitetura é o Expansor de Ancestrais - o único de uso obrigatório. Ressalta-se que, a partir desses componentes, o processamento OLAM fica desacoplado do algoritmo minerador e permite realizar descobertas mais abrangentes, as quais, por conseqüência, podem retornar padrões potencialmente mais fortes. Como prova de conceito, foi realizado um estudo de caso com dados reais de uma empresa de micro-crédito. O estudo de caso foi implementado em Java, fez uso do servidor OLAP Mondrian e utilizou as implementações dos algoritmos para mineração de regras de associação APriori e FP-Growth do pacote de software Weka
- Published
- 2010