DATA WAREHOUSE E DATA MINING

Posted: quinta-feira, 15 de abril de 2010 by Thiago Reis in
2

Olá pessoal!
Nesta publicação será esclarecido a diferença entre estas duas ferramentas.


INTRODUÇÃO

Data Warehouse (armazém de dados) é um sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada.

Data Mining (Mineração de dados) é o processo de varrer grandes bases de dados a procura de padrões como regras de associação, sequências temporais, para classificação de ítens ou agrupamento.

DATA WAREHOUSE


Definição e Objetivos

Data Warehouse que pode ser definido como uma coleção de dados, orientados por assunto, integrados, variáveis com o tempo e não voláteis, para dar suporte ao processo de tomada de decisão.

As bases de dados convencionais possuem caracteristicas, tais como, o fato de serem dinâmicas, incompletas, redundantes e ruidosas, que tornam confusa e não viável a extração de informação delas próprias. Os Data Warehouses surgiram com o objetivo de fornecer os subsídios necessários para a transformação de uma base de dados de uma organização de OLTP (On-Line Transaction Processing: Processamentos que executam as operações do dia-a-dia da organização) para OLAP (On Line Analytical Processing: Processamentos que suportam a tomada de decisões) e, assim, providenciar os elementos necessários a quem toma as decisões nas organizações.

Descrição das Principais Características

Conforme já descrito, o Data Warehouse (DW) possui um conjunto de características que o distingue de outros ambientes de sistemas convencionais:

- Orientado Por Assunto: o DW está orientado em torno do principal assunto da organização, armazenando informações agrupadas por assuntos de interesse da empresa que são considerados mais importantes, sendo estes chamados de processos de negócio de um empreendimento.

- Integrado: é uma das principais características de um DW. Num Data Warehouse os dados devem ser transformados em formatos comuns de medida referência e armazenamento para que possam ser aproveitados.

- Variável no Tempo: Os dados de um Data Warehouse são precisos em relação ao tempo e representam resultados operacionais do momento em que foram capturados. A cada mudança, uma nova entrada é criada, ou seja, os dados não são atualizáveis.

- Não Volátil: os dados após serem integrados, são carregados e armazenados no banco de dados analítico, possibilitando ao usuário realizar apenas consultas e geração de relatórios necessários à tomada de decisão, não permitindo, portanto atualizações nos mesmos, apenas acesso de “leitura”.

Passos Para a Elaboração de um Data Warehouse

Data Warehouse (DW) não é um produto que se compra, mas sim um projeto que envolve a análise e implementação, com a participação de várias tecnologias. Os sete passos para a criação de um DW, que pode ser inicialmente um Data Mart (assunto específico) até chegar ao DW no nível corporativo, são:

1° Passo - Disponibilizar resultados a curto prazo.

Os primeiros resultados devem estar disponíveis a curto prazo. É importante traduzir rapidamente as necessidades do negócio em uma especificação que possa ser construída em etapas. Minimiza riscos e o tempo de apresentação dos resultados iniciais.

2° Passo - Integrar os sistemas.

O desafio principal deste passo é o de conseguir integrar os diversos sistemas da organização. Assim, os Dados de produção e das fontes externas precisam ser mapeados para o modelo de dados do DW.
Estas tarefas terão de ser feitas com sincronismo, de forma a evitar problemas de acesso aos dados e também para conseguir fazer devida separação entra os dados operacionais e os dados de tomada de decisão.

3° Passo - Escolher o Banco de Dados.

A escolha do banco de dados de suporte ao DW necessita ser criteriosa, ao nível do desempenho na carga e indexação dos dados, tempo de resposta, capacidade de armazenamento, paralelismo, escalabilidade.

4° Passo - Escolher a ferramenta a ser utilizada

Considerar as ferramentas disponíveis no mercado. Estas devem prover, interfaces amigáveis, geração de relatórios, análises multi-dimensionais, acesso via web e data mining.

5° Passo - Construir visando expansão.

Construir um DW que possa ser expandido, mantendo níveis aceitáveis de desempenho até gigabytes.

6° Passo - Manter o sistema aberto para mudanças.

Ambiente DW deve ser aberto para permitir que os componentes ou ferramentas identificadas no passo 4 possam ser substituídas por outras mais atuais e eficientes.

7° Passo - Disponibilizar os equipamentos adequados.

Considerar o sistema de armazenamento que fisicamente gerência, o tráfego, alocação, backup e a restauração dos dados
Qualquer sistema de Data Warehouse (DW) só funciona e pode ser utilizado plenamente, com boas ferramentas de exploração. Com o surgimento do DW, a tecnologia de Data Mining (mineração de dados) também ganhou a atenção do mercado.
Como o DW, possui bases de dados bem organizadas e consolidadas, as ferramentas de Data Mining ganharam grande importância e utilidade. Essa técnica, orientada a mineração de dados, oferece uma poderosa alternativa para as empresas descobrirem novas oportunidades de negócio e acima de tudo, traçarem novas estratégias para o futuro.

DATA MINING


Definição e Objetivos

Data Mining consiste em um processo analítico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas científicas), na busca de padrões consistentes e/ou relacionamentos sistemáticos entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: exploração, construção de modelo ou definição do padrão e validação/verificação.


Talvez a definição mais importante de Data Mining tenha sido elaborada por Usama Fayyad:
"...o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis", (Fayyad et al. 1996).




A premissa do Data Mining é uma argumentação ativa, isto é, em vez do usuário definir o problema, selecionar os dados e as ferramentas para analisar tais dados, as ferramentas do Data Mining pesquisam automaticamente os mesmos a procura de anomalias e possíveis relacionamentos, identificando assim problemas que não tinham sido identificados pelo usuário. Em outras palavras, as ferramentas de Data Mining analisam os dados, descobrem problemas ou oportunidades escondidas nos relacionamentos dos dados, e então diagnosticam o comportamento dos negócios, requerendo a mínima intervenção do usuário. Assim, ele se dedicará somente a ir em busca do conhecimento e produzir mais vantagens competitivas.
Como pode-SE ver, as ferramentas de Data Mining, baseadas em algoritmos que forma a construção de blocos de inteligência artificial, redes neurais, regras de indução, e lógica de predicados, somente facilitam e auxiliam o trabalho dos analistas de negócio das empresas, ajudando as mesmas a conseguirem serem mais competitivas e maximizarem seus lucros.

Principais Técnicas de Data Mining

O Data Mining (DM) descende fundamentalmente de 3 linhagens. A mais antiga delas é a estatística clássica. Sem a estatística não seria possível termos o DM, visto que a mesma é a base da maioria das tecnologias a partir das quais o DM é construído.

A segunda linhagem do DM é a Inteligência Artificial (IA). Essa disciplina, que é construída a partir dos fundamentos da heurística, em oposto à estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos.

E a terceira e última linhagem do DM é a chamada machine learning, que pode ser melhor descrita como o casamento entre a estatística e a IA. Enquanto a IA não se transformava em sucesso comercial, suas técnicas foram sendo largamente cooptadas pela machine learning, que foi capaz de se valer das sempre crescentes taxas de preço/performance oferecidas pelos computadores nos anos 80 e 90, conseguindo mais e mais aplicações devido às suas combinações entre heurística e análise estatística.

O DM é um campo que compreende atualmente muitas ramificações importantes. Cada tipo de tecnologia tem suas próprias vantagens e desvantagens, do mesmo modo que nenhuma ferramenta consegue atender todas as necessidades em todas as aplicações

Existem inúmeras ramificações de Data Mining, sendo algumas delas:

Redes neurais: são sistemas computacionais baseados numa aproximação à computação baseada em ligações. Nós simples (ou "neurões", "neurônios", "processadores" ou "unidades") são interligados para formar uma rede de nós - daí o termo "rede neural". A inspiração original para esta técnica advém do exame das estruturas do cérebro, em particular do exame de neurónios. Exemplos de ferramentas: SPSS Neural Connection, IBM Neural Network Utility, NeuralWare NeuralWork Predict.


Indução de regras: A Indução de Regras, ou Rule Induction, refere-se à detecção de tendências dentro de grupos de dados, ou de “regras” sobre o dado. As regras são, então, apresentadas aos usuários como uma lista “não encomendada”. Exemplos de ferramentas: IDIS da Information Discovey e Knowledge Seeker da Angoss Software.

Árvores de decisão: baseiam-se numa análise que trabalha testando automaticamente todos os valores do dado para identificar aqueles que são fortemente associados com os itens de saída selecionados para exame. Os valores que são encontrados com forte associação são os prognósticos chaves ou fatores explicativos, usualmente chamados de regras sobre o dado.
Exemplos de ferramentas: Alice d’Isoft, Business Objects BusinessMiner, DataMind.


Analise de séries temporais: A estatística é a mais antiga tecnologia em DM, e é parte da fundação básica de todas as outras tecnologias. Ela incorpora um envolvimento muito forte do usuário, exigindo engenheiros experientes, para construir modelos que descrevem o comportamento do dado através dos métodos clássicos de matemática. Interpretar os resultados dos modelos requer “expertise” especializada. O uso de técnicas de estatística também requer um trabalho muito forte de máquinas/engenheiros. A análise de séries temporais é um exemplo disso, apesar de freqüentemente ser confundida como um gênero mais simples de DM chamado “forecasting” (previsão). Exemplos de ferramentas: S+, SAS, SPSS.

Visualização: mapeia o dado sendo minerado de acordo com dimensões especificadas. Nenhuma análise é executada pelo programa de DM além de manipulação estatística básica. O usuário, então, interpreta o dado enquanto olha para o monitor. O analista pode pesquisar a ferramenta depois para obter diferentes visões ou outras dimensões. Exemplos de ferramentas: IBM Parallel Visual Explorer, SAS System, Advenced Visual Systems (AVS) Express - Visualization Edition.


Galera, é isso!
Abraços




2 comentários:

  1. Muito obrigado. As melhores definições sucintas que encontrei na web sobre esta matéria.

    Abs,

    João

  1. Max says:

    Muito bom a definição, me ajudou muito.