ÁRVORE DE DECISÃO E CLASSIFICAÇÃO
As informações organizadas em forma de banco de dados tem sido uma prática valiosa principalmente quando usadas para o reconhecimento de padrões. Seus benefícios são sentidos em diversas áreas, entre elas, Saúde Pública, Epidemiologia, Atuária, Negócios e Ciências do Comportamento.
Hoje em dia, as técnicas de reconhecimento de padrões fazem parte de abordagens mais gerais, como de inteligência de mercado (business inteligence – BI) e mineração de dados (data mining – DM).
Enquanto a primeira pode ser caracterizada como uma estratégia que permite aos analistas e gestores de negócios traçarem melhor suas diretrizes, a segunda é um processo mais específico, onde a partir de técnicas e ferramentas computacionais é possível detectar padrões, tendências e relacionamentos existentes nos dados. Pode-se dizer que em diversos aspectos são complementares.
Árvores de decisão, árvores de classificação e regressão por árvore, formam uma classe de técnicas de reconhecimento de padrões em mineração de dados que têm suas origens em:
- método científico e utilizam técnicas estatísticas como testes de hipóteses e modelos de regressão e;
- redes neurais, que nasceu em pesquisas de ciência cognitiva, ao descrever o funcionamento do cérebro humano.
Além de possuírem propriedades robustas, os modelos de árvores de decisão permitem descrever simbólica e visualmente as relações encontradas entre a variável resposta ou de interesse e as variáveis explicativas, ocultando toda possível complexidade existente das relações.
Esses diferenciais tornaram árvores de decisão uma técnica muito popular em inteligência de mercado, mineração de dados, análise de mercado, predição e knowledge discovery.
A INFOMEV através do curso Análise Estatística usando SAS Enterprise Miner permite ao analista conhecer e trabalhar com as ferramentas fundamentais da estratégia de mineração de dados em suas diferentes etapas: amostragem, descrição, modificação, modelagem e avaliação. Em particular, na busca do melhor modelo, as opções elementares e intermediárias das três classes de modelos preditivos (árvore de decisão, regressão e redes neurais) são abordadas.
No curso Árvore de Decisão usando o Miner Enterprise Miner, opções avançados da ferramenta de árvore de decisão são abordadas permitindo controlar o crescimento e poda da árvore, seu uso para seleção de variáveis explicativas para modelos de regressão e redes neurais, agrupamento de categorias, categorização de variáveis numéricas, e combinação de árvores.
Artigo escrito por Maria Cecília Barreto, que é instrutora da Infomev e mestre em estatística.