Análise de Dados através do SAS Visual Analytics
Por Alessandro Lemes
O SAS Visual Analytics fornece self-service BI e geração de relatórios que visam ajudar os usuários não técnicos a identificar padrões significativos e relacionamentos em dados.
Todos sabem que o SAS é um player muito importante no mundo em ferramentas analíticas e que suas ferramentas viabilizam condiçoes de análise com muitos recursos estatísticos para análise descritiva, preditiva e comportamental.
Nos últimos anos o SAS vem investindo alto em unir sua competência analítica com recursos de visualização numa ferramenta de utilização intuitiva e interativa para atender os diversos publicos de usuários não-técnicos que necessidade analisar de forma simples seus conjuntos de dados. Esse resultado foi atingido através do lançamento da sua ferramenta SAS Visual Analytics.
Tenho estudado essa ferramenta desde 2014 em sua versão 6.1, além disso, também tenho acompanhado as inovações de outros players que também têm apresentado ferramentas interessantes e com recursos que visa transferir ao analista de negócios velocidade e independência em analisar dados com recursos de exibição com qualidade visual e mobilidade. Posso garantir que há hoje ferramentas de diversas cores e sabores para atender as expectativas e necessidades, porém quero aqui ressaltar pontos importantes que como usuário pude reconhecer no SAS Visual Analytics.
O SAS Visual Analytics (VA) é distribuído em algumas modalidades de licenciamento como:
SAS Visual Analytics for Cloud: Recurso não popularizado no Brasil, mas que têm vantagens interessantes na redução de custos com infraestrutura e que faz parte do chamado software as a service ou SaaS.
Versão Non-Distributed: Essa é a versão departamental desse produto com menos recursos no que tange à persistência de dados, porém muito recomendado para soluções mais simples para grupos restritos de usuários com objetivos de análise de dados em dados com maior nível de agregação.
Versão Distributed: Essa é a versão mais completa e que atende os requisitos de iniciativas mais abrangentes e que necessitem de análise de grandes volumes de dados com presistência, pois essa versão vem com o Apache Hadoop.
ARQUITETURA DO SAS VISUAL ANALYTICS
SAS VA é uma aplicação Web (web-based) que apresenta vantagens de análise de dados In-Memory.
Diversos componentes fazem parte dessa arquitetura para prover funcionalidades para exploração de dados, geração de relatórios, preparação de dados e administração do ambiente:
- O SAS VA primeiramente provê um ambiente totalmente adequado à análise de dados;
- O componente Designer viabiliza recursos práticos e sofiticados para a criação e distribuição de relatórios;
- Analistas também podem criar DashBoards e painéis que podem ser compartilhados, inclusive com interação do grupo de trabalho;
- Executivos e tomadores de decisão podem consumir os relatórios e DashBoards, visualizando os resultados através de acesso Web ou recursos de mobilidade como tablet ou celular;
- Administradores de dados ou analístas avançados podem preparar dados e carregá-los no ambiente para que possam ser utilizados por outros grupos de trabalho;
- Administradores de sistemas podem utilizar o componente VA Administrator para tratar dos mecanismos de LASR, carregar dados em memória e monitorar o ambiente.
OS COMPONENTES DO SAS VISUAL ANALYTICS
SAS Visual Analytics Explorer
Esse componente oferece ferramenta de visualização interativa tais como gráficos e tabelas. O Explorer permite a análise de dados e recursos como forecasting e correlações. Veja abaixo um exemplo de análise com Forecasting apresentado num gráfico de linha.
-
Desde a versão 6.2, o componente Explorer oferece a condição de criar árvores de decisão, que representa graficamente uma tabela de decisão, esse é o recurso mais práticos e utilizados em influência inditiva. Esse recurso classifica instâncias ordenando-as da raíz para algum nó folha, onde cada nó da árvore representa um atributo.
Veja abaixo um exemplo de Árvore de Decisão no SAS VA.
Um dos recursos que julgo ser muito importante e de fácil utilização é o GEO MAP que oferece recurso de visualização em condições de GEO Localização, plotando mapas com base em resultados referênciados por latitude e longitude.
Esse tipo de gráfico oferece todo o recurso de Drill-Down para que sejam analisados resultados com níveis até cidade. É possíveis tornar esse recurso ainda mais detalhado com serviços especializados de mapas.
Painéis com aparência profissional e de visualização simples, com objetos relacionados que possibilita a exploração em diversos níveis da mesma informação através de recursos de drill-down.
Esse tipo de painel mescla formas diversas de gráficos onde é possível relacioná-los de maneira que ao clicar sobre uma fatia do gráfico de pizza, automaticamente os outros gráficos da tela sensibilizem o resultado baseado no valor da fatia da pizza que foi selecionada. Elegância e praticidade reunidas numa mesma tela e com um processo de desenvolvimento muito mais rápido do que os métodos tradicionais.
SAS Visual Analytics Data Builder
Administradores de Dados podem usar o módulo Data Builder para preparar dados à serem analisados. É possível desenhar queries que juntam dados, selecionam e os cruzam de maneira à obter-se consultas que respondam a necessidade do negócio, além disso, pode-se incluir as chamadas “colunas calculadas” que são registros de valores derivados e definidos condicionalmente.
O administrador dos dados pode simplesmente cruzar tabelas já carregadas na memória ou somar ao conjunto de dados tabelas que ainda não foram carregadas, mantendo em memória. A versão 6.3 do SAS VA trouxe a possibilidade de criar modelos em estrela ou star schemas.
Por fim, as instruções de cruzamento de dados obtidas através do Data Builder podem ser programadas para execuções em periodicidades fixas conforme algum intervalo de tempo.
SAS Visual Analytics Versão Distribuída
SE vocês tem um grande volume de dados para serem analisados e um histórico grande de informações que precisa ser armazenada de maneira persistente para futuros estudos e análise, considere adotar o VA em sua versão distribuída. Veja a arquitetura dessa versão:
Nessa arquitetura temos diversos outros componentes que viabilizam acesso rápido a grandes volumes de dados armazenados em um ecossistema Hadoop com a facilidade de utilizar-se de nós computacionais para acessar e consumir todo o volume de dados conforma a necessidade.
Esse tipo de solução também é muito indicado para projetos de Business Analytics corporativos, pois podem atender a diversos grupos de negócio com processamento paralelo e centrado num repositório único de dados.
Como se pode ver na figura à cima, nessa versão do produto o SAS LASR Server está distribuído em múltiplos nós processando informações à partir de um recipiente único de dados. Vale dizer que esse tipo de repositório de dados oferece redundância suficiente aos dados com cópias armazenadas em diferentes nós e com isso a velocidade obtida como resposta às requisições é bem alta. Dessa forma as requisições são paralelizadas através dos diversos nós computacionais trazendo a velocidade esperada pelos cientistas de dados e analistas de negócio.
É possível utilizar outras distribuições de Hadoop num ambiente Visual Analytics como, por exemplo:
- SAS High-Performance Deplyment of Hadoop (nativo)
- Cloudera´s Distribuition Including Apache Hadoop
- Teradata Data Warehouse Appliance
- Pivotal Data Computing Appliance
- Hortonworks Data Platform
CONSIDERAÇÕES AO IMPLEMENTAR
Para que seu projeto em SAS Visual Analytics não se torne um problema institucional, cabe observar fatores importantes para adequação dos dados e equilíbrio do entorno tecnológico de um ambiente SAS.
- Detalhe cuidadosamente os requisitos: Os requisitos do projeto devem oferecer a resposta para a decisão de usar tecnologia Analytics ou solução de Bisuiness Intelligence clássica. Se houver necessidade de análise descritiva, comportamental ou preditiva baseada em informações para modelagem estatística clássica, você deve considerar outras soluções como o SAS Visual Statistics, por outros lado se o seu cliente necessidade explorar dados, analisar resultados sob outras perspectivas, gerar relatórios ou Dashboards para compartilhamento com outros grupos de trabalho, certamente o SAS VA irá atende-lo muito bem e por último, se seu cliente precisa apenas acompanhar resultados concluídos, performance de indicadores e índices sem inferência ou exploração desses dados, considere o BI Clássico, em outras palavras o SAS Enterprise BI.
- Avalie suas origens de dados: A rastreabilidade dos dados numa solução de BI ou BA é fundamental para questões de compliance e auditoria, principalmente para empresas que tratam com regras normativas ou regulatórias. Criei soluções de carga de dados baseada em rastrear a origem, documentar as transformações e registrar o consumo, tomando cuidados com a avaliação volumétrica inicial e vegetativa, uma vez que seu repositório de dados passa a ser o organismo principal da solução.
- Avalie a maturidade do seu cliente: Através e Workshops internos e/ou treinamentos externos, envolva seu cliente na discussão sobre o uso prático da solução, independente da ferramenta que será adotada, lembre-se que seu cliente valoriza soluções de grande apelo visual e simplicidade de uso, porém a falta de maturidade pode condenar mesmo a ferramenta mais impressionante em recursos. Lembre-se que a escolha da ferramenta certa é:
- a junção da maturidade de quem irá utilizá-la;
- a qualidade das informações disponíveis;
- a facilidade de uso da ferramenta;
- a performance da obtenção dos resultados.