Vamos Falar de Big Data
Por Alessandro Lemes da Silva
Nos últimos anos, grandes fabricantes de soluções de TI têm debatido com uma frequência muito alta a respeito do termo “Big Data”. Vários artigos e reportagens têm sido publicados ultimamente. Muitos desses artigos foram patrocinados por grandes empresas de soluções de TI. A grande maioria delas já possui produtos e soluções de consultoria à disposição em seus portfólios.
As definições sobre “Big Data” têm sido aprimoradas com o tempo e, no decorrer do tempo, alguns mitos são extintos e outros novos são criados.
Um dos primeiros mitos que ainda persiste no mercado é o fato de que “Big Data” só se aplica a dados não estruturados. Outro mito, ou percepção geral, é de que a maioria das empresas ainda não está preparada ou não possui necessidades de trabalhar com este conceito.
Mas afinal o que é “Big Data”? De forma geral, quando falamos de “Big Data” estamos nos referindo ao crescimento exponencial dos dados, à utilização e ao armazenamento de dados em grandes volumes que desafiam os métodos convencionais de análise e gestão dos dados. Ou seja, é um volume enorme de dados que, por vezes, dependendo das características dos dados e das empresas, devem ser armazenados e processados por mecanismos diferentes do que estávamos habituados.
Vale destacar que os dados podem estar armazenados em formas estruturadas ou não.
Atualmente nossa sociedade gera dezenas de petabytes de informações por dia dos mais variados tipos, entre elas:
- Informações comuns, como cadastro de clientes, fornecedores, funcionários, produtos, marketing e vendas.
- Informações sobre dados manipulados nos sistemas de empresas, tais como movimentações bancárias, transações de venda e compra de conteúdo, produtos e serviços.
- Dados das mídias sociais como Facebook, LinkedIn e Instagram.
- Dados de sensores e monitoramentos temporais.
- Dados oriundos de satélites e aplicações geoespaciais.
- Dados em formato multimídia, como imagens, sons e vídeos.
Um único arquivo de vídeo ou imagem é infinitamente maior em bytes do que uma página simples de texto. Capturar, manusear e analisar este imenso volume de dados é um grande desafio. Adicione a isso o fluxo constante de novos dados em mudança e os desafios se tornam maiores. Entretanto, com esses desafios vêm grandes recompensas para as empresas que são capazes de explorar os dados de forma mais eficaz do que seus concorrentes. Agora as empresas não se contentam apenas em saber o que foi vendido, consumido, comprado. A concorrência e a dinâmica dos negócios trazem cada vez mais a necessidade de entender o comportamento, as tendências, as previsões e as incertezas acerca dos dados dos clientes. Fornecedores, parceiros e demais envolvidos em suas cadeias.
Um dos exemplos clássicos e mais ilustrativos do uso do “Big Data é o da empresa americana Target, que investiu no rastreamento das intensões de consumo de seus clientes. Certa vez, o pai de uma adolescente entrou furioso em uma loja da rede nos Estados Unidos, reclamou com o gerente que sua filha adolescente tinha recebido pelos correios cupons promocionais de produtos para gestantes e que a empresa estava estimulando a sua filha a pensar em engravidar. Imediatamente o gerente da loja pediu desculpas, porém, ao retornar ao cliente uma semana depois, o gerente da loja foi comunicado pelo próprio pai da adolescente que a Target estava correta e sua filha adolescente já estava grávida. Ele apenas não sabia ainda da novidade naquela ocasião. http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/#3db0678a34c6
Outras histórias como essa são comuns quando falamos sobre “Big Data”, porém sempre me lembro das seguintes questões: a privacidade da cliente foi respeitada? Mesmo com a informação correta, a empresa poderia sofrer alguma sanção legal? Em alguns casos, o excesso de informação não pode ser uma “desvantagem” competitiva em vez de ser uma vantagem? Muitas das respostas para essas questões ainda não são unânimes. Para tanto, o mercado tem investido na formação de profissionais dedicados a terem essas respostas. Matemáticos, estatísticos e advogados têm atuado em conjunto para proporcionarem as respostas mais unânimes possíveis.
As tecnologias que sustentam “Big Data” podem ser analisadas sob duas visões: a primeira envolvida com as análises de dados de negócio, geralmente em ambientes de dados analíticos; a segunda com as tecnologias de infraestrutura, que armazenam e processam os petabytes de dados. Neste aspecto, destacam-se os bancos de dados NoSQL. “Big Data” é a comprovação prática de que o enorme volume de dados gerados diariamente excede a capacidade das tecnologias atuais, geralmente baseadas em bancos de dados relacionais.
Devemos ter em mente que “Big Data” envolve uma grande mudança na forma de trabalho das empresas e não somente uma pequena mudança na adoção de novas ferramentas ou tecnologias. As mudanças são amplas e envolvem aspectos legais, de privacidade e principalmente de Governança de Dados. Neste ponto, a adoção da Gestão de Dados é um importante instrumento para preparar as empresas para o fenômeno “Big Data”.
Como caracterizar o Big Data?
Atualmente, os desafios do “Big Data” podem ser resumidos em cinco palavras ou dimensões, todas com as mesmas iniciais, mais conhecidas como as cinco dimensões “V” do “Big Data”. São elas: volume, velocidade, variedade, veracidade e valor.
Vale ressaltar que as definições sobre “Big Data” vêm sendo aprimoradas com o decorrer do tempo. Quando iniciei minhas pesquisas sobre o tema, o mercado entendia como desafios apenas três dimensões (volume, velocidade e variedade). Atualmente já são cinco. Portanto, não se assuste se, ao ler futuramente outros materiais sobre o tema, os autores estiverem falando de uma ou duas dimensões a mais na definição deste conceito.
A imagem a seguir demonstra todas as cinco dimensões atuais do “Big Data”.
Volume
O volume é o primeiro desafio que as organizações enfrentam ao lidar com o “Big Data”. Corresponde à quantidade de dados armazenados, representados através do tamanho e da quantidade de registros/informações que um banco de dados possui. Quanto maior o volume, maiores os esforços na gestão dos dados.
Velocidade
É o desafio de lidar com o tempo rápido de resposta com que os novos dados são criados e os dados existentes, modificados. Esses dados devem estar disponíveis imediatamente para operações de pesquisas e análise dos dados. São os dados em ação.
Variedade
Consiste nas implementações de dados que requerem tratamento de vários formatos e tipos, incluindo dados estruturados e não estruturados. Os bancos de dados devem ser capazes de analisar todos estes tipos de dados e fundi-los para produzir resultados de pesquisa e análise que não poderiam ser alcançados anteriormente. São os dados em múltiplas formas e representações.
Veracidade
A veracidade consiste no grau de incerteza e inconsistência dos dados devida à ambiguidades, à baixa qualidade e à completeza dos dados. Representa a confiabilidade dos dados.
Valor
Corresponde ao retorno, financeiro ou não, que um determinado conjunto de dados fornece à empresa. Atualmente, boa parte dos dados considerados “Big Data” são redundantes, incompletos ou simplesmente não agregam valor ao negócio da empresa. Se a empresa consegue valorar os seus conjuntos de dados, ela consegue focar os esforços na gestão dos dados que dão maior retorno a ela. “Big Data” só faz sentido se o valor da análise dos dados compensar o custo de sua coleta, armazenamento e processamento.
Considerações Finais
“Big Data” promete ser uma realidade nas empresas brasileiras. Seu potencial ainda não é totalmente reconhecido, porém já vemos sinais claros desta importância quando lemos diversos artigos de empresas e organizações internacionais sobre a adoção do “Big Data”.
No Brasil, muito tem se falado sobre o assunto, principalmente os vendedores de soluções, porém os casos reais de utilização ainda são poucos. Estima-se que esta onda de crescimento chegue rapidamente no Brasil, porém tanto as empresas quanto os profissionais ainda não estão totalmente preparados para utilizar o melhor da tecnologia.
A promessa de crescimento da tecnologia do “Big Data” e a falta de preparo dos profissionais não são exclusividade do Brasil. O Gartner prevê que, até 2018, a procura por recursos humanos relacionados com o assunto “Big Data” levará à criação de 4,4 milhões de empregos em todo o mundo, porém apenas um terço dos postos de trabalho será preenchido.