O Big Data e a Estatística

Por Altamiro Antonio Basiewics

Pet-Estatística UFPR.

Longe de polarizações,o Big Data parece ser o desafio futuro para os estatísticos. Traz uma série de questões importantes e oportunidades, então devemos perguntar: Como trabalhar com grandes volumes de dados tão complexos e intratáveis pelos métodos tradicionais? Empresas como o Google, o Facebook, dados governamentais,na Física,Genômica,pesquisas sobre o cerebro humano entre outros são alguns exemplos do colossal volume de dados que o big Data representa. Esses dados não são apenas gigantescos mas diferentes. Nos modelos da Estatística clássica as variáveis são em número menor que o volume de dados.Em grande parte do Big Data a situação é oposta.Por exemplo em Genomica, o número de variáveis é muito maior que as amostras disponíveis em certo estudo.

Nos dois casos, o objetivo é criar modelos que representem a dependência entre as variáveis e os dados. O modelo depende dos parâmetros, um para cada variável e a modelagem da estimação desses parâmetros.Quando o número de variáveis é maior que o volume de dados, fica difícil estimar todos os parâmetros. Centenas de parâmetros inconsistentes aparecerão como significativos, se basear-nos no método clássico.

Na Estatística Clássica, se nossos dados contem algo que tem uma chance em um milhão de ocorrer, você pode ter certeza de que não esta lá por acaso.Mas no mundo do Big Data, de repente não é incomum fazer uma descoberta em um milhão. O acaso não pode mais ser descartado como uma explicação.

Estatísticos tem desenvolvido tecnicas para lidar com esses problemas. Citamos aqui três dessas tecnicas: Ridge, Lasso e Elastic Net.

Pense em uma situação em que você tem um grande conjunto de dados multivariados que contém um número de variáveis superior ao número de amostras.O modelo linear padrão apresenta um mau desempenho nesta situação.

Uma alternativa é a regressão penalizada que permite criar um modelo de regressão linear que é penalizado por ter muitas variáveis no modelo, adicionando uma restrição na equação . Isso também é conhecido como regularização. Como consequência impor esta penalidade é reduzir os valores dos coeficientes para zero. Isso permite que as variáveis menos significativas tenham um coeficiente próximo de zero ou igual a zero.

Assim, o encolhimento requer a seleção de um parâmetro de ajuste (lambda) que determina a quantidade de encolhimento.

Métodos de encolhimento

Regressão Ridge

A regressão Ridge reduz os coeficientes de regressão, de modo que as variáveis, com menor contribuição para o resultado, têm seus coeficientes próximos de zero. O encolhimento dos coeficientes é obtido penalizando o modelo de regressão com um termo de penalidade chamado norma L2, que é a soma dos coeficientes quadrados.

A quantidade da penalidade pode ser ajustada usando uma constante chamada lambda (λ). Selecionar um bom valor para λ é crítico. Quando λ = 0, o termo de penalidade não tem efeito, e a regressão Ridge produzirá os coeficientes clássicos de mínimos quadrados. No entanto, à medida que λ aumenta para infinito, o impacto da penalidade de contração aumenta, e os coeficientes da regressão se aproximam de zero.

Em contraste com a regressão por mínimos quadrados ordinários, a regressão Ridge é altamente afetada pela escala dos preditores. Então, é melhor padronizar os preditores antes de aplicar a regressão , de modo que todos os preditores estejam na mesma escala. A padronização de um preditor x, pode ser obtida usando a fórmula x '= x / sd (x), onde sd (x) é o desvio padrão de x. A conseqüência disso é que todos os preditores padronizados terão um desvio padrão 1, permitindo que o ajuste final não dependa da escala na qual os preditores são medidos.

Uma vantagem da regressão Ridge é que tem um bom desempenho, em comparação com o método dos mínimos quadrados em situações onde você tem uma grande quantidade de dados multivariados com o número de preditores maior que o número de observações.

A desvantagem da regressão Ridge é que, incluirá todos os preditores no modelo final. A regressão Ridge reduz os coeficientes para zero, mas não definirá nenhum deles exatamente para zero.

A regressão Lasso supera essa desvantagem.

Regressão Lasso

Ela reduz os coeficientes de regressão para zero penalizando o modelo de regressão com um termo de penalidade chamado norma L1, que é a soma dos coeficientes absolutos.

No caso de regressão Lasso, a penalidade tem como efeito forçar que alguns dos coeficientes com pequena contribuição para o modelo, sejam exatamente iguais a zero. Isso significa que o Lasso também pode ser uma alternativa aos métodos de seleção de subconjuntos para executar a seleção de variáveis, a fim de reduzir a complexidade do modelo.

Uma vantagem da regressão Lasso sobre a regressão Ridge, é que produz modelos mais simples e mais interpretáveis que incorporam apenas um conjunto reduzido de preditores.

Geralmente, o Lasso tem um desempenho melhor em situações em que alguns dos preditores têm coeficientes grandes e os preditores restantes têm coeficientes muito pequenos.

A regressão Ridge terá melhor desempenho quando o resultado for uma função de muitos preditores, todos com coeficientes de tamanho aproximadamente iguais.

O método de validação cruzada é uma alternativa para identificar qual dessas duas técnicas é melhor em um conjunto de dados específico.

Regressão Elastic Net

Elastic Net produz um modelo de regressão que é penalizado com as normas L1 e L2. A conseqüência disso é efetivamente reduzir os coeficientes e definir alguns coeficientes para zero.Ou seja, incorpora as virtudes das regressões Lasso e Ridge sanando suas limitações em muitos casos.

esparsa e densas referem-se ao número de zero e elementos não nulos numa matriz . Uma matriz esparsa contém principalmente zeros e poucas entradas diferentes de zero, e uma densa contém principalmente não-zeros.

Referência: Regression Analysis_ Lasso, Ridge, and Elastic Net – Towards Data Science