A Estatística é uma ciência muito ampla, porém muito pouco explorada ainda, existem várias formas de soluções para os mais simples problemas e uma dessas formas é o método geométrico. De início pode parecer que isso só vai complicar algo simples, mas a geometria consegue explicar de forma muito mais fácil para a compreensão de como os dados se comportam e como as técnicas estatísticas tentam explicá-los, então esse Post tem como objetivo demonstrar ideias básicas da estatística com o método geométrico para uma população única.
Para melhor entendimento e visualização dos conceitos, utlizaremos um exemplo com uma amostra de tamanho \(2\) gerada aleatoriamente de uma população normal com \(\mu = 0\) e \(\sigma = 1\):
## [1] -0.56 -0.23
Primeiramente, precisamos definir alguns conceitos da Álgebra Linear, que serão muito importantes para a compreensão desse método.
Como o próprio título já diz, precisamos saber como calcular o tamanho de um vetor, é um conceito básico da Álgebra Linear, mas que nos ajudará bastante em várias partes do método, como por exemplo, nos testes de hipóteses.
Dado um vetor \(v = v_1, v_n, \dots, v_n\), o seu tamanho será dado pela expressão:
\[||v|| = \sqrt{v_1^2 + v_2^2 + \dots + v_n^2}\]
No nosso exemplo:
\[||v|| = \sqrt{(-0.56)^2 + (-0.23)^2} = 0.2161\]
É um vetor de tamanho \(1\), precisaremos transformar o vetor das observações em um modelo da média e dos erros, portanto, esse definição é primordial para o uso do método, talvez a mais importante e utilizada dentro dele.
Dado um vetor \(v = v_1, v_n, \dots, v_n\), o vetor unitário correspondente a ele será obtido através da expressão:
\[U = \frac{v}{||v||}\]
O vetor unitário do exemplo é:
\[U = \frac{\left[0.56, 0.23 \right]}{0.2161} = \left[2.59, 1.06 \right]\]
Podemos ver que o vetor unitário mantém a mesma direção do vetor \(v\), portanto nem sempre com o mesmo sentido, e com um tamanho diferente.
É a projeção do vetor de observação em um vetor na forma \(U_1 = \frac{1}{\sqrt{n}}\left[1, 1, 1, \dots \right]\), ou seja, \((y.U_1)U_1\), terá tamanho \((y.U_1)\), na direção de \(U_1\).
\(U_1 = \frac{1}{\sqrt{2}}\left[1, 1 \right]\)
\(y.U_1 = <y, U_1> = -0.56\times \frac{1}{\sqrt2} -0.23\times\frac{1}{\sqrt2} = -0.5586\)
\((y.U_1)U_1 = -0.5586 \times \frac{1}{\sqrt{2}}\left[1, 1 \right] = \left[-0.395, -0.395\right]\)
Podemos ver então que \((y.U_1)U_1 = \hat{\mu}\), a média da amostra.
Vetores serão ortogonais entre si quando o ângulo interno deles for igual a 90°, isso será importante na modelagem do espaço dos erros, para conseguirmos usar o Teorema de Pitágoras como veremos mais a seguir.
Ele é composto por 3 objetos, os dados, o modelo, e as hipóteses, através deles iremos utilizar processos que nos ajudarão a chegar nos testes estatísticos.
O primeiro passo do nosso estudo é saber como vamos usar os dados coletados. Eles serão organizados em um único vetor, cada elemento da amostra é um elemento do vetor, ou seja, eles serão estudados em um espaço de dimensão \(n\) (o tamanho da amostra), portanto a visualização do modelo fica impossível em amostras em que \(n > 3\).
É o espaço que irá conter \(n\) vetores ortogonais entre si, serão distribuídos como o vetor de média, e subespaço dos vetores dos erros, que tem dimensão \(n-1\), ele será dessa forma porque temos
\[y = \bar{y} + (y - \bar{y})\]Essa forma de escrever o vetor das observações será útil na construção da ANOVA para assim fazermos os testes estatísticos e obtermos estimações para os parâmetros da população.
Geralmente, as hipóteses são as seguintes:
\(H_0: \mu = 0\)
\(H_1: \mu \neq 0\)
Se \(F_{cal} > F_{1, n-1}\), então rejeita-se \(H_0\), caso contrário, não se rejeita \(H_0\). Em que o valor de \(F_{1, n-1}\) é dado pela tabela \(\textit{F de Snedecor}\) com \(1\) e \(n-1\) graus de liberdade e um valor de confiança \(1 - \alpha\).
A projeção é a parte mais cansativa e complicada do método geométrico, isso porque precisaremos de \(n\) vetores unitários ortogonais entre si, que irão projetar o vetor das observações em \(n\) direções no espaço, o primeiro vetor será o vetor das médias que já foi obtido anteriormente, agora para obtermos o subespaço dos erros usaremos a seguinte forma:
\[U_n = \frac{1} {\sqrt{n(n - 1)}}\left[\begin{array} {ccc} 1 \\ 1 \\ 1 \\ \vdots \\ -(n-1) \end{array}\right]\]
Mesmo dessa forma é um processo bastante exaustivo sendo que precisamos calcular um a um, a melhor solução para um \(n\) consideravelmente grande seria usufruir da tecnologia a nosso favor. Para o nosso exemplo, o subespaço dos erros é contido por apenas um vetor, então será de fácil obtenção.
\[U_2 = \frac{1} {\sqrt{2}}\left[\ 1, -1 \right]\]
Projetando o vetor das observações no subespaço dos erros:
\(y.U_2 = <y, U_2> = -0.56\times \frac{1}{\sqrt2} -0.23\times\frac{-1}{\sqrt2} = -0.233\)
\((y.U_2)U_2 = -0.233 \times \frac{1}{\sqrt{2}}\left[1, -1 \right] = \left[-0.165, 0.165\right]\)
Podemos observar que eles formam um triângulo retângulo, então podemos utilizar o Teorema de Pitágoras para os testes como veremos a seguir.
Para calcularmos os testes de hipóteses utilizaremos a tabela da ANOVA que terá resultados obtidos através de um dos teoremas mais conhecidos da matemática, o Teorema de Pitágoras, da seguinte forma:
\(y = \bar{y} + (y - \bar{y})\)
\(||y||^2 = ||\bar{y}||^2 + ||y - \bar{y}||^2\)
\(||y||^2 = (y.U_1)^2 + (y.U_2)^2 + \dots + (y.U_n)^2\)
A demonstração dessa igualdade é um pouco extensa, mas ela se da pelo fato de que como o sistema do vetor média e os vetores dos erros são ortogonais, num espaço \(n\), eles vão criando entre si \(n\) triângulos retângulos que no final irão formar a “hipotenusa” \(y\), o vetor das observações.
Causas | GL | SQ | QM | F |
---|---|---|---|---|
Média | 1 | SQMédia | QMMédia | QMMédia/QMRes |
Resíduos | n-1 | SQRes | QMRes | |
Total | n | SQTotal | ||
em que: |
SQMédia \(= ||\bar{y}||^2\)
SQRes \(= ||y - \bar{y}||^2\)
QMMédia \(= ||\bar{y}||^2\)
QMRes \(= \frac{||y - \bar{y}||^2}{n - 1}\)Portanto, iremos testar se o quadrado do tamanho do vetor média é significativo em relação a média dos quadrados do espaço dos erros. Podemos observar que o QMRes será um estimador para a variância dos dados.
A ANOVA para o exemplo será:
Causas | GL | SQ | QM | F |
---|---|---|---|---|
Média | 1 | 0.312 | 0.312 | 5.778 |
Resíduos | 1 | 0.054 | 0.054 | |
Total | 2 | 0.366 |
Com um nível de confiança de \(95\)%:
\(F_{1, 1} = 161.4\), ou seja, \(F_{tab} > F_{cal}\), então não rejeita-se a hipótese nula de que \(\mu = 0\).
Apesar de ser um método que pode se tornar cansativo e trabalhoso, ele nos ajuda a ter uma visão diferente de como usamos a estatística, que é algo importante em todas as áreas do conhecimento, saber lidar com formas diferentes do padrão, e além disso ele pode ser usado em análise de experimentos, na comparação de duas populações. Desde que o tamanho da amostra não seja muito grande, esse método pode ser útil no dia a dia.
SAVILLE, David J.; WOOD, Graham R. Statistical Methods: The Geometric Approach. New York: Springer Science & Business Media, 1991.
SAVILLE, David J.; WOOD, Graham R. Statistical Methods: A Geometric Primer. New York: Springer Science & Business Media, 1996.