1 Introdução

A Estatística é uma ciência muito ampla, porém muito pouco explorada ainda, existem várias formas de soluções para os mais simples problemas e uma dessas formas é o método geométrico. De início pode parecer que isso só vai complicar algo simples, mas a geometria consegue explicar de forma muito mais fácil para a compreensão de como os dados se comportam e como as técnicas estatísticas tentam explicá-los, então esse Post tem como objetivo demonstrar ideias básicas da estatística com o método geométrico para uma população única.

Para melhor entendimento e visualização dos conceitos, utlizaremos um exemplo com uma amostra de tamanho \(2\) gerada aleatoriamente de uma população normal com \(\mu = 0\) e \(\sigma = 1\):

## [1] -0.56 -0.23

2 Conceitos Iniciais

Primeiramente, precisamos definir alguns conceitos da Álgebra Linear, que serão muito importantes para a compreensão desse método.

2.1 Tamanho de um Vetor

Como o próprio título já diz, precisamos saber como calcular o tamanho de um vetor, é um conceito básico da Álgebra Linear, mas que nos ajudará bastante em várias partes do método, como por exemplo, nos testes de hipóteses.

Dado um vetor \(v = v_1, v_n, \dots, v_n\), o seu tamanho será dado pela expressão:

\[||v|| = \sqrt{v_1^2 + v_2^2 + \dots + v_n^2}\]

No nosso exemplo:

\[||v|| = \sqrt{(-0.56)^2 + (-0.23)^2} = 0.2161\]

2.2 Vetor Unitário

É um vetor de tamanho \(1\), precisaremos transformar o vetor das observações em um modelo da média e dos erros, portanto, esse definição é primordial para o uso do método, talvez a mais importante e utilizada dentro dele.

Dado um vetor \(v = v_1, v_n, \dots, v_n\), o vetor unitário correspondente a ele será obtido através da expressão:

\[U = \frac{v}{||v||}\]

O vetor unitário do exemplo é:

\[U = \frac{\left[0.56, 0.23 \right]}{0.2161} = \left[2.59, 1.06 \right]\]

Podemos ver que o vetor unitário mantém a mesma direção do vetor \(v\), portanto nem sempre com o mesmo sentido, e com um tamanho diferente.

2.3 Vetor Média

É a projeção do vetor de observação em um vetor na forma \(U_1 = \frac{1}{\sqrt{n}}\left[1, 1, 1, \dots \right]\), ou seja, \((y.U_1)U_1\), terá tamanho \((y.U_1)\), na direção de \(U_1\).

\(U_1 = \frac{1}{\sqrt{2}}\left[1, 1 \right]\)

\(y.U_1 = <y, U_1> = -0.56\times \frac{1}{\sqrt2} -0.23\times\frac{1}{\sqrt2} = -0.5586\)

\((y.U_1)U_1 = -0.5586 \times \frac{1}{\sqrt{2}}\left[1, 1 \right] = \left[-0.395, -0.395\right]\)

Podemos ver então que \((y.U_1)U_1 = \hat{\mu}\), a média da amostra.

2.4 Sistema de Vetores Ortogonais

Vetores serão ortogonais entre si quando o ângulo interno deles for igual a 90°, isso será importante na modelagem do espaço dos erros, para conseguirmos usar o Teorema de Pitágoras como veremos mais a seguir.

3 O Método Geométrico

Ele é composto por 3 objetos, os dados, o modelo, e as hipóteses, através deles iremos utilizar processos que nos ajudarão a chegar nos testes estatísticos.

3.1 Dados

O primeiro passo do nosso estudo é saber como vamos usar os dados coletados. Eles serão organizados em um único vetor, cada elemento da amostra é um elemento do vetor, ou seja, eles serão estudados em um espaço de dimensão \(n\) (o tamanho da amostra), portanto a visualização do modelo fica impossível em amostras em que \(n > 3\).

3.2 Modelo

É o espaço que irá conter \(n\) vetores ortogonais entre si, serão distribuídos como o vetor de média, e subespaço dos vetores dos erros, que tem dimensão \(n-1\), ele será dessa forma porque temos

\[y = \bar{y} + (y - \bar{y})\]

Essa forma de escrever o vetor das observações será útil na construção da ANOVA para assim fazermos os testes estatísticos e obtermos estimações para os parâmetros da população.

3.3 Hipótese

Geralmente, as hipóteses são as seguintes:

\(H_0: \mu = 0\)

\(H_1: \mu \neq 0\)

Se \(F_{cal} > F_{1, n-1}\), então rejeita-se \(H_0\), caso contrário, não se rejeita \(H_0\). Em que o valor de \(F_{1, n-1}\) é dado pela tabela \(\textit{F de Snedecor}\) com \(1\) e \(n-1\) graus de liberdade e um valor de confiança \(1 - \alpha\).

4 Projeções

A projeção é a parte mais cansativa e complicada do método geométrico, isso porque precisaremos de \(n\) vetores unitários ortogonais entre si, que irão projetar o vetor das observações em \(n\) direções no espaço, o primeiro vetor será o vetor das médias que já foi obtido anteriormente, agora para obtermos o subespaço dos erros usaremos a seguinte forma:

\[U_n = \frac{1} {\sqrt{n(n - 1)}}\left[\begin{array} {ccc} 1 \\ 1 \\ 1 \\ \vdots \\ -(n-1) \end{array}\right]\]

Mesmo dessa forma é um processo bastante exaustivo sendo que precisamos calcular um a um, a melhor solução para um \(n\) consideravelmente grande seria usufruir da tecnologia a nosso favor. Para o nosso exemplo, o subespaço dos erros é contido por apenas um vetor, então será de fácil obtenção.

\[U_2 = \frac{1} {\sqrt{2}}\left[\ 1, -1 \right]\]

Projetando o vetor das observações no subespaço dos erros:

\(y.U_2 = <y, U_2> = -0.56\times \frac{1}{\sqrt2} -0.23\times\frac{-1}{\sqrt2} = -0.233\)

\((y.U_2)U_2 = -0.233 \times \frac{1}{\sqrt{2}}\left[1, -1 \right] = \left[-0.165, 0.165\right]\)

Podemos observar que eles formam um triângulo retângulo, então podemos utilizar o Teorema de Pitágoras para os testes como veremos a seguir.

5 Testes de Hipóteses

Para calcularmos os testes de hipóteses utilizaremos a tabela da ANOVA que terá resultados obtidos através de um dos teoremas mais conhecidos da matemática, o Teorema de Pitágoras, da seguinte forma:

\(y = \bar{y} + (y - \bar{y})\)

\(||y||^2 = ||\bar{y}||^2 + ||y - \bar{y}||^2\)

\(||y||^2 = (y.U_1)^2 + (y.U_2)^2 + \dots + (y.U_n)^2\)

A demonstração dessa igualdade é um pouco extensa, mas ela se da pelo fato de que como o sistema do vetor média e os vetores dos erros são ortogonais, num espaço \(n\), eles vão criando entre si \(n\) triângulos retângulos que no final irão formar a “hipotenusa” \(y\), o vetor das observações.

5.1 Anova

Causas GL SQ QM F
Média 1 SQMédia QMMédia QMMédia/QMRes
Resíduos n-1 SQRes QMRes
Total n SQTotal
em que:

SQMédia \(= ||\bar{y}||^2\)

SQRes \(= ||y - \bar{y}||^2\)

QMMédia \(= ||\bar{y}||^2\)

QMRes \(= \frac{||y - \bar{y}||^2}{n - 1}\)

Portanto, iremos testar se o quadrado do tamanho do vetor média é significativo em relação a média dos quadrados do espaço dos erros. Podemos observar que o QMRes será um estimador para a variância dos dados.

A ANOVA para o exemplo será:

Causas GL SQ QM F
Média 1 0.312 0.312 5.778
Resíduos 1 0.054 0.054
Total 2 0.366

Com um nível de confiança de \(95\)%:

\(F_{1, 1} = 161.4\), ou seja, \(F_{tab} > F_{cal}\), então não rejeita-se a hipótese nula de que \(\mu = 0\).

6 Considerações Finais

Apesar de ser um método que pode se tornar cansativo e trabalhoso, ele nos ajuda a ter uma visão diferente de como usamos a estatística, que é algo importante em todas as áreas do conhecimento, saber lidar com formas diferentes do padrão, e além disso ele pode ser usado em análise de experimentos, na comparação de duas populações. Desde que o tamanho da amostra não seja muito grande, esse método pode ser útil no dia a dia.

7 Referências

SAVILLE, David J.; WOOD, Graham R. Statistical Methods: The Geometric Approach. New York: Springer Science & Business Media, 1991.

SAVILLE, David J.; WOOD, Graham R. Statistical Methods: A Geometric Primer. New York: Springer Science & Business Media, 1996.