Uma estatística é um valor ou conjunto de valores observáveis que resume a característica na amostra. As estatísticas serão utilizadas para realizar a inferência sobre os parâmetros desconhecidos da população.
Estatística
Dado um espaço de probabilidade associado a um experimento aleatório, seja uma amostra da variável aleatória que representa uma característica observável associada a uma população de indivíduos ou objetos. Uma estatística é qualquer função da amostra que não depende de parâmetros desconhecidos da distribuição de .
Note que uma uma estatística não depende de parâmetros populacionais desconhecidos. Isso significa que podemos, através das estatísticas, utilizar valores conhecidos das amostras para obter estimações dos parâmetros desconhecidos da população.
Alguns exemplos de estatísticas:
- Média amostral:
- Variância amostral:
- Menor valor da amostra:
- Maior valor da amostra:
- Amplitude amostral:
Note que todos esses exemplos são funções da amostra. Sendo assim, dadas amostras diferentes, as estatísticas podem assumir valores diferentes.
Distribuições conjuntas
As distribuições conjuntas descrevem a distribuição de um vetor composto por variáveis aleatórias.
Distribuição conjunta
Dado um espaço de probabilidade associado a um experimento aleatório, seja uma amostra da variável aleatória com função de distribuição (ou densidade) de probabilidade (ou ), em que é um parâmetro desconhecido. A distribuição conjunta de probabilidade do vetor é uma função (ou ) tal que quando é uma variável aleatória discreta
e quando é uma variável aleatória contínua é tal que
em que são intervalos reais.
Pela definição é possível perceber que encontrar a distribuição conjunta de um vetor não é trivial, portanto algumas suposições são feitas sobre a natureza desses vetores para facilitar o processo de encontrar a distribuição conjunta.
A primeira suposição feita é que é uma sequência de variáveis aleatórias independentes com a mesma distribuição (ou ), ou seja:
ou
em que é um parâmetro desconhecido e ou é a função de distribuição conjunta de probabilidade do vetor
Amostra aleatória
Dado um espaço de probabilidade associado a um experimento aleatório, seja uma amostra da variável aleatória com função de distribuição (ou densidade) de probabilidade (ou ), em que é um parâmetro desconhecido. Dizemos que é uma amostra aleatória da variável aleatória quando é uma sequência de variáveis aleatórias independentes e com a mesma distribuição (ou ) da variável aleatória .
Distribuições amostrais
Dada uma estatística , chamamos a distribuição dessa estatística de distribuição amostral, ou seja, a distribuição amostral é a distribuição dos valores que a estatística assume para todas as possíveis amostras. Essa distribuição depende da distribuição da população, do tamanho da amostra e do método de seleção da amostra, isso faz com que seja muito difícil obter a distribuição exata das estatísticas, por essa razão trabalhamos com distribuições aproximadas.
As seguintes relações são muito úteis, pois nos permitem relacionar a esperança e Variância das variáveis com a esperança e variância amostrais.
Dado um espaço de probabilidade associado a um experimento aleatório, se é uma sequência de variáveis aleatórias independentes definidas sobre , então as seguintes afirmações são verdadeiras:
Com essas relações, podemos determinar a esperança e variância de diversas estatísticas a partir da esperança e variância de .
Média amostral
Dado um espaço de probabilidade associado a um experimento aleatório. Se é uma amostra aleatória da variável aleatória tal que e , então
em que é a média amostral.
Apesar disso, não sabemos de fato qual é a distribuição amostral exata de , e nunca saberemos. Entretanto, podemos encontrar a distribuição aproximada através do Teorema do Limite Central (T.L.C.), que nos permite aproximar a distribuição da média amostral a uma distribuição normal.
Teorema do limite central
Dado um espaço de probabilidade associado a um experimento aleatório. Se é uma amostra aleatória da variável aleatória tal que e , então
quando
Podemos ainda normalizar o intervalo, obtendo:
Dado um espaço de probabilidade associado a um experimento aleatório. Se é uma amostra aleatória da variável aleatória tal que e , então
quando
Note que essa aproximação depende do tamanho da amostra . Em geral, para essa aproximação é válida se a distribuição da população não for muito diferente da normal.
Vale destacar que quando é uma amostra aleatória de uma variável aleatória com distribuição normal, então o T.L.C. é válido para qualquer , ou seja, se tem distribuição normal, então tem distribuição exata normal.
Proporção amostral
Podemos utilizar o T.L.C. para aproximar também a distribuição da proporção amostral pela distribuição normal. Nesse caso temos:
Portanto, para suficientemente grande, a distribuição aproximada de é: