A análise descritiva e exploratória de dados trata das formas de analisar um conjunto de dados.
Quando realizamos um estudo estatístico e uma coleta de dados devemos ter sempre em mente qual o objetivo daquele estudo e quais caraterísticas são levadas em consideração no estudo.

População e amostra

É importante definir e saber distinguir bem esses dois termos, pois ele compõe a base da coleta e análise de dados.

  • População é o conjunto de todos os elementos (indivíduos ou objetos) com pelo menos uma característica em comum para os quais queremos obter conclusões.
  • Amostra é qualquer subconjunto da população.

Na maioria das vezes é inviável realizar uma pesquisa em toda a população, pois coletar os dados de muito indivíduos ou objetos demanda tempo e dinheiro. Por conta disso geralmente são realizadas pequisas amostrais ao invés de censos.

  • Censo é o tipo de pesquisa em que o conjunto de dados é composto por informações coletadas a partir de todos os indivíduos de uma população.
  • Pesquisa amostral é o tipo de pesquisa em que o conjunto de dados é composto apenas por uma parte (amostra) da população.

Ao trabalhar com amostras de dados é importante questionar se aquela amostra é de de fato confiável para o estudo, ou seja, se a amostra é representativa da população. Uma amostra é dita ser confiável ou representativa para uma dada população quando os indivíduos ou objetos da amostra possuem característica semelhantes a da população. A partir de uma amostra confiável e representativa é possível desempenhar análises que podem posteriormente produzir conclusões aplicáveis a toda população da qual retiramos a amostra.

Amostragem

Amostragem é o procedimento de coleta de uma amostra de dados de uma determinada população. Existem diferentes formas de se coletar amostras de dados, é importante notar que a forma de coletar uma amostra impacta diretamente a sua confiabilidade. Damos a essas formas de coleta de amostras o nome de planos de amostragem. Em geral existem dois principais planos de amostragem:

  • Plano probabilístico: mecanismos aleatórios de sorteio, a probabilidade de selecionar qualquer elemento da população para compor a amostra é sempre igual para todos os elementos.
  • Plano não-probabilístico: mecanismos não aleatórios, qualquer modo de selecionar elementos da população em que os elementos não possuem a mesma probabilidade de serem selecionados.

Quando a amostragem é conduzida por um plano probabilístico há mais garantias a respeito da representatividade da amostra. Os principais planos probabilísticos são:

  • Amostragem Casual Simples (A.C.S.): Todos os elementos da população são enumerados sem repetição e sorteia-se elementos para compor a amostra.
  • Amostragem Sistemática (A.S): os elementos da população são ordenados e escolhidos periodicamente, em um intervalo regular.
  • Amostragem por Conglomerados (A.C.): A população é subdividida em pequenos grupos chamados conglomerados, os conglomerados são muito semelhantes entre si, porém a característica de interesse é heterogênea dentro de cada grupo. Assim sorteiam-se apenas alguns conglomerados e selecionam-se todos os seus elementos para compor a amostra.
  • Amostragem Estratificada (A.E.): A população é subdividida em pequenos grupos chamados estratos, nesse caso a característica de interesse é homogênea dentro de cada estrato. Assim sorteiam-se alguns indivíduos de cada estrato para compor a amostra.

Tipos de variáveis

As variáveis são as características que serão consideradas no estudo, e se dividem em dois grupos:

Variáveis qualitativas

São as variáveis que identificam um atributo, classe ou qualidade do indivíduo ou objeto em observação. Se dividem em dois tipos:

  • Nominais: são variáveis que não apresentam ordem aparente nas suas possíveis categorias.
  • Ordinais: são variáveis que apresentam ordem aparente nas suas possíveis categorias.

Variáveis quantitativas

São as variáveis que quantificam (identificam uma medida numérica) de algum atributo do indivíduo ou objeto em observação. Se dividem em dois tipos:

  • Discretas: são variáveis que podem apenas assumir apenas um valor finito ou infinito enumerável.
  • Contínuas: são variáveis que podem assumir qualquer valor em um subconjunto não enumerável dos números reais.