Estatística Básica

  • Home
  • Estatística Básica

Estatística - Conceitos iniciais de estatística

Estatística é o método científico utilizado para coletar, organizar, resumir, interpretar e apresentar dados.

O Enem testa a habilidade de o aluno ler gráficos e interpretar dados corretamente. Aperfeiçoar essa habilidade é fundamental para um bom desempenho na prova.

Definição

Conjunto de métodos que tem como objetivo a coleta, o tratamento e a interpretação de dados.

Dados

Estatísticos coletam dados porque têm interesse em descobrir alguma característica ou tendência sobre um grupo de indivíduos ou fenômenos. As características variam conforme o estudo estatístico realizado.

O conjunto de todos os elementos que podem oferecer informações relativas ao estudo efetuado é chamado de universo estatístico ou população. Quando a população de um estudo estatístico é grande ela é raramente estudada como um todo. Nesse caso, estatísticos utilizam uma amostra da população. Uma amostra é utilizada quando há uma impossibilidade de estudar o universo estatístico ou uma falta de praticidade em lidar com o universo estatístico como um todo.

Por exemplo, em épocas de eleições presidenciais no Brasil, seria praticamente impossível entrevistar todos os adultos brasileiros para descobrir a preferência de voto de cada um deles. Neste estudo a população ou universo estatístico é definido como todos os adultos brasileiros que pretendem votar nas eleições. Em situações como uma eleição, onde o universo estatístico é gigantesco, estatísticos utilizam uma amostra da população. Em pesquisas eleitorais é muito comum a utilização de amostras da população: alguns milhares de adultos de diferentes regiões e estados são entrevistados. Isto serve como uma amostra das intenções de voto da população como um todo, havendo uma margem de erro muito pequena (se a pesquisa e o estudo estatístico são realizados de forma correta e honesta). O objetivo de uma pesquisa é utilizar os dados coletados para se obter informações a respeito da população ou universo estatístico que foi estudada.

O valor de uma característica da população é denominado de parâmetro. Por exemplo, o número de brasileiros que vivem em áreas rurais (comparado ao número de brasileiros como um todo) é um parâmetro da população brasileira.

Variável é o conjunto de resultados possíveis de um fenômeno. As variáveis podem ser quantitativas, quando seus valores são expressos em números (por exemplo, idade dos alunos de uma escola), ou qualitativas, quando seus valores são expressos por atributos (por exemplo, sexo masculino ou feminino).

Definições

Universo Estatístico ou População

É o conjunto de todos os elementos que podem oferecer informações relativas ao estudo efetuado. Ou seja, é o conjunto de elementos sobre o qual incide o estudo estatístico. Por exemplo: um lote de peças produzidas.

Amostra

É um subconjunto do universo estatístico, que é retirado muitas vezes pela impossibilidade da análise deste.

Dados qualitativos e quantitativos

Os dados utilizados para um estudo estatístico podem ser categorizados em quantitativos e qualitativos.  

Os dados quantitativos são aqueles que só podem ser expressos na forma de números ou numerais. Os dados qualitativos são aqueles que não precisam ser expressos na forma de números; podem ser descritos como substantivos e adjetivos. Um exemplo de dados qualitativos são as cores: azul, vermelho etc.

Representação dos dados

Os dados podem ser organizados em diversas tabelas e gráficos.

O rol é a lista dos dados numéricos da amostra ou da população analisada; é a tabela obtida após a ordenação dos dados.

Frequência Absoluta

A frequência absoluta é o número de vezes que um dado aparece no rol. Os dados são organizados em categorias.

Por exemplo

Idade das Pessoas numa festa

Nº de Pessoas

18
19
20
21
22
23

3
7
12
8
7
5

Frequência Relativa

A frequência relativa é o número de observações de cada variável divido pelo número total de observação.  Ou seja, é a frequência absoluta de cada variável dividida pela somatória das frequências absolutas.  A frequência relativa é uma porcentagem do todo.

Essa medida é usada para comparar dados.

Por exemplo

O professor de Educação Física resolveu tabelar o número de gols que cada um de seus alunos marcou. O professor registrou os dados na seguinte tabela.

(Ji = Jogador i )           Ti = nº de gols do jogador i.

ni % = Frequência percentual ou relativa.

Ji

ni

ni%

1

1

5%

2

4

20%

3

3

15%

4

3

15%

5

2

10%

6

2

10%

7

1

5%

8

1

5%

9

1

5%

10

2

10%

 

Representações Gráficas

Tabelas e gráficos aparecem com frequência em jornais e revistas. O objetivo de uma tabela ou de um gráfico é o de organizar uma série de dados e oferecer ao leitor uma forma fácil e rápida de assimilá-los.

Em estudos estatísticos, uma grande quantidade de dados é coletada. Os dados precisam ser organizados, em categorias ou intervalos, sendo frequentemente exibidos em tabelas e gráficos. 

O IBGE

O IBGE (Instituto Brasileiro de Geografia e Estatística) é uma instituição ligada ao Ministério do Planejamento e é responsável pelos trabalhos estatísticos no Brasil.

O uso da Estatística é de extrema importância para os diversos setores da sociedade. Estudos estatísticos têm como objetivo coletar dados informativos e relevantes que possam ser empregados para melhorar a qualidade de vida da população. De fato, muitas políticas governamentais são baseadas em estudos estatísticos. Por exemplo, se estudos estatísticos indicam que há um alto grau de analfabetismo em certa região do Brasil, cabe ao governo tomar medidas para retificar tal situação.

Os dados de uma tabela podem ser apresentados graficamente de várias formas:

I - Setores Circulares

Setores circulares podem ser usados para ilustrar dados qualitativos. O círculo representa a totalidade dos dados. As áreas ou fatias do círculo são desenhadas de maneira proporcional à frequência de cada categoria.

Quando se calcula o tamanho de cada fatia, é importante lembrar que o círculo inteiro mede 360º. Portanto, o tamanho relativo de cada fatia é calculado ao multiplicar seu percentual, em forma numérica de decimal, por 360º.  O resultado é o ângulo central da fatia.

Por exemplo

Suponhamos que houve uma eleição na qual concorreram três candidatos: x, y e z. Terminada a eleição, a porcentagem de votos foi representada na tabela abaixo:

candidato x 35%
candidato y 25%
candidato z 15%
votos em branco 16%
votos nulos 8%

Esses dados podem ser visualizados por meio de setores circulares (Fig. B, abaixo), cujas áreas são proporcionais às frequências.

Para calcular os ângulos:

Consideremos, por exemplo, a percentagem de votos em branco (16%).

Multiplicamos .16 (forma decimal) por 360º.

O ângulo central dessa fatia mede 57.6º .


Fig. B

II - Gráfico de Barras

Gráficos de barras são utilizados para ilustrar a distribuição da frequência de dados qualitativos. Num gráfico de barras, a altura das barras corresponde ao número de observações em cada categoria. Não há regras fixas quando à representação de dados em um gráfico de barras. Usam-se barras verticais ou horizontais, dependendo da necessidade ou da preferência organizacional.

Para se criar um gráfico de barras, é necessário escolher uma escala apropriada aos dados. É essencial não esquecer de rotular os eixos.

Retornando ao exemplo anterior:

candidato x 35%
candidato y 25%
candidato z 15%
votos em branco 16%
votos nulos 8%

Os dados da tabela podem ser representadas como constam na Fig. C, onde as alturas das barras são proporcionais às porcentagens.

III - Histograma

Um histograma é um gráfico para a representação de frequências. É geralmente um gráfico de barras verticais.

Por exemplo

A tabela abaixo apresenta a distribuição do peso dos alunos de uma determinada escola. Esses dados estão representados pelo histograma da Fig. E (abaixo).

Massas (em kg) Porcentagem
[50 ; 55[ 7%
[55 ; 60[ 15%
[60 ; 65[ 20%
[65 ; 70[ 30%
[70 ; 75[ 25%
[75 ; 80[ 3%


Fig. E

Gráficos de Linhas

Gráficos de linhas são frequentemente utilizados para medir movimentos: mudanças de temperatura, peso, altura de indivíduos, mudanças nos índices de bolsas de valores etc.


Fonte: www.revistacafeicultura.com.br

Dicas para o Enem quanto à leitura de tabelas e gráficos

- Leia a questão com cuidado. Certifique-se que você entendeu quais são as informações que a questão está pedindo.

- O gráfico de colunas é composto por duas linhas ou eixos, um vertical e outro horizontal. No eixo horizontal são construídas as colunas que representam a variação de um fenômeno de acordo com sua intensidade. Esta intensidade é indicada pelo eixo vertical. Lembre-se que as colunas devem sempre possuir a mesma largura e que a distância entre elas deve ser constante.

- O gráfico de linha é composto por dois eixos – um vertical, outro horizontal – e por uma linha que mostra a evolução de um fenômeno ou processo: isto é, sua mudança no decorrer de um determinado período. Cuidado para não fazer confusão entre os dois eixos!

- Antes de comparar os dados, preste atenção nas medidas de grandezas que estão sendo utilizadas no gráfico ou na tabela (centímetros, metros, gramas, quilos, segundos, horas etc). São as mesmas medidas exigidas na questão? Ou é necessário fazer algum tipo de conversão? Por exemplo, as medidas podem estar em centímetros, mas a questão exige uma resposta em metros.

Medidas de tendência central

Média, moda e mediana são medidas de tendência central. Elas servem como uma representação de todos dados.

Média Aritmética

A média aritmética é calculada somando todos os elementos e dividindo-os pelo número de elementos que compõem a média. 

  onde

xi = valor de cada elemento

n = nº total de elementos que compõem a média.

Exemplo

As notas dos alunos na prova foram:

4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 7, 9, 10

Qual é a média aritmética?

Resolução

Primeiro, adicionamos todas as notas e dividimos o resultado por 13 (o número total de provas).

= 5.85

Moda

Num conjunto de dados, é o valor que aparece com a maior frequência. Se cada valor aparecer apenas uma vez, não há moda.

Exemplo

No Rol { 1, 2, 2, 5, 5, 5, 7, 7, 8, 12 }

A moda é 5 (é o valor que aparece com mais frequência: 3 vezes).

Quando há dois ou mais números que aparecem com a maior frequência, há duas ou mais modas.

Exemplo

4, 4, 5, 5, 6, 4, 7, 7, 8, 5

Neste caso, o número 4 e o número 5 aparecem três vezes, tendo a maior frequência.

Portanto, há duas modas: 4 e 5.  

Mediana

A mediana é o “número do meio”.  Quando os números estão ordenados em ordem de grandeza, a mediana é o número que se encontra no meio deles.

Voltando ao exemplo anterior:

As notas dos alunos na prova foram:

4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 7, 9, 10

Contamos 13 provas.

A mediana é 5, pois 5 é o número do meio: há 6 resultados (da prova) à sua esquerda e 6 à sua direita. 

Num conjunto de dados, a mediana é, portanto, o valor que divide a distribuição de forma que o número de dados que se colocam antes dele é igual ao que se colocam depois dele.

Quando o número de resultados é par, a mediana é a soma aritmética dos dois termos do meio, dividida por 2.

Exemplo

{ 5, 9, 11, 13, 20, 23, 25, 27 } Rol ordenado.

A mediana numa distribuição com um número par de termos (neste caso, oito) deve estar entre o 4º e o 5º termo.

Assim 

.

Percentil

Um percentil é uma medida da posição relativa de uma unidade observacional em relação a todas as outras.

Um exemplo de percentil

- Se a altura de 1,70m é o 70º percentil de um grupo de alunos, isto significa que 70% destes alunos têm alturas menores que 1,70m e 30% têm alturas superiores a 1,70m.

É importante não confundir percentil com percentagem. Um percentil é relacionado somente com a posição relativa de uma observação quando comparada com outros valores. Por exemplo, se um aluno acertar 80% das questões de uma prova, mas este resultado é o 40º percentil da classe, isto significa que apenas 40% dos outros alunos tiraram uma nota pior. Já um aluno pode acertar apenas 50% da prova, mas este resultado é o 90º percentil da classe, significando que apenas 10% da classe tiveram um melhor resultado na prova.  

A mediana, que já foi definida e explicada acima, é o percentil 50. A mediana indica o centro da distribuição da variável: é o valor acima do qual estão 50% dos valores da variável e abaixo do qual estão os outros 50%.

Quando há poucos valores, uma forma simples de calcular a mediana é ordenar todos os valores, sendo a mediana o valor central. Por exemplo, considere os números 1, 6, 7, 12, 3. Primeiro, é necessário ordenar os números: 1, 3, 6, 7, 12. O valor do meio é o 6; portanto, 6 é a mediana desse conjunto de 5 números.

Medidas de dispersão

As medidas de dispersão são formas de avaliar o quanto os dados são semelhantes ou diferentes das medidas de tendência central. Através das medidas de dispersão, é possível constatar o quanto a medida de tendência central é representativa do conjunto de dados.

Para interpretar melhor uma pesquisa estatística, é importante saber o quanto os dados se desviam da média ou de outra medida de tendência central. É essencial saber se a maioria dos dados está próxima da média ou se há alguns números nos extremos afetando muito a média. O exemplo a seguir exemplifica este conceito.

Por exemplo

Numa escola, duas classes de alunos, que prestaram a mesma prova, obtiveram a mesma média: 7.

Os alunos da classe da Dona Neuza obtiveram as seguintes notas na prova:

5, 5, 6, 6, 7, 7, 7, 8, 9, 10

Já os alunos da classe da Dona Vera obtiveram as seguintes notas na prova:

0, 3, 4, 6, 9, 9, 9, 10, 10, 10

A média foi, de fato, a mesma. Mas os alunos da classe da D. Neuza obtiveram notas que estão próximas da média. Isto significa que não variou muito o desempenho entre os alunos da classe.

Na classe da D. Vera, alguns alunos tiveram um péssimo desempenho na prova, mas vários tiraram notas excelentes; três alunos obtiveram nota máxima. Percebe-se uma grande diferença no desempenho dos alunos.

Desvio absoluto

O desvio absoluto de um elemento de um conjunto de dados é a diferença absoluta entre esse elemento e a média.

Definição

    é uma medida de quanto cada elemento se afasta da média.

Exemplo

Se a média numa prova for 9 e a nota tirada por um certo aluno for 7, o desvio absoluto é 2.

Amplitude

É a diferença entre o maior e o menor valor numérico encontrado no rol. É importante ressaltar que um único valor extremo pode afetar toda a amplitude.

Retomando o exemplo anterior

A amplitude das notas na classe da D. Neuza é 10 – 5= 5

A amplitude das notas na classe da D. Vera é 10 – 0= 10

*Há uma amplitude significativamente maior no caso da classe da D. Vera.

Variança

Dispersão dos dados em relação à média.

A variância é obtida através dos seguintes passos:

1. Calcule o desvio absoluto de cada dado em relação à média. Para se assegurar que a operação foi feita corretamente, some os desvios. A soma de todos os desvios de um conjunto de dados é sempre igual a zero.

2. Eleve cada desvio ao quadrado.

3. Adicione os quadrados.

4. Divida a somatória por n - 1, onde n é o número de elementos no conjunto.

Por exemplo

Calcule a variância de 102, 110, 116, 120 e 132.

Resolução:

1. Primeiro, calcule a média do conjunto:

2. Compute o desvio absoluto para cada elemento e eleve cada desvio ao quadrado.

Dados

Desvio Absoluto

Desvio ao quadrado

102

102 – 116 = -14

196

110

110 – 116 = -6

36

116

116 – 116 = 0

0

120

120 – 116 = 4

16

132

132 – 116 = 16

256

3. Adicione os quadrados:

196+36+0+16+256=504

4. Divida a somatória por n – 1, ou seja, por 5 - 1.

 

Portanto, a variância é 126.

Desvio Padrão

Outra medida importante de dispersão é o desvio padrão. Essa medida é a raiz quadrada da variância.

Por exemplo

No exemplo acima, a variância é igual a 126. Portanto o desvio padrão é ou 11.22.

Definição:

Raiz quadrada da variância. Calcula a distância média entre a variável e a média aritmética da amostra. 

ou seja Desvio Padrão =

Sumário

- Universo Estatístico
- Amostra
- Rol
- Amplitude
- Frequência Absoluta
- Frequência Relativa
- Representações Gráficas
- Medidas de tendência central
- Medidas de dispersão
- Moda

Áreas exclusivas para assinantes