3 Estatísticas Básicas

3.1 Medidas de Posição

3.1.1 Média

Média Aritmética Simples

A média aritmética simples é igual ao somatório dos valores de uma série dividido pelo número total de elementos da série. Essa é a média mais comum usada no dia a dia. A representação matemática é da seguinte forma:

\[\begin{equation} \bar{x} = \frac{\sum_{i = 1}^n x_i}{n} \tag{3.1} \end{equation}\]

where:

\(x_i \rightarrow\) representa cada elemento da série e;

\(n \rightarrow\) representa o número total de elementos da série.

Para calcular a média aritmética simples no R, a seguinte sintaxe é usada:

## [1] 24.83333

Média Geométrica

A média geométrica é a média das médias e é igual à \(nth\) raiz quadrado do produto (multiplicação) entre os elementos de uma série cuja representação matemática é como a seguir:

\[\begin{equation} \bar{g} = \sqrt[n]{x_1 * x_2 * \cdots * x_n} \tag{3.2} \end{equation}\]

ou

\[\begin{equation} \bar{g} = (x_1 * x_2 * \cdots * x_n)^{\frac{1}{n}} \tag{3.3} \end{equation}\]

em que:

\(x_i \rightarrow\) representa cada elemento da série e;

\(n \rightarrow\) representa o número total de elementos da série.

Existem alguns pacotes no R que possuem uma sintaxe para calcular a média geométrica, contudo, pode-se lembrar da fórmula dessa média e calculá-la diretamente sem usar um comando específico para esse cálculo.

## [1] 128700000
## [1] 22.46966

Média Harmônica

Quando se trata de quantidades inversamente proporcionais (por exemplo, custo e quantidade), a média harmônica é usada. Ou seja, a média harmônica é usada para calcular o custo médio das mercadorias compradas com um valor monetário fixo, a velocidade média, etc.. Como o custo médio é igual à \(C = \frac{P}{q}\) e a velocidade média é igual à \(V = \frac{d}{t}\), i.e., custo é inversamente propocional à quantidade e velocidade é inversamente ao tempo. A fórmula da média harmônica é:

\[\begin{equation} \bar{h} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}} \tag{3.4} \end{equation}\]

where:

\(x_i \rightarrow\) representa cada elemento da série e;

\(n \rightarrow\) representa o número total de elementos da série.

Assim como para a média aritmética simples e para a média geométrica existem alguns pacotes no R que possui uma sintaxe para calcular a média harmônica, contudo, não há necessidade de instalá-los para realizar esse cálculo, basta entender a fórmula e aplicá-la manualmente no R.

## [1] 19.97129

3.1.2 Mediana

A mediana de qualquer série de dados separa a metade inferior da metade superior. Isto é, \(50\%\) da série terão valores menores ou iguais à mediana e os outros \(50\%\) da série terão valores maiores ou iguais à mediana. Existem duas observações que precisam serem feitas. Primeiro, os dados devem ser organizados ordenadamente (pode estar na ordem crescente ou decrescente), i.e., não se deve trabalhar com dados brutos, i.e., sem ordenação. Por exemplo, uma série de dados bruto \(\{7, 9, 1, 5, 3\}\) precisa ser ordenada \(\{1, 3, 5, 7, 9\}\) or \(\{9, 7, 5, 3, 1\}\). Segundo, deve-se verificar a fórmula para cada uma das situações que serão descritas a seguir.

Como última observações, a fórmula aplicada no cálculo da mediana não reporta o valor da mediana, mas ao invés, a posição na qual o valor mediano encontra-se. Assim, encontrada a essa posição retorna-se a série de dados para localizar a mediana.

  1. se o número de termos da série em questão for ímpar, a mediana é o termo de ordem dado pela seguinte fórmula: \(P_{M_d} = \frac{n + 1}{2}\).

  2. se o número de termos da série em questão for par, a mediana é a média aritmética simples dos termos de ordem dados pelas fórmulas: \(P_{M_d} = \frac{n}{2}\) and \(P_{M_d} = \frac{n}{2} + 1\).

em que:

\(P_{M_d} \rightarrow\) é a posição do valor mediano na série e;

\(n \rightarrow\) é o número de elementos na série.

Exemplo 2.1: Qual é a mediana da série \(1, 3, 5, 7, 9\)?1 Uma vez que o número de termos da série é ímpar, usa-se somente a fórmula \(P_{M_d} = \frac{n + 1}{2}\). Então,

\[P_{M_d} = \frac{5 + 1}{2} = \frac{6}{2} = 3\]

Portanto, o valor mediano está na \(3ª\) posição, i.e., a mediana é \(M_d = 5\).

Exemplo 2.2: Qual é a mediana da série \(1, 3, 5, 7, 9, 10\)?2 Agora o número de termos na série é par, então aplica-se duas fórmulas: \(P_{M_d} = \frac{n}{2}\) and \(P_{M_d} = \frac{n}{2} + 1\). Portanto,

\[P_{M_d} = \frac{6}{2} = 3\]

e

\[P_{M_d} = \frac{6}{2} + 1 = 3 + 1 =4\]

Assim, o valor mediano será a média aritmética simples dos valores que estão na \(3ª\) e \(4ª\) posições e que são, respectivamente, \(5\) e \(7\).

\[\bar{x} = \frac{5 + 7}{2} = \frac{12}{2} = 6\]

Assim, a mediana é igual a \(M_d = 6\).

Contudo, no R, os valores reportados pela sintaxe da mediana são os valores da mediana da série de dados.

## [1] 5

Para a outra série tem-se:

## [1] 6

3.1.3 Moda

Moda é o valor da série que mais ocorre, i.e., com maior frequência. No entanto, em uma série pode ser que não exista um termo repetitivo e, portanto, essa série é denominada amodal. Por sua vez, se dois elementos ocorrem com mais frequência, a série é chamada bimodal e, nos casos em que há mais de dois elementos se repetindo, a repetição de uma série é multimodal ou polimodal.

No R existem duas formas para calcular a moda. Se a série for pequena, facilitando a identificação visual da moda, usa-se a sintaxe table (series name) que reportará os elementos da série e, abaixo deles, mostrará com que frequência cada um deles ocorre. Mas para casos em que a série é muito grande, o que tornará difícil a visualização, a sintaxe subset (table (series names), table (series name) == max (table (series name))) é utilizada e reportará o elemento modal e abaixo dele a frequência com que ocorre.

## w
## 1 2 3 4 5 6 7 
## 1 1 1 3 1 1 1

Ou pode-se usar uma função que reportará o valor da moda, i.e., reportará o valor modal e não a frequência para cada um dos elementos da série.

## 4 
## 3

  1. Note que a série já está ordenada, i.e., não são dados bruto.

  2. Note que a série já está ordenada, i.e., não são dados bruto.