Medidas de dispersión varianza y desviación típica

Consideremos las dos muestras de valores numéricos siguientes:

Para ambas A y B, la media muestral es x =10. Sin embargo, observamos que los valores de A están más agrupados en tomo a la media que los valores de B. Para distinguir entre A y B a este respecto, definimos una medida de la dispersión de los valores respecto a la media, llamada varianza muestral, y su raíz cuadrada, llamada desviación típica muestral.

~
Sea x la media muestral de n valores x1, x2,…, xn. La diferencia xi – x se llama desviación de los datos sobre la media x; será positiva o negativa dependiendo
~ 2
de si xi es superior o inferior a x. La varianza muestral s se define como sigue:

La desviación típica muestral s es la raíz cuadrada no negativa de la varianza muestral; esto es:

Dado que la desviación cuadrática no es negativa, tampoco lo será s2. Más aún,

s2 será cero cuando el valor de cada dato xi sea igual a x. Cuanto más esparcidos estén los valores de los datos, la varianza muestral y la desviación típica serán mayores.

Consideremos las series A y B anteriores.

(a) En la serie A, cuya media muestral es x = 10, las desviaciones de los cinco datos serán las siguientes:

Los cuadrados de las desviaciones serán entonces:

También n – 1= 5 – 1 = 4. Así la varianza muestral s2 y la desviación típica s serán las siguientes:

(b) En la serie B obtenemos lo siguiente:

Observar que B, que manifiesta mayor dispersión que A, tiene una varianza y desviación típica mucho mayor que A.

La siguiente es otra fórmula para la varianza muestral, es decir, equivalente a 1.3:

Aunque la Fórmula 1.5 puede parecer más complicada que la 1.3, realmente es más conveniente usar ésta que la 1.3, especialmente cuando los datos se dan tabulados. En particular, esta fórmula puede usarse sin necesidad de calcular la media muestral x.

Consideremos los siguientes valores:

3, 5, 8, 9, 10, 12, 13, 15, 20

Hallar: (a) la media muestral x y (b) la varianza muestral s2. Primero construimos la siguiente tabla:

(a) Con la Fórmula 1.1, donde n = 9,

(b) Aquí usaremos la Fórmula 1.5, donde n = 9 y n – 1 = 8:

Observar que si utilizásemos la Fórmula 1.3 necesitaríamos restar x = 10,56 de cada xi antes de elevarlos al cuadrado.

Observación: La fórmula para la varianza poblacional  2 no es la misma que la de la varianza muestral s2 en tanto que, cuando calculamos  2 dividimos por N y no por N– 1. Es decir, supongamos que x1, x2,…, xN son los N valores numéricos de una población total y supongamos que  es la media poblacional. Entonces:

Algunos libros definen s2 usando n en lugar de n – 1. La razón de que se use n – 1 para la varianza muestral s2 es el querer usar s2 como estimador de la varianza poblacional  2. Se puede demostrar que usando n en lugar de n – 1 para s2, se tiende a subestimar  2.

Fuente: Apuntes de Probabilidad y Estadística de la UNIDEG