miércoles, 24 de diciembre de 2014

Parámetros de dispersión. Rango, varianza y desviación típica.



Además de los parámetros de centralización también es interesante estudiar los parámetros de dispersión ya que nos aportan información adicional.

Por ejemplo, si sabemos que la nota media en matemáticas de los alumnos de un curso es de 5, no es lo mismo que TODOS los alumnos hayan sacado un 5 o que haya alumnos que hayan sacado un 0, otros un 5, otros un 10... Esto es lo que miden los parámetros de dispersión.

Los más importantes son el rango o recorrido, la varianza y la desviación típica.

El rango o recorrido es la diferencia entre el valor mayor de todos y el menor. Si los datos están agrupados en clases, el rango se calcula como la diferencia entre el extremo superior del último intervalo y el extremo inferior del primero.

Las diferencias entre cada valor de la variable y la media se llaman desviaciones respecto de la media. Este parámetro no es bueno para medir la dispersión, pero lo utilizaremos para el cálculo del siguiente parámetro.

La varianza s2 es la media aritmética de los cuadrados de las desviaciones respecto de media:

 


La desviación típica s, es la raíz cuadrada positiva de la varianza.


Mediana y cuartiles



La mediana de una variable es el valor en el que la mitad de los valores son menores y la otra mitad son mayores, es decir el que queda en el centro. Se representa por M.

Este parámetro depende del orden de los datos y no de sus valores, a diferencia de la media y la moda.

Para calcular la mediana de una variable en primer lugar se ordenarán los datos de menor a mayor.

  • Si el número de datos de que disponemos es impar, la mediana será el valor central.
  • Si el número de datos de que disponemos es par, se tomará los dos valores centrales y se calculará la media entre estos dos. El valor obtenido será la mediana de la serie de datos.

Ejemplo.              Disponemos de la serie:              8             4             5             3             7


  1. La ordenamos:                 3             4             5             7             8
  2. Buscamos el valor central:          5
  3. Y ya tenemos su mediana.
   Si la serie tuviese un número más, por ejemplo el 10:


  1.    Ordenamos la serie:      3             4             5             7             8             10
  2.    Como valores centrales tenemos:          5             7
  3. Calculamos la media entre los dos valores centrales:
  4. Y de nuevo, ya tendríamos la mediana.

Los cuartiles de una variable estadística son tres valores que dividen la serie de datos en 4 grupos de igual tamaño.

  • Q1: primer cuartil que deja a su izquierda el 25% de los datos.
  • Q2: segundo cuartil que deja a su izquierda el 50% de los datos y que coincide con la mediana. Q2=M
  • Q3: tercer cuartil que deja a su izquierda el 75% de los datos.


Ejemplo.              Vamos a calcular los cuartiles de unos datos que se distribuyen según la siguiente tabla.
 






  • Q1 es el primer valor para el que   Q1 = 14 años
  • Q2 es el primer valor para el que   Q2 = 15 años
  • Q3 es el primer valor para el que   Q3 = 16 años


martes, 23 de diciembre de 2014

Parámetros de centralización: media aritmética y moda



Hasta ahora hemos visto métodos que nos ayudan a visualizar cómo se distribuyen los datos de que disponemos. Ahora iremos más allá: vamos a resumir una distribución estadística. Para ello utilizaremos los parámetros de centralización, es decir los valores que tienden a situarse en el centro del conjunto de datos. Los más utilizados son la media aritmética, la moda y la mediana.


La media aritmética  de una variable X es el promedio de los valores que va tomando la variable. Se define como el cociente entre la suma de todos los valores de la variable y el número de estos. Por ejemplo, cuando termináis un trimestre seguro que habéis calculado la media de los exámenes para saber qué nota tendréis, y simplemente habéis sumado todas las notas y habéis dividido el resultado entre el número de exámenes que habéis hecho; pues esto es exactamente igual.

Si la variable X toma los valores xi, con frecuencias absolutas fi, la media aritmética será:

 


Cuando tengamos datos agrupados en clases, tomaremos como valor xi la marca de clase.

La moda Mo de una variable es el valor más frecuente, es decir el que más veces se repite en nuestros o el que mayor frecuencia absoluta tiene. 

Cuando tengamos datos agrupados en clases, la clase con mayor frecuencia se llamará la clase modal y el valor de la moda será su marca de clase.


Ejemplo.              En la tabla vienen recogidas las edades de los miembros menores de edad de una agrupación.
 

 

La edad media del grupo se calcula como:


 


Y la moda es 12 por ser el valor más frecuente.