Parámetros estadísticos de variabilidad

Tiempo de lectura

En estadística, un indicador de dispersión evalúa la variabilidad de los valores de un conjunto de datos. Siempre es un número positivo, y su valor aumenta a medida que los datos están más separados. Entre las medidas de dispersión utilizadas habitualmente para los parámetros estadísticos de variabilidad se incluyen la varianza, la desviación típica, la dispersión, el rango y el rango intercuartílico. 

Alcance: 

En estadística, el rango es la medida más intuitiva de la variabilidad de los datos de un conjunto. En estadística, se suele simbolizar con la letra R. Representa la diferencia entre el valor máximo y el valor mínimo de ese conjunto de datos. En otras palabras, el rango indica la gama total de valores observados. 

Para calcular el rango de un conjunto de datos, siga estos pasos : 

  1. Encuentre el valor máximo (𝑋𝑚𝑎𝑥Xmax) en el conjunto de datos. 
  2. Encuentre el valor mínimo (𝑋𝑚𝑖𝑛Xmin) en el conjunto de datos. 
  3. Calcular el rango 𝑅=𝑋𝑚𝑎𝑥-𝑋𝑚𝑖𝑛R=Xmax-Xmin 

Sin embargo, el rango puede verse influido significativamente por valores extremos (o valores atípicos), lo que a veces puede sesgar su interpretación. Por eso, a menudo se utilizan otras medidas de dispersión, como el rango intercuartílico o la desviación típica, junto con el rango para obtener una imagen más precisa de la variación de los datos. 

Rango intercuartílico 

El rango intercuartílico es una medida de dispersión en estadística. Representa la diferencia entre el tercer cuartil (𝑄3) y el primer cuartil (𝑄1) de un conjunto de datos ordenados de forma creciente. Los cuartiles dividen los datos en cuatro partes iguales, cada una de las cuales representa 25% de las observaciones. El cuadro de bigotes de abajo ilustra las posiciones de 𝑄3 y 𝑄1. 

Para calcular el rango intercuartílico : 

  1. Halla el primer cuartil (𝑄1Q1): Es el valor que separa los 25% de los datos más bajos. 
  2. Halla el tercer cuartil (𝑄3Q3): Es el valor que separa el 25% de los datos más altos. 
  3. Calcular el intervalo E=𝑄3-𝑄1=Q3-Q1 

Un valor grande del rango intercuartílico indica que la mediana (el valor en el centro del conjunto de datos ordenados) está rodeada de valores muy dispersos, mientras que un valor bajo del rango intercuartílico indica que los valores alrededor de la mediana están más agrupados. Por tanto, el rango intercuartílico es menos sensible a los valores extremos que el rango, lo que proporciona una mejor indicación de la dispersión de los datos centrales. 

Desviación :

En estadística, la varianza es una medida de dispersión que cuantifica la diferencia entre cada valor individual de un conjunto de datos y la media de ese conjunto. Indica hasta qué punto los valores del conjunto están dispersos en torno a la media. Una varianza alta significa que los valores están muy dispersos, mientras que una varianza baja indica que los valores están más agrupados en torno a la media. 

La ecuación para calcular la varianza de un conjunto de datos es la siguiente: 

Si 𝑥1, 𝑥2, 𝑥3,... ,𝑥𝑁x1, x2, x3,... ,xN son los valores individuales de una población, y µ es la media poblacional, entonces la varianza poblacional 𝑉𝑎𝑟(𝑋)=𝜎2 se calcula como sigue: 

\sigma^{2}=\frac{\sum_{1}^{N}(xi-\mu)^{2}}{N}

Con : 

  • N: tamaño de la población 
  • µ: población media 
  • xi: el i-ésimo valor de la población 

En el caso de una distribución de probabilidad continua, la varianza (σ²) también puede calcularse mediante la fórmula : 

\sigma^2=\int_{}^{}(x-\mu)^2*f(x)*dx

Con : 

  • x: representa la variable aleatoria,  
  • μ: es la media de la distribución,  
  • f(x): es la función de densidad de probabilidad de la distribución, y se integra en todo el espacio de valores posibles de la variable aleatoria.  

Pero en realidad, en la mayoría de los casos, tenemos una serie de valores de tamaño "n" (una muestra), y la media de la población suele ser desconocida. Por lo tanto, calculamos una aproximación de la varianza. A menudo se simboliza con el término S² . La fórmula de cálculo utilizada es la siguiente 

\sigma^{2}=\frac{\sum_{1}^{N}(xi-\mu)^{2}}{N-1}

Con :  

  • n: tamaño de la muestra 
  • 𝑥: la media muestral 
  • xi: el i-ésimo valor de la muestra 

¿Por qué dividir por n-1 cuando es una muestra? 

Esta corrección se denomina corrección de Bessel. La razón de esta corrección es compensar el sesgo potencial en la estimación de la varianza a partir de la muestra. Al dividir por n-1, tenemos una estimación no sesgada de la varianza de la población. Esta corrección es especialmente importante en muestras de pequeño tamaño, en las que la estimación de la varianza basada en n tiende a subestimar la verdadera variabilidad de la población. 

¿Por qué no se utiliza mucho la varianza para interpretar la variabilidad? 

La varianza es una medida importante de la dispersión de los datos, pero tiende a utilizarse menos que la desviación típica por una serie de razones prácticas y de interpretación: 

  • En primer lugar, la varianza está en unidades al cuadrado de los datos originales, lo que dificulta su interpretación directa. (Si los datos individuales están en metros, la varianza estará en metros al cuadrado). 
  • Además, la varianza es sensible a los valores extremos, ya que implica los cuadrados de las desviaciones de la media, lo que puede sesgar su representación de la dispersión global, especialmente en presencia de valores atípicos. 

Aunque la varianza es fundamental desde un punto de vista estadístico, se prefiere la desviación típica por su facilidad de interpretación y su capacidad para proporcionar una medida más precisa de la dispersión de los datos. 

Desviación típica :

La desviación típica de la distribución es una característica de la dispersión de esta distribución en el espacio de los números reales. Cuanto mayor sea la desviación típica, mayor será la dispersión. Para calcular la desviación típica, basta con calcular la raíz cuadrada de la varianza: 

S=\sqrt{\frac{\sum_{1}^{N}(xi-x)^{2}}{n-1}}

  • n: tamaño de la muestra 
  • 𝑥: la media muestral 
  • xi: el i-ésimo valor de la muestra 
Una imagen que contiene un diagrama, trazado, captura de pantalla, texto generado automáticamenteDescripción  Desviación típica de la máquina M1 𝑆=1𝑚𝑚S=1mm  

 Desviación típica de la máquina M2 𝑆=4𝑚𝑚S=4mm   
Utilización del programa Análisis de datos Ellistat.

La desviación típica es el equivalente de la varianza, pero se expresa en la misma unidad que la muestra. Por lo tanto, su valor es más fácil de interpretar.

Dispersión 

La desviación típica es una buena característica de la distribución normal desde el punto de vista matemático, pero no tiene un equivalente intuitivo real. Por ello, preferimos utilizar el término dispersión, que corresponde a : 

Dispersión = amplitud del intervalo de valores en el que se observa el 99,73% de los valores. 

En el caso de una distribución normal, la dispersión se calcula simplemente : 

𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛=6∗𝜎

La noción de dispersión es mucho más intuitiva que la de desviación típica. Tomemos el ejemplo de los datos siguientes. Se trata de una observación de 1000 puntos de datos con una distribución normal, media 0 y desviación típica 1. 

Si quisiéramos caracterizar intuitivamente la dispersión de estos valores, estaríamos tentados de decir que la dispersión de los valores se sitúa en torno a 6 porque los valores observados están contenidos entre -3 y +3. 

Nuestra definición intuitiva de dispersión corresponde en realidad al rango de una muestra (Rango = Máx - Mín). Sin embargo, utilizar el rango como característica de una distribución no tiene sentido estadístico. La distribución normal varía de -∞ a +∞ , por lo que el rango de esta distribución sería ∞. 

La dispersión corresponde a la definición intuitiva de variabilidad, pero tiene un significado estadístico. Es el intervalo dentro del cual observaremos prácticamente todos los valores, es decir, el 99,73% de los valores.