Estadística: 2015

jueves, 18 de junio de 2015

La Estadística

Es una ciencia formal y una herramienta que estudia el uso y los análisis provenientes de una muestra representativa de datos, busca explicar las correlaciones y de pendencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.

Sin embargo, la estadística es mas que eso,es decir, es la herramienta fundamental que permite llevar a cabo el proceso relacionado con la investigación científica.

es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de salud hasta el control de calidad.

¿Para qué nos sirve?

La Estadística puede dar respuesta a muchas de las necesidades que la sociedad actual nos plantea. Su tarea fundamental es la reducción de datos, con el objetivo de representar la realidad y transformarla, predecir su futuro o simplemente conocerla.

La Estadística responde a las necesidades bélicas y fiscales de los gobernantes. Esto se puede conseguir con un conocimiento claro de la población con la que se cuenta. La herramienta para conseguirlo es el censo de población, y su hermano pequeño, el padrón municipal de habitantes.

La práctica del recuento de la población y de algunas características de esta por los Estados es muy antigua (se remonta a 3000 años antes de Cristo en Egipto y Mesopotamia). En palabras de Bielfed, la Estadística es la ciencia que nos enseña el ordenamiento político de todos los estados del mundo conocido, es decir, está al servicio del Estado, de hecho, la palabra Estadística deriva de Estado.

Ejemplo:

Gráficas Estadísticas

Las gráficas estadísticas nos permite “familiarizarnos” con los datos que se han recopilado y resumido. Se considera como una técnica inicial de análisis exploratorio de datos que produce una representación visual. Las gráficas resultantes revelan un patrón de comportamiento de la variable en estudio. Se ofrecen muchos tipos de gráficos para describir el conjunto de datos. Dependiendo del tipo de datos y lo que se quiera representar, se hará uso del método gráfico más adecuado.

ELEMENTOS DE UNA GRÁFICA:

En general se deben tener en cuenta los siguientes elementos:

1.Titulo

2.Tabla o Distribución de Frecuencias

3.Escala

4.Cuerpo de la gráfica

5.Convenciones

6.Notas aclaratorias

7.Numeración.

DIAGRAMA CIRCULAR

Es de especial utilidad para mostrar proporciones (porcentajes) relativas de una variable. Se crea marcando una porción del círculo correspondiente a cada categoría de la variable .

GRÁFICA SIMPLE DE BARRAS VERTICALES

Para respuestas categóricas cualitativas en el que solo interviene una barra para cada clase. Su trazo se realiza ubicando en el eje horizontal de la gráfica los nombres que identifican cada una de las clases. En el eje vertical se usa una escala de frecuencias, una de frecuencias relativas o una de porcentuales. Luego, con una barra de un ancho fijo trazada sobre cada indicador de clase llegamos a la altura que corresponde al tipo de frecuencia escogido. Las barras se separan a fin de señalar que cada clase es una categoría independiente. Los espacios entre las barras deben corresponder a la mitad del ancho de una barra.

GRÁFICA SIMPLE DE BARRAS HORIZONTALES

Se utiliza principalmente para facilitar la comparación entre las diferentes clases que componen los datos categóricos. El trazo de la gráfica es muy similar a la gráfica de barras verticales, solo que éstas van en forma horizontal y están ordenadas de la mayor a la menor frecuencia absolutas, de frecuencia relativas o de porcentajes. De esta manera se logra una mejor visualización en las preferencias.

HISTOGRAMAS

Una de las maneras más comunes de representar una distribución de frecuencia . Su gráfica consiste en un conjunto de barras, en la que la base de cada barra representa una clase o intervalo, indicada en el eje horizontal, y la altura por su frecuencia, indicada en el eje vertical. Generalmente las barras se trazan adyacentes una a la otra.

POLÍGONO DE FRECUENCIA

De segmentos de línea que conectan los puntos formados por la intersección del punto medio de clase y la frecuencia de clase absoluta, relativa o porcentual.

PICTOGRAMAS

Es un tipo de representación que se utiliza para variables cualitativas, y que consiste en representar los datos con dibujos alusivos a la estadística estudiada. Los pictogramas son muy expresivos, pero poco precisos.

Hay dos clases de pictogramas:

Se utiliza un dibujo que representa la variable estadística y ésta se repite tantas veces como haga falta (frecuencia absoluta).
El dibujo utilizado varía de tamaño dependiendo de su frecuencia; a mayor frecuencia mayor es el dibujo.

El siguiente pictograma representa la evolución del número de hectáreas sembradas de trigo en un país.

Medidas de Tendencia Central

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.¹ En este caso se incluyen también los cuantiles entre estas medidas.

Entre las medidas de tendencia central tenemos:

Media
Media ponderada
Media geométrica
Media armónica
Mediana
Moda

La media aritmética

La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumadores.

Por ejemplo, las notas de 5 alumnos en una prueba:

niño     nota

 1       6,0    ·Primero, se suman las notas:
 2       5,4        6,0+5,4+3,1+7,0+6,1 = 27,6
 3       3,1    ·Luego el total se divide entre la cantidad de alumnos:
 4       7,0         27,6/5=5,52
 5       6,1

· La media aritmética en este ejemplo es 5,52

La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos.² Se le llama también promedio o, simplemente, media.

Moda

La moda es el dato más repetido de la encuesta, el valor de la variable con mayor frecuencia absoluta.

Su cálculo es extremadamente sencillo, pues solo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.

Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.

Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.

Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.

La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

\frac{p}{c-p}=\frac{n_i-n_{i-1} }{n_i-n_{i+1} }

Siendo

n_{i}

la frecuencia absoluta del intervalo modal y

n_{i-1}

n_{i+1}

las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al intervalo modal.

Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla:

Calificaciones	1	2	3	4	5	6	7	8	9
Número de alumnos	2	2	4	5	8	9	3	4	2

Mediana

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.⁷ Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

\rm \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \; \underbrace{\color{Red} 2, }_{Mediana \;} \; \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:

\rm \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \; \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \; \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}

Se toma como mediana

1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}

Existen métodos de cálculo más rápidos para datos más numerosos. Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

Medidas de dispersión

Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, y cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.

Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (desviación media) y otra es tomando las desviaciones al cuadrado (varianza).

Rango estadístico

Requisitos del rango

Ordenamos los números según su tamaño.

Restamos el valor mínimo del valor máximo

Rango = {(Max - Min)}

Ejemplo

Para la muestra (8, 7, 6, 9, 4, 5), el dato menor es 4 y el dato mayor es 9. Sus valores se encuentran en un rango de:

Rango = (9-4) = 5

Medio rango o Rango medio

El medio rango o rango medio de un conjunto de valores numéricos es la media del mayor y menor valor, o la tercera parte del camino entre el dato de menor valor y el dato de mayor valor. En consecuencia, el medio rango es:

medioRango = \frac{\ (Max + Min)}{2}

Ejemplo

Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor Max= 8. El medio rango resolviéndolo mediante la correspondiente fórmula sería:

medioRango = \frac{\ (8 + 3)}{2} = 5.5

Representación del medio rango:

Varianza

Es una medida estadística que mide la dispersión de los valores respecto a un valor central (media), es decir, es el cuadrado de las desviaciones:

S_X^2 = \frac{\sum_{i=1}^n (X_i - \bar{X})^2}{n-1}

S_X^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2

Propiedades

La varianza es siempre positiva o 0:

V_{X}^2 \geq 0

Si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica.

Y_i = X_i + k

¹ c

S_Y^2 = \frac{\sum (Y_i - \bar{Y})^2}{n} = \frac{\sum [(X_i + k) - (\bar{X} + k)]^2}{n} = \frac{\sum (X_i + k - \bar{X} - k)^2}{n} = \frac{\sum (X_i - \bar{X})^2}{n} = S_X^2

Si a los datos de la distribución los multiplicamos por una constante, la varianza queda multiplicada por el cuadrado de esa constante.

Y_i = X_i \cdot k

S_Y^2 = \frac{\sum (Y_i - \bar{Y})^2}{n} = \frac{\sum (X_i \cdot k - \bar{X} \cdot k)^2}{n} = \frac{\sum [k \cdot (X_i - \bar{X})]^2}{n} = \frac{\sum [k^2 \cdot (X_i - \bar{X})^2]}{n} = k^2 \cdot \frac{\sum (X_i - \bar{X})^2}{n} = k^2 \cdot S_X^2

Propiedad distributiva:

V(X + Y) = V(X) + V(Y) +2COV(X,Y)

, siempre y cuando las variables

X

Y

sean independientes

Desviación típica

La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, o desviación estándar, que se halla como la raíz cuadrada positiva de la varianza. La desviación típica informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Esta medida viene representada en la mayoría de los casos por S, dado que es su inicial de su nominación en inglés.

Desviación típica muestral

S = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1}}

Desviación típica poblacional

\sigma = \sqrt{\frac{\sum_{i=1}^n fi (X_i - \mu)^2}{n}}

-->x = [17 14 2 5 8 7 6 8 5 4 3 15 9]
x = 17. 14. 2. 5. 8. 7. 6. 8. 5. 4. 3. 15. 9.
-->stdev(x)
ans = 4.716311
-->

Primero hemos declarado un vector con nombre X, donde introducimos los números de la serie. Luego con el comando stdev se hallará la desviación típica.

Covarianza

La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. La formulación clásica se simboliza por la letra griega sigma (σ) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "

s_{xy}

La fórmula suele aparecer expresada como:

\hat{S}_{xy} = \frac{\sum_{i=1}^n x_i y_i}{n-1} = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{n-1}

Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas).

La expresión se resuelve promediando el producto de las puntuaciones diferenciales por su tamaño muestral (n pares de puntuaciones, n-1 en su forma insesgada).

Este estadístico refleja la relación lineal que existe entre dos variables. El resultado numérico fluctúa entre los rangos de +infinito a -infinito. Al no tener unos límites establecidos no puede determinarse el grado de relación lineal que existe entre las dos variables, solo es posible ver la tendencia.

-\infty \leq S_{xy} \leq +\infty

S_{xy} = \begin{cases} > 0, & \mbox{Correlaci}\acute{o}\mbox{n directa. Recta de regresi}\acute{o}\mbox{n creciente.} \\ = 0, & \mbox{No hay correlaci}\acute{o}\mbox{n.} \\ < 0. & \mbox{Correlaci}\acute{o}\mbox{n inversa. Recta de regresi}\acute{o}\mbox{n decreciente.} \end{cases}