lunes, 27 de mayo de 2013

Seminarios

Hola chicos/as en este apartado os voy a explicar por encima lo que hemos hecho en los 3 seminarios que hemos tenido sobre la asignatura. Para empezar dicho seminario es necesario la instalación del programa EPI INFO, los pasos a seguir serian:

Introducimos ''cdc epi info'' en google y pinchamos en la primera pagina que nos sale.
En la página principal de la web, pinchamos en el botón ''download'' para descargar una versión anterior a la más actual (Epi Info™ 3.5.4) ya que en esta versión, si podemos encontrar el programa en español. (El cual tenemos el parche en la asignatura del campus)

Una vez que tenemos ambas cosas, nos dirigimos a la carpeta de Mi Pc para juntar los archivos y poderlos usar complementariamente.
Cuando tengamos hecho esto, nos introducimos en el ''disco local c'', nos metemos en la carpeta de epi info>transEXE

Una vez que tenemos todo preparado, le damos al icono del escritorio de ''Epi info''. Cuando estemos dentro, seleccionamos en ''Setting'' y le damos a ''choose language''.

En este caso habremos seleccionado el español

Una vez descargado nos disponemos a realizar los distintos seminarios:

Seminario 1:
Hemos hecho un cuestionario en el que se recogen distintos datos acerca de un brote de gastroenteritis aparecido tras una fiesta. Los invitados estuvieron expuestos a diferentes tipos de alimentos.

Seminario 2:
Seguimos con el caso del brote de gastroenteritis completo, con el registro de todos los individuos que asistieron a la fiesta y todos los datos ya tomados. Este seminario se centra en analizar los datos introducidos para poder realizar tablas de frecuencias, listados o gráficos. También transformamos una variable cuantitativa en una variable cualitativa.

Seminario 3:
Seguimos con el ejemplo del brote de gastroenteritis para calcular las medidas de tendencia central. Otra cosa que hicimos fue hacer el test de hipótesis y comprobar cuál de los alimentos que se consumió durante la fiesta fue el causante de la gastroenteritis.

domingo, 26 de mayo de 2013

Hipótesis estadísticas. Test de hipótesis.

Bueno chicos/as el temario se termina. Este tema se centra en controlar los posibles errores aleatorios.

Por una parte nos encontramos el contraste de hipótesis: en el que establecemos a priori una hipótesis cerca del valor del parámetro, realizamos la recogida de datos y analizamos la coherencia de entre la hipótesis previa y los datos obtenidos. Es una herramienta estadística para responder a preguntas de investigación.

Sean cuales sean los deseaos de los investigadores, el test de hipótesis siempre va a contrastar la hipótesis nula.


Existen dos tipos de test de hipótesis:
1.      Chi – cuadrado: sirve para comparar variables cualitativas (dependientes e independientes)

2.      T de student: se utiliza cuando la variable independiente es dicotómica y la variable dependiente es continua.

Estadística inferencial: muestreo y estimación

Dentro de este tema es importante saber estas definiciones antes de continuar con el tema:

Población de estudio: conjunto de personas sobre los que queremos estudiar alguna cuestión

Muestra: conjunto de individuos concretos que participan en el estudio

Tamaño muestral: número de individuos de la muestra

Inferencia estadística: conjunto de procedimientos estadísticos que permiten pasar de lo particular, la muestra, a lo general, la población

Técnica de muestreo: conjunto de procedimientos que permiten elegir muestras de tal forma que estas reflejen las características de la población

Muestreo probabilístico o aleatorio: si la muestra se elige por un procedimiento al azar

En los muestreos no probabilísticos no es posible evaluar el error. En los muestreos probabilísticos, el error aleatorio es inevitable pero es evaluable

Error estándar: es la medida que trata de captar la variabilidad de los valores del estimador. Cuanto más pequeño es el error estándar de un estimador, mas nos podemos fiar del valor de una muestra concreta.

Intervalos de confianza: son un medio de conocer el parámetro en una población midiendo el error que tiene que ver con el azar. Se trata de un par de número tales que, con un nivel de confianza determinados, podemos asegurar que el valor del parámetro es mayor o menor que ambos números.

Una vez conocidos estas definiciones, nos centraremos en los tipos de muestreos que existen:

Probabilístico: todos los sujetos de la población tienen una probabilidad distinta de cero en la selección de la muestra:
1.      Aleatorio simple
2.      Aleatorio sistemático
3.      Estratificado
4.      Conglomerados

No probabilístico o de conveniencia de investigador: puede haber personas en la población que no tengan probabilidad o que se desconozca, de ser seleccionado en la muestra:
1.      Accidental
2.      Por cuotas

Hay que tener también en cuenta el tamaño de la muestra a la hora de la investigación


Distribuciones normales

Nos estamos refiriendo a la distribución de Gauss. La gráfica de su función de densidad tiene una forma y simétrica respecto de los valores posición central (media, mediana y moda, que coinciden en estas distribuciones)


Campana de Gauss:


Asimetrías y curtosis:

Asimetría:
El coeficiente de asimetría de una variable mide el grado de asimetría de la distribución de sus datos en torno a su media. Una variable es asimétrica si su cola a un lado más larga que su cola al otro y simétrica si ambas colas son igual de largas:
Si As > 0 la distribución será asimétrica a la derecha. La cola a la derecha es más larga que la cola a la izquierda.
Si As = 0 la distribución será simétrica. Ambas colas son igual de largas
Si As < 0 la distribución será asimétrica a la izquierda. La cola a la izquierda es más larga que la cola a la derecha.
 

Apuntamiento o curtosis
El coeficiente de apuntamiento o curtosis de una variable sirve para medir el grado de concentración de los valores que toma en torno a su media. Se elige como referencia una variable con distribución normal, de tal modo que para ella el coeficiente de apuntamiento es 0.
Según su apuntamiento, una variable puede ser:
Leptocúrtica, si Ap > 0, es decir, es más apuntada que la normal. Los valores que toma la variable están muy concentrados en torno a su media y hay pocos valores extremos.
Mesocúrtica, si Ap = 0, es decir, es tan apuntada como la normal.
Platicúrtica, si Ap < 0, es decir, es menos apuntada que la normal. Hay muchos valores extremos, las colas de la variable son muy pesadas.


Medidas de tendencia central, posición y dispersión.

En este tema veremos la función de los datos observados. Los que dan la idea de la magnitud o tamaño de los datos (medidas de posición o tendencia central) y los que nos dan información acerca de la heterogeneidad de nuestras observaciones (medidas de dispersión o variabilidad).

Medidas de tendencia central:
Pretenden resumir todos los datos en un único valor. Definimos tres medidas de tendencia central, media, mediana y moda.

Media, (x)
Se calcula para variables cuantitativas y se trata del centro geométrico o de gravedad de nuestros datos

 Mediana, (Me)
Se calcula para variables cuantitativas, es un número tal que al menos el 50 % de los datos es menor o igual que la mediana y al menos el 50 % mayor o igual. Si hay más de una mediana tomamos el punto medio entre la mediana mayor y la más pequeña, que serán los datos que aparecen en la muestra y sirven como medianas.

 Moda, (Moda)


Es el valor con mayor frecuencia. Si hay más de una, la variable se dice multimodal y puede calcularse para cualquier tipo de variable. Si los datos están agrupados hablamos de clase modal y será aquella para la que el cociente frecuencia relativa dividido entre amplitud (fi/ci) es mayor.
                                        

                                         

Medidas de posición:

Cuantiles
Se calculan para variables cuantitativas y al igual que la mediana sólo tienen en cuenta la posición de los valores en la muestra. Casos particulares de cuantiles son los cuartiles, los percentiles y los deciles (estos últimos dividen la muestra ordenada en 10 partes):

Cuartiles
Dividen la muestra ordenada en 4 partes.
Q1, primer cuartil, al menos el 25 % de los datos son menores o iguales que ´el y al menos el 75 % de los datos son mayores o iguales que ´el.
Q2, segundo cuartil, es la mediana, Q2 = Me.
Q3, tercer cuartil, al menos el 75 % de los datos son menores o iguales que ´el y al menos el 25 % de los datos son mayores o iguales que ´el.
Q4, cuarto cuartil, es el mayor valor que se alcanza en la muestra.

Percentiles
Dividen la muestra ordenada en 100 partes.

Deciles
Dividen la muestra ordenada en 10 partes

Medidas de dispersión:

Recorrido o rango
Diferencia entre el mayor y menor valor de una muestra

Desviación media respecto de la mediana

Desviación típica, (s)
Cuantifica el error que cometemos si representamos una muestra únicamente por su media.

Varianza muestral, (s2)

Rango semiintecuartícilo y amplitud intercuartil
El rango semiintercuartílico es la mitad de la diferencia entre el tercer y primer cuartil, Q = (Q3 − Q1)/2. La amplitud intercuartil es el doble del valor anterior, 2Q = (Q3 − Q1).

Coeficiente de variación, (CV)
  

Introducción a la bioestadística

Como bien os comente en la entrada anterior ya entramos en ``estadística pura´´, en este caso nos centraremos en los diferentes tipos de escala que existen que serían:
Ø  Escala nominal
Ø  Escala ordinaria
Ø  Escala de intervalo
Ø  Escala de razón

También es importante a la hora de hacer un estudio de saber los diferentes tipos de variables que existen, estos son:
Ø  Cualitativas:
1.      Nominales: existen dos tipos las dicotómicas y las policotómicas
2.      Ordinales: son las que establecen una orden
Ø  Cuantitativas:
1.      Discretas: son números finito de valores
2.      Continuas: son las que pueden valer cualquier número dentro de un rango

Después de toda esta teoría, representamos los datos en tablas de frecuencia en la que calculamos la frecuencia absoluta, frecuencia absoluta acumulada, frecuencia relativa y frecuencia relativa acumulada. Para realizar esta tabla de frecuencia calculamos los siguientes datos:
Ø  Recorrido: es la cantidad mayor menos la menor
Ø  Número de intervalos: es la raíz cuadrada de todos los valores
Ø  Amplitud: seria el recorrido/número de intervalos

Por último representamos gráficamente, eligiendo la gráfica que más nos convenga para nuestro estudio. Existen diferentes tipos en la que encontramos:
Ø  Reacciones locales más frecuentes
Ø  Histogramas y polígonos de frecuencia
Ø  Grafico de tronco y hojas
Ø  Gráfico de sectores
Ø  Gráficos para datos bidimensionales
Ø  Gráficos para datos multidimensionales: diagramas de estrellas

Para finalizar en el campus hay un ejercicio mandado en clase y corregido por el profesor. Mediante este ejercicio se entiende mejor este tema