Mendelssohn violin concerto in E Minor 1st m't- Violines y números

Música y Números

Shlomo Mintz Mendelssohn violin concerto in E Minor 1st m't


En Egipto la actividad estadística comenzó con la Distanía I. en el año 3050 a. C.. Los faraones ordenaban la ejecución de los censos ....
Continuamos .....

CONTRASTE DE HIPÓTESIS EN LOS DISEÑOS DE UNA MUESTRA

Vamos a recordar algunas fórmulas pues nos vendrán bien.

Sabemos que el intervalo de confianza de un parámetro poblacional es un rango de valores definido a partir del estadístico obtenido en la muestra y delimitado por sus límites inferior y superior. 


  • Este intervalo cubrirá el valor del parámetro poblacional con una probabilidad de uno menos alpha, denominada “nivel de confianza”.

En concreto, el intervalo de confianza de la media nos delimita entre qué dos valores se encontrará la media poblacional, con una probabilidad o nivel de confianza, previamente fijado. 
Un poco de humor ante tanto número:
https://www.uam.es/personal_pdi/ciencias/dfaraco/docencia/Bases/Intervalos%20de%20confianza.pdf

Ejemplo 2.1: En un experimento sobre atención, un psicólogo presenta durante 300 mseg un grupo de 16 letras del alfabeto (con una disposición de 4 filas y 4 columnas). Cada uno de los 12 sujetos que participan en el experimento debe verbalizar tantas letras como recuerde. El promedio de letras bien recordadas es de 7 y la desviación típica insesgada (cuasi-desviación típica) es de 1,3. Suponiendo que la distribución en la población es normal. ¿Entre qué límites se encontrará el verdadero número de palabras bien recordadas, con una probabilidad de 0,95?
Datos:
  • Sujetos =12; n = 12
  • Media= 7
  • Desviación típica insesgado (cuasidesviación típica)=1,3
  • Distribución normal
  • Probabilidad 0,95

Intervalo de confianza:
  • Construido en torno a la media muestral
  • Contendrá el valor del parámetro con una probabilidad de 0,95, 
  • Distribución muestral de la media
  • Distribución t de Student. 

En términos formales, para calcular este intervalo de confianza utilizamos la expresión del intervalo de confianza:
Fórmula del intervalo de confianza con la distribución t de Student.


Error máximo
Límites inferior y superior de la media poblacional
Estimación del error máximo sabiendo que no conocemos la varianza poblacional

Cómo se localiza el valor de la t de Student en la tabla t 
Ya sabemos el error máximo ahora lo sumamos y restamos a la media muestral
Todo junto, tabla t de Student, fórmula de estimación del intervalo de confianza y distribución t.


El intervalo de confianza obtenido es (6,174; 7,826). Podemos afirmar al 95% de confianza que la media poblacional (desconocida) para el número de letras recordadas se encuentra entre los valores 6,174 y 7,826. 


  • El intervalo de confianza de la media nos indica el conjunto de valores que podría tener la media poblacional con el nivel de confianza fijado previamente en el 95%. 

Por tanto, este intervalo se puede utilizar también para contrastar hipótesis sobre el valor que puede tomar este parámetro en la población.

Así, si formulamos las hipótesis:



Tenemos que comprobar si el intervalo de confianza cubre (se solapa) o no al valor de la media poblacional planteada en la hipótesis nula. Vemos que:

En caso negativo tomaremos la decisión de rechazar la  hipótesis nula con un nivel de significación, previamente fijado, que en este ejemplo es de un alpha de 0,05
En caso afirmativo, que si se incluyera la media poblacional entre los valores superior e inferior del intervalo de confianza, diremos que no tenemos evidencia suficiente para rechazar la hipótesis nula, con un nivel de significación de 0,05, y la mantendremos como provisionalmente verdadera hasta que no reunamos evidencia suficiente para rechazarla.

Rechazamos la hipótesis nula con un nivel de confianza del 95% (o con una probabilidad de 0,95).

Aunque el intervalo de confianza es un procedimiento para estimar parámetros poblacionales, puede también aplicarse para el contraste de hipótesis.
Sin embargo,  es más frecuente aplicar otro procedimiento alternativo y que suele utilizarse habitualmente en los informes de investigación publicados.
Este procedimiento alternativo consiste en
  • obtener el estadístico de contraste como una medida más exacta de la discrepancia entre el valor planteado en la hipótesis nula y el valor obtenido en la muestra como estimación del parámetro.

Esta medida de la discrepancia tiene una distribución de probabilidad conocida, por lo que suele ir acompañada de una probabilidad, a la que nos referiremos con el término de nivel crítico p, y que utilizaremos para tomar una decisión respecto a la hipótesis nula. 

Este nivel crítico p NO indica la probabilidad de que la sea verdadera, sino que nos informa sobre la probabilidad de obtener un resultado como el obtenido en la muestra, o más extremo, bajo el supuesto de que la hipótesis nula es verdadera.
Se trata, por tanto, de una probabilidad condicionada:
  • el caso de que sea cierta (condición) nos indica la probabilidad de obtener un valor del estadístico de contraste igual o más extremo que el obtenido efectivamente en nuestra muestra.

Esto se representa simbólicamente como: 
La hipótesis nula   no es más que una conjetura sobre un valor del parámetro poblacional y difícilmente será verdadera.
  • La finalidad de la investigación (y del contraste de hipótesis) es reunir información y evidencias suficientes para poder rechazarla.

Conocida la varianza poblacional
La inferencia estadística trata de estimar los parámetros poblacionales a partir de la información obtenida en la muestra.
Sin embargo, en la actividad de la investigación real es poco probable que se conozca la varianza poblacional ya que conocerla supone que podemos acceder a todos los datos de la población en cuyo caso también podríamos calcular su media y sobraría cualquier tipo de inferencia o contraste sobre su valor.
  • No obstante, existen casos en los que apoyados por los resultados de trabajos previos podemos asumir un determinado valor para la varianza poblacional como razonable.

Si además podemos asumir que la distribución poblacional es normal, o bien trabajamos con muestras con un conjunto igual o superior a 30, entonces la distribución muestral de la media es una distribución normal, y el estadístico de contraste para la media poblacional es:

En consecuencia, el estadístico Z cuantifica



Ejemplo 2.2: Por estudios previos conocemos que la población masculina de la tercera edad de una determinada Comunidad Autónoma, tiene un gasto medio en medicamentos de 215 euros/año con una desviación típica de 36 euros y queremos saber si la población femenina tiene el mismo gasto. Con tal finalidad analizamos el gasto medio de una muestra de 324 mujeres de la tercera edad de esa misma comunidad observando que la media es de 220 euros/año. Asumimos que esta variable se distribuye normalmente en la población, y que la varianza es la misma que en la población masculina. Fijando un nivel de confianza del 95%, contraste si el gasto de las mujeres es significativamente distinto de 215 euros/año.

Condiciones y supuestos
El estudio utiliza un diseño de una muestra de mujeres en la que la variable gasto medio se mide con escala de razón (variable cuantitativa) y sabemos que se distribuye normalmente en la población (aunque en este caso no haría falta este supuesto porque ).
  • Adicionalmente conocemos la desviación típica poblacional que es de 36 euros.

Se trata de un contraste paramétrico bilateral ya que, a priori, no sabemos si el gasto de las mujeres es mayor o menor de 220 euros/año.
  • Es decir, solo queremos contrastar que el gasto de las mujeres es diferente a esa cantidad, pero sin asumir que el sentido de esta diferencia sea positivo o negativo.

Por tanto, debemos contemplar la posibilidad de que pueda serlo en un sentido u otro.
En definitiva, los supuestos que necesitamos en este caso son:
  1. Distribución normal en la población, o bien  que el tamaño muestral es igual o superior a treinta
  2. Varianza poblacional conocida.
  3. Variable dependiente con un nivel de medida de intervalo o razón.

Formulación de las hipótesis
La hipótesis de investigación es que “las mujeres tienen un gasto medio en medicamentos distinto a los 215 euros/año”. 
  • Es decir, el investigador se ha planteado este estudio porque tiene razones para suponer que el gasto de medicamentos entre hombres y mujeres es distinto (v.g., sabemos que por término medio las mujeres disfrutan de una mayor longevidad que los hombres pero con peor salud) y por ello plantea esta hipótesis de investigación. 

Sin embargo, normalmente la hipótesis estadística nula que plantea debe ser la contraria a su hipótesis de investigación. 
Por ello, 
  1. la hipótesis nula debe plantearse en el sentido de que el gasto de las mujeres es de 215 euros/año, igual al de hombres.
  2. la hipótesis alternativa que el gasto medio de las mujeres es un valor distinto a 215 euros/año..


Partimos de que:
  1. provisionalmente, la hipótesis nula es verdadera, es decir, que las mujeres tienen un gasto de 215 euros/año
  2. y se trata de encontrar evidencia contra esta hipótesis a partir de la información proporcionada por una muestra representativa.

Inicialmente se observa que, efectivamente, las mujeres parece que tienen un gasto diferente, pero la pregunta es:
  • ¿la diferencia de 5 euros entre el valor observado en la muestra y el que planteamos en la hipótesis nula evidencia realmente un gasto distinto o son debidas a fluctuaciones aleatorias?

El rechazo de la hipótesis nula y la consiguiente aceptación de la hipótesis alternativa, se deberá a que la diferencia observada es “estadísticamente significativa.
  • es una diferencia real y evidente que no puede atribuirse al azar, a fluctuaciones aleatorias debidas al muestreo.

Estadístico de contraste
Para contrastar nuestra hipótesis vamos a calcular la discrepancia entre la evidencia observada de que el gasto medio es de 220 euros en la muestra de mujeres con el valor hipotéticamente establecido para la población general que plantea un gasto medio de 215 euros
Calcularemos:
  • El error típico de la media (es decir, la desviación típica de la distribución muestral de todas las medias posibles en muestras de tamaño: n=324):


Como la variable “gasto anual en medicamentos” se distribuye normalmente en la población y conocemos la desviación típica poblacional, la distribución muestral de la media es normal y el estadístico de contraste, como medida de esta discrepancia, es:

Regla de decisión
En este contraste bilateral y trabajando con un nivel de confianza del 95%, los valores críticos a partir de los cuales rechazamos la hipótesis nula son  más o menos 1,96


Estos valores representan la máxima diferencia, en un sentido o en otro, atribuible al azar que puede existir entre los datos empíricos observados en la muestra y los datos teóricos que planteamos en la hipótesis nula.
  •  En la muestra el valor observado es 220 euros/año y el valor hipotético planteado es de 215 euros/año.
  • Esta diferencia corresponde a 2,5 desviaciones típicas de la distribución muestral.


Conclusión
Con un nivel de confianza del 95%, el valor de este estadístico de contraste (Z = 2,5) sobrepasa la máxima diferencia que cabe esperar por simple azar que es de 1,96. 
  • Por tanto, debemos rechazar la hipótesis nula con un nivel de confianza del 95%. 

De otra forma:
  • al valor del estadístico de contraste obtenido de Z=2,5 le corresponde un nivel crítico p de 0,0124.
Se busca en la tabla de la distribución normal, la probabilidad de P(Z≤-2,5) que es 0,0062. 
  • Al tratarse de un contraste bilateral tenemos que sumar la P(Z≥2,5) = 0,0062. La suma de estas dos probabilidades es el nivel crítico p resultante.

Esta probabilidad indica que:
  • suponiendo verdadera la hipótesis de que las mujeres tienen un gasto medio de 215 euros/año, la probabilidad de observar un gasto medio de 220 euros/año o más extremo en una muestra de 324 mujeres es de 0,0124. 

Esta probabilidad es muy pequeña y menor que el nivel de significación “alfa” fijado en 0,05 lo que nos lleva a rechazar la hipótesis nula.

Interpretación
A la vista de los cálculos y de nuestra conclusión podemos decir que, con un nivel de confianza del 95%, el gasto de las mujeres difiere significativamente de 215 euros/año, que es el que realizan los hombres.

Desconocida la varianza poblacional
Ya se ha comentado que, en la práctica de la investigación social y de la Psicología, habitualmente se desconocen los parámetros poblacionales por lo que hay que estimarlos a partir de los estadísticos muestrales. Si se desconoce la varianza poblacional y en la población entonces la distribución muestral de la media es la distribución t de “Student”, siempre que podamos asumir que la distribución en la población es normal, o la muestra sea igual o mayor que treinta. En estas circunstancias el estadístico de contraste, como medida de la discrepancia, es:

Que se distribuye según la t de “Student” con n-1   grados de libertad y donde es el estimador de la desviación típica poblacional que se puede realizar a partir de la varianza o de la cuasi-varianza de la muestra.


Ejemplo 2.3: En un experimento sobre atención, un psicólogo presenta durante 300 mseg un grupo de 16  letras del alfabeto (con una disposición de 4 filas y 4 columnas). Cada uno de los 12 sujetos que participan en el experimento debe verbalizar tantas letras como recuerde. El promedio obtenido de letras bien recordadas es de 7 y la desviación típica insesgada (cuasi-desviación típica) de la muestra es de 1,3. Sabiendo que el recuerdo es una variable que se distribuye normalmente en la población y fijando el nivel de significación en 0,05, ¿Puede ser 8 la media de letras recordadas?
Condiciones y supuestos
Una muestra aleatoria en la que recogemos datos medidos al menos con escala de intervalo y sabemos que la variable se distribuye normalmente en la población con varianza desconocida. 
En general, las condiciones necesarias para aplicar este contraste son:
  • Variable dependiente con un nivel de medida de intervalo o razón.
  • Distribución normal en la población o tamaño de la muestra ugual o mayor que treinta
  • Varianza poblacional desconocida

Formulación de hipótesis
Se plantea un contraste bilateral.
Partimos de que la hipótesis nula es verdadera, es decir, que la media de palabras recordadas en este tipo de pruebas es de 8, y se trata de ver si los datos recogidos en una investigación bien diseñada y utilizando una muestra aleatoria arrojan evidencia a favor o en contra de la hipótesis nula.
El estadístico de contraste
Discrepancia entre el estimador (media de la muestra) y el valor del parámetro formulado en la hipótesis nula:
Al desconocer la varianza poblacional, hemos utilizado:


Regla de decisión
Con un nivel de confianza del 95% en un contraste bilateral, la máxima discrepancia que cabe esperar por simple azar entre el estimador y el valor planteado en la hipótesis nula es 2,201 (valores críticos). 
  • El valor del estadístico de contraste obtenido, supera este valor máximo lo que nos lleva a rechazar la hipótesis nula. 

El nivel crítico p asociado a este estadístico de contraste no aparece explícitamente en la tabla de la distribución t con 11 grados de libertad, pero podemos ver que es menor de 0,05 que resulta menor que el nivel de significación fijado en 0,05. La forma de buscar esta probabilidad en la tabla es la siguiente:

Con 11 gl, el valor 2,66 se encuentra entre 2,201 y 2,718, por tanto: 
  • 0,025>p>0,01  en una cola de la distribución y 0,05>p>0,02 utilizando las dos colas de la distribución.

Interpretación
A partir de la evidencia que proporcionan los datos de la investigación, debemos rechazar la hipótesis de que el número medio de palabras recordadas es de 8 con un nivel de confianza del 95%.

Contraste sobre la proporción poblacional
El contraste paramétrico de hipótesis para una proporción poblacional sigue la misma lógica y procedimiento que el seguido para el contraste de la media.
  • Sabemos que la proporción, o frecuencia relativa de aparición de una observación, 
  • es el cociente entre el número de veces que aparece la observación y el número total de observaciones.

La distribución muestral de la proporción es una distribución binomial y se aproxima a la normal cuando el tamaño de la muestra es grande n>25 o np>5

 En esta distribución muestral, la media y desviación típica (o error típico de la proporción) valen:

A partir de este supuesto y considerando, que la proporción observada en la muestra, p, es el estimador insesgado de la proporción poblacional,  el intervalo de confianza para la proporción poblacional a partir de la proporción observada en una muestra se obtiene sumando y restando a la proporción observada en la muestra el error máximo de estimación.


Intervalo de confianza para la proporción poblacional

Igual que razonábamos para el caso de la media, para contrastar una hipótesis referida a un valor hipotéticamente establecido como proporción poblacional , podemos determinar el intervalo de confianza y comprobar si el valor planteado en la hipótesis nula se encuentra incluido o no por el intervalo.
De forma similar se puede determinar un estadístico de contraste para cuantificar la discrepancia entre el valor observado en la muestra y el planteado en la hipótesis nula. Para el caso de la proporción y sabiendo que la distribución muestral del estadístico, p, se aproxima a la normal cuando las muestras son grandes (n>25 ó np>25), este estadístico es:

Si la hipótesis nula es falsa
  • esta discrepancia debe superar el valor crítico de la distribución muestral. 

De igual forma,
  • el nivel crítico p asociado a esta discrepancia debe ser menor que el nivel de significación, alpha, para poder rechazar la hipótesis nula. 

En caso contrario no tendremos evidencia suficiente para poder rechazar la hipótesis nula planteada.
  • No podemos rechazar la hipótesis nula.

Ejemplo 2.4: Un investigador de estudios de mercado cree que más del 20% de los adolescentes cambian de móvil cada año. Con esta finalidad realiza una encuesta sobre una muestra de 150 adolescentes observando que 39 de ellos afirman haber cambiado de móvil en el último año. Con un nivel de confianza del 99%, ¿podemos admitir la hipótesis del investigador?

Condiciones y supuestos
El estudio utiliza un diseño de una muestra de 150 adolescentes en la que la variable “cambiar de móvil”, es cualitativa y dicotómica ya que la respuesta solo puede ser “si” o “no”. Cuando contabilizamos en cada muestra el número de participantes que contestan sí o no, entonces esta variable tiene una distribución binomial que, en las condiciones de este ejemplo, se aproxima a la normal por tratarse de una muestra grande. El investigador quiere demostrar que el porcentaje de adolescentes que cambia de móvil cada año es superior al 20%.

Planteamiento de las hipótesis
Se trata de un contraste unilateral ya que:
  1. la hipótesis alternativa dice que 
  1. “la proporción supera el 0,20”,
  1. la hipótesis nula dice que
  1.  “la proporción es igual o no supera el 0,20”.

Por otra parte, observamos que a partir de los datos de la muestra el porcentaje de adolescentes que cambian de móvil es del 26% (o una proporción de 0,26).
La hipótesis nula formula
  • que la diferencia entre el valor observado en la muestra (26%) y el valor planteado para la proporción poblacional (20%) es nula.

En otras palabras, que esta diferencia se debe a las fluctuaciones aleatorias porque la proporción poblacional es del 20% o menor.
Estadístico de contraste
Calculamos la discrepancia entre la proporción muestral y pi la proporción poblacional medida en unidades de error típico de la proporción (asumiendo que la hipótesis nula   es cierta).

Siendo la proporción poblacional p=0.26 un valor de la distribución muestral de la proporción, el estadístico Z=1,84 indica que la distancia de p=0,26 a  es de 1,84 desviaciones típicas de la distribución muestral.

Regla de decisión
Con un nivel de confianza del 99% y en un contraste unilateral:
  •  el valor crítico para rechazar la hipótesis nula es 2,33 


De otra forma, el nivel crítico p asociado al estadístico de contraste obtenido es 0,0329 que es una probabilidad mayor que el nivel de significación establecido a priori .
  • Debe buscarse en las tablas de la distribución normal la probabilidad de obtener puntuaciones Z mayores que 1, 84.

Recuérdese que las tablas de la distribución normal proporcionan probabilidades por debajo de una puntuación Z determinada. 
  • Por tanto, este valor es P(Z≥1,84)=1-P(Z≤1,84)= 1-0,9671=0,0329.



Conclusión
Como el estadístico de contraste -o discrepancia encontrada entre los valores p=0,26 y  de 1,84 no supera la máxima diferencia que puede esperarse por simple azar (el valor crítico 2,33), no tenemos evidencia suficiente para rechazar la hipótesis nula
  • De otra forma, el nivel crítico p de 0,0329  es mayor que el nivel de significación por lo que no podemos rechazar la hipótesis nula.



Interpretación
A la luz de los datos obtenidos por el investigador, con un nivel de confianza del 99%, no hay evidencia suficiente para asumir que más del 20% de los adolescentes cambian de móvil cada año. 
  • los resultados si serían significativos si se adoptara un nivel de confianza del 95%.


Contraste de hipótesis sobre la varianza poblacional
Ya sabemos que la inferencia y el contraste de hipótesis sobre cualquier parámetro requieren conocer cómo es su distribución muestral. 

Si de una población donde la variable Y se distribuye normalmente con media  y varianza, se extraen todas las posibles muestras del mismo tipo y tamaño, y en cada muestra calculamos sus varianzas, entonces se puede demostrar que la variable aleatoria:
Sigue una distribución chi-cuadrado con n-1 grados de libertad.

De la misma forma, y por la relación existente entre varianza y cuasi-varianza, la expresión anterior también se puede expresar con referencia a la cuasi-varianza muestral, y sería:


Que también se distribuye según chi-cuadrado con n-1 grados de libertad.
Con referencia a este principio vimos que el intervalo de confianza para la varianza poblacional viene definido por sus límites inferior y superior, que se calculan mediante la expresión:


Estos límites delimitan los valores entre los que se encontrará la varianza poblacional, con una probabilidad de uno menos alpha.

Por otra parte, el estadístico de contraste o medida de la discrepancia entre el estimador y el parámetro es un cociente que recoge ambos valores, y adoptan las siguientes expresiones en función de que realizamos el cálculo con la varianza de la muestra o con la cuasi-varianza:
A partir de la varianza de la muestra:

A partir de la cuasi-varianza de la muestra:


Siendo  la desviación típica poblacional postulada en la hipótesis nula. Con esta medida de la discrepancia, y a partir de la varianza obtenida en una muestra, comprobaremos la hipótesis acerca de la varianza poblacional de una variable normalmente distribuida. 


Ejemplo 2.5: El manual de un test para detectar niños con problemas de aprendizaje afirma que las puntuaciones del test se distribuyen normalmente y que la varianza de las puntuaciones disminuye con la edad, tomando el valor de 18,1 para los niños promedio de 5 años. Un psicólogo infantil considera que actualmente esta variabilidad ha aumentado y para probarlo, utiliza una muestra de 25 niños de 5 años a los que aplica el test obteniendo una desviación típica sesgada de 4,9 puntos. Trabajando con un nivel de significación de 0,01, contraste la hipótesis del investigador.

Condiciones y supuestos
El estudio utiliza un diseño de una muestra aleatoria de 25 niños a los que se les pasa un test.
Asumimos que estas puntuaciones se miden, al menos en una escala de intervalo, y se distribuyen normalmente en la población con varianza 18,1, tal como indica el baremo del test.
En la muestra se obtiene una desviación típica sesgada de 4,9.
En general, las condiciones que tienen que cumplirse son:
- Variable dependiente con un nivel de medida de intervalo o razón.
- Distribución normal en la población, o bien n ≥30.

Formulación de hipótesis
El investigador quiere probar que la varianza del test en los niños de 5 años es ahora mayor de 18,1 como afirma el manual.
  • Por consiguiente, concreta una hipótesis nula contraria a la hipótesis que él desea probar de tal forma que si consigue rechazarla con los datos de la investigación, lo está haciendo con un elevado grado de confianza.

Se trata por tanto de un contraste unilateral derecho.

Estadístico de contraste
Conociendo la desviación típica sesgada de la muestra, Sn, el estadístico de contraste, es:

Regla de decisión
En la distribución chi-cuadrado con n-1 = 25-1= 24 grados de libertad y un nivel de confianza del 99%, el valor crítico para rechazar la hipótesis nula es 42,98.


Conclusión
Como el estadístico de contraste obtenido no supera el valor crítico, la evidencia aportada por nuestra muestra de estudio no resulta suficiente para rechazar la hipótesis nula. Igualmente, siendo el estadístico de contraste 33,16 buscamos en la distribución chi-cuadrado con 24 gl, el valor más próximo a éste, que es 33,20 y que se corresponde con un nivel crítico p de 0,10 que es mayor que el nivel de significación fijado en el 0,01. Por tanto no tenemos evidencia suficiente para rechazar la hipótesis nula.

Interpretación
No tenemos evidencia suficiente para afirmar que la variabilidad de las puntuaciones obtenidas en el test para detectar problemas de aprendizaje en los niños de 5 es ahora mayor que la que figura en el manual del test.


Cálculo de la Potencia del contraste
Los errores que se pueden cometer en todo contraste de hipótesis:
  1. Rechazar una hipótesis nula que es verdadera (error tipo I o alpha)
  2. No rechazar una hipótesis nula que es falsa (error tipo II o  betha)

La potencia de un contraste estadístico es el complementario del error tipo II (uno menos betha).
Un aspecto importante de la investigación es conocer el valor que adopta la potencia ya que representa la probabilidad de poder detectar el efecto de interés que estamos buscando.

Procedimiento para calcular la potencia de un contraste paramétrico referido a la media y a la proporción poblacional en el diseño de una muestra. 

Ejemplo 2.6: Supongamos que la duración media de una lámpara de bajo consumo de una determinada marca es de 1000 horas con un desviación típica de 220 horas. La empresa que las fabrica introduce un nuevo proceso de fabricación y afirma que la vida media de las nuevas es superior a las antiguas. Vamos a suponer que como hipótesis alternativa única se plantea un promedio de duración de 1060 horas. Tomando un nivel de significación del 5%, determinar el error tipo II y la potencia de la prueba, si el estudio se realizara con una muestra de 100 lámparas.



Para calcular la potencia del contraste, se han de plantear dos hipótesis en las que sólo figura el signo “igual”. 
En este ejemplo, las hipótesis son:


Una vez establecido en la distribución de la hipótesis nula el error tipo I alpha igual a 0,05 y que se corresponde con un valor crítico de Z =1,64, se trata de determinar a qué valor corresponde en la distribución muestral de las duraciones medias de las lámparas antiguas.
El resultado se obtiene de:


Por tanto, una duración media de más de 1036,1 horas en una muestra de 100 lámparas nos conduciría a rechazar la hipótesis nula

Para determinar el error tipo II (beta), debemos saber la puntuación típica que corresponde a esta media muestral pero referido a la media de la distribución de la hipótesis alternativa, es decir, al valor planteado como hipótesis alternativa establecido en:
En la distribución de la hipótesis alternativa, la probabilidad de obtener un valor de Z igual o menor de -1,09 es 0,1379, que es la probabilidad de cometer un error tipo II.

  • Y su complementario 1-0,1379=0,8621 es la potencia del contraste o probabilidad de que los resultados de la investigación permitan rechazar la hipótesis nula cuando es realmente falsa.


Resumiendo: si se rechazara la hipótesis nula de que el promedio de duración es de 1000 horas, pero en realidad esta hipótesis fuera verdadera (es decir, el nuevo proceso de fabricación no alarga la duración) entonces estaríamos cometiendo un error (tipo I) del 5%.
Por otro lado, si se acepta la hipótesis nula, pero la alternativa es la verdadera, la probabilidad de cometer este error (tipo II) es del 13,79%.
·         Por tanto, la potencia de la prueba es del 86,21% (1 – 0,1379 = 0,8621).


Ejemplo 2.7. Para contrastar la presunta “habilidad detectora” de la dama se preparan 16 tazas de té, siguiendo ambos procedimientos: en ocho se vierte primero la leche, y en otros ocho se vierte primero la infusión. La presentación se realiza al azar y la dama sólo tiene que decir cuál ha sido el procedimiento (primero la leche y después el té, o a la inversa). Supongamos, por ejemplo, que la dama acierta en 12 ocasiones. Vamos a utilizar este dato como hipótesis alternativa, para calcular la potencia de un contraste unilateral derecho con un nivel de significación de 0,05, es decir, veremos qué sucede bajo la hipótesis nula de que la señora no puede realizar esta discriminación pi igual 0,5 en relación a lo que sucedería si la señora puede, efectivamente, realizarla con una probabilidad superior al azar que, en este caso, hemos supuesto igual a 0,75.
Concluimos que la dama no tiene esa habilidad si su probabilidad de acertar en n=16 ensayos es de aproximadamente 8 ocasiones (el 50% de los casos).
·         ¿A partir de qué número de aciertos procederíamos a rechazar la hipótesis nula con un nivel de significación de 0,05?
Consultamos en la tabla de la distribución binomial para n=16 y p=0,5 el número de aciertos superiores a 8, el 50%, y cuya suma sea al menos igual o menor que el alfa fijado. 
Vemos que sólo rechazaríamos la hipótesis nula si la dama acierta en 12 o más, ocasiones, ya que la suma de estas probabilidades vale:


Sabiendo que la potencia corresponde a la probabilidad de rechazar la hipótesis nula cuando es falsa, es decir, cuando la dama sí tiene esa habilidad y que esta decisión se toma cuando es capaz de acertar en 12 o más ocasiones, la potencia del contraste se calcula procediendo de la siguiente forma:


Se calcula la probabilidad de acertar en 12 o más ocasiones cuando la dama sí tiene esa habilidad que, de acuerdo con la hipótesis alternativa hemos fijado en p=0,754.
La tabla de la distribución binomial no refleja el valor p=0,75 pero la forma de razonar es la siguiente:
·         Si la probabilidad de acertar es 0,75, la de fallar es 0,25.
Por tanto, la probabilidad de tener 12 aciertos (con p=0,75) en N=16 ensayos es la misma que la probabilidad de tener 4 fallos (con p=0,25) en esos mismos 16 ensayos.
Y esta probabilidad de p=0,25 sí que figura en la tabla binomial.
Por consiguiente, acudimos a la tabla de la distribución binomial con n=16, p=0,75 (véase la Fig 2.12) y sumamos las probabilidades de:


Que para calcular la potencia de un contraste se necesita que la hipótesis nula y la alternativa sean simples, es decir, que establezcan un único valor como parámetro poblacional en vez de un rango de valores como hacíamos en el contraste de hipótesis. 

En los ejemplos que se ha desarrollado, y en el caso concreto de la media, los cálculos se han realizado para los valores:


Cuando la hipótesis alternativa es compuesta, es decir, plantea más de un valor como media poblacional:


La potencia del contraste, o probabilidad de rechazar una hipótesis nula que en realidad es falsa, varía en función de dos factores:
  1. la distancia entre el valor de la hipótesis nula
  2. la hipótesis alternativa, y el tamaño muestral.

De este modo para un mismo valor del error tipo I, se pueden confeccionar lo que se denominan curvas de potencia, las cuales permiten fácilmente localizar la potencia de un contraste según sea el valor que puede tomar H1 y el tamaño de la muestra.


Se representan diversas curvas de potencia para los datos del ejemplo, de acuerdo a diferentes tamaños muestrales y a diferentes valores de H1.
Se puede ver en la Figura que para y un tamaño muestral de 100, la potencia, efectivamente, está por encima de 0,85 en el gráfico (el valor exacto es 0,8621).

Vamos a recordar el procedimiento para la distribución binomial:


DISTRIBUCIÓN BINOMIAL  B (n, p)
Definición:
  • Probabilidad de obtener en N ensayos (tipo Bernouilli) un número determinado (x) de éxitos. 

La Distribución Binomial depende de los valores que tome:
  1. N (número de ensayos) 
  2. p (probabilidad de éxito)

Características:
_ Se trata de N ensayos independientes tipo Bernouilli
_ Cada ensayo tiene dos posibles resultados que se representan por 0 y 1.

_ La probabilidad p, permanece constante en cada ensayo.




Función de Probabilidad


La variable aleatoria es “nº de éxitos en N ensayos” (N es fijo, y “x” es variable). 
  • La función de probabilidad nos permite calcular la probabilidad de que en N ensayos aparezcan “x” éxitos.


El número combinatorio “n sobre x” es igual a: 




Además de la fórmula expuesta, las probabilidades pueden obtenerse con la Tabla de la binomial  para n ≤ 20 y algunos valores de p ≤ 0’50.
  • Permite determinar la probabilidad de que en N ensayos independientes aparezca x veces el suceso A (suceso favorable o éxito)

Función de Distribución 



Ejemplos





Otro ejemplo:








Nivel crítico p y errores en los contrastes
En las pruebas clásicas de contrastes que hemos explicado, es preciso establecer el error tipo I (nivel de significación ) antes de realizar el contraste, de modo que este valor no influya en la decisión final que se toma. 
  • Este error, el error tipo I (nivel de significación alpha) es el máximo riesgo que estamos dispuestos a admitir al tomar una decisión respecto a la hipótesis nula.

No obstante, establecer previamente un nivel de error tipo I, presenta algún inconveniente que puede ser decisivo en la decisión que se tome.
  • La decisión que se tome sobre la hipótesis nula puede depender del nivel de significación que se establezca, y se puede dar la circunstancia de que sea rechazada con un nivel del 5% y no serlo con el 1%.

Si bien es cierto que hay un acuerdo en el ámbito científico acerca de que “alpha” debe ser un valor pequeño (aunque el valor concreto depende mucho del área de investigación, siendo usual en Psicología el 0,05, en otros ámbitos los editores de las revistas científicas llegan a pedir valores de  tan pequeños como 0,01 o inferiores), es más difícil determinar cuán pequeño debe ser, ya que en parte dependerá de factores, alguno de los cuales, como señalan Wonnacott y Wonnacott (1999), pueden ser simplemente las creencias previas sobre los procesos de toma de decisión que se han realizado anteriormente sobre la misma o parecida cuestión, y también sobre las consecuencias que se deriven al tomar una decisión errónea, y ésta se puede tomar tanto: 
  1. rechazando una hipótesis nula que es verdadera (error tipo I)
  2. como aceptando una hipótesis nula que es falsa (error tipo II).

Además, es preciso tener en cuenta que una disminución del primero alpha, provoca un aumento automático del segundo betha.
Debido, pues, a estos inconvenientes, en el análisis de datos moderno hace ya un tiempo que se ha introducido el denominado nivel crítico p, que se define como:
  •  el nivel de significación más pequeño al que una hipótesis nula puede ser rechazada con la medida de discrepancia obtenida. 

Es decir, el nivel crítico p es la probabilidad asociada a la medida de discrepancia que hemos obtenido a partir de la información obtenida en nuestra muestra y cuantifica la probabilidad de obtener unos datos como los obtenidos en la investigación o más extremos bajo el supuesto de que la hipótesis nula es verdadera.
  • En los contrastes bilaterales de parámetros (o “two tail” en inglés que, literalmente, significa “dos colas” haciendo referencia a los dos extremos de la distribución de probabilidad correspondiente) de una distribución muestral simétrica (v.g. la distribución normal, la t de Student o la binomial cuando p=0,5), el valor del nivel crítico p se obtiene multiplicando por dos la probabilidad asociada a los valores mayores o menores (según en qué parte de la cola caiga el valor del estadístico de contraste como medida de discrepancia).

Al utilizar como criterio para la decisión el nivel crítico p no hay que establecer previamente un nivel de significación, y ésta se toma en función del valor de p. 
  • Si p es pequeño se rechazará , y si es grande se aceptará .

Obviamente, como señalan Pardo y San Martin (1994), persiste el problema de determinar qué es grande y qué pequeño.
  • Entonces para tomar una decisión hay que recurrir al criterio del grado de cercanía o alejamiento de p a, por ejemplo, el valor 0,05.

·         Si es claramente inferior, se rechaza , si es claramente superior se acepta , y si está en torno a ese valor, se vuelve a tomar nueva evidencia muestral y se repite el contraste.

No obstante, el empleo del nivel crítico p como criterio de decisión tampoco está exento de problemas, ya que, al igual que las medidas de discrepancia observada entre y la evidencia muestral, depende del tamaño de la muestra utilizada, y es por ello, que, desde la década de los ochenta del siglo pasado se han explorado nuevas medidas, independientes del tamaño muestral.


Comentarios

Entradas populares