La construcción de modelos probabilísticos presentada en el capítulo anterior es el caso típico de razonamiento deductivo: se establecen hipótesis respecto al mecanismo generador de los datos y con ellas se deducen las probabilidades de los valores posibles. La Inferencia Estadística realiza el proceso inverso: dadas las frecuencias observadas de una variable, inferir el modelo probabilístico que ha generado los datos. Para ello debemos calcular los parámetros que definen las distintas distribuciones, pero esto requiere conocer los valores de la variable que estemos estudiando para todos y cada uno de los elementos de la población (conjunto de homogéneo de elementos en los que se estudia una variable dada), lo cual no es posible por varias razones:
Imposibilidad física de acceder a toda la población, por ejemplo para calcular la probabilidad de cara de una moneda requiere su lanzamiento infinitas veces.
Imposibilidad económica de acceder a toda la población, p. e. no se podrían pagar los análisis para determinar el nivel medio de colesterol en un país.
Imposibilidad por destrucción del individuo, p. e. el estudio de la duración media de un modelo de marcapasos implicaría esperar la destrucción de toda la producción.
Sea cual sea el caso, con poblaciones de un tamaño N suficientemente grande la única alternativa factible es su determinación aproximada a través de una muestra (subconjunto representativo de la población).
La Inferencia Estadística es el conjunto de métodos que permiten obtener una conclusión a cerca de una población a través de la información proporcionada por una muestra, un procedimiento inductivo que va de lo particular (muestra) a lo general (población). Cuando la información deseada de la población es el valor de alguno de sus parámetros, la técnica a utilizar es la estimación.
La estimación puede ser de dos tipos. Mediante estimación puntual se persigue dar un único valor aproximado del parámetro desconocido, quedando sin especificar cómo de buena es tal aproximación. Mediante la estimación por intervalo se persigue dar un intervalo de valores, alguno de los cuales es el verdadero valor del parámetro desconocido, con una cierta seguridad de que la afirmación sea cierta. En el primer caso se afirmaría " la proporción de varones en España es aproximadamente el 49%", en el segundo, "la proporción de varones en España es algún número entre el 48% y el 50% caso con seguridad". El valor 49% se dice que es una estimación puntual de p(la verdadera proporción de varones en España); el intervalo (48%-50%) se dice que es un intervalo de confianza para p.
Ya que el conocimiento de la población lo va a proporcionar la muestra, es lógico que la misma no se deba tomar de un modo arbitrario, sino que debe representar adecuadamente a toda la población. Si la muestra no es representativa, nada de lo que se concluya a partir de ella será válido para la población de interés, sino que lo será para la subpoblación que representa. Así, para determinar el nivel medio de colesterol de todos los españoles, la muestra no puede tomarse sólo de personas de edad avanzada, ni sólo de individuos que aparezcan en la guía telefónica, ni sólo de individuos que acuden a un hospital, etc. Para que la muestra sea representativa de la población, es preciso que sea extraída de ella de modo que:
1º Todos los individuos de la población tengan la misma probabilidad de ser seleccionados e incluidos en la muestra (igual probabilidad)
2º La selección de un individuo no influya para nada en la selección o no de otro individuo cualquiera (independencia).
Cuando ello se verifica diremos que la muestra es una muestra aleatoria. La obtención de una muestra aleatoria requiere en primer lugar la identificación completa de la población en estudio; a continuación se numeran los individuos de la población y, por medios similares a un sorteo, se extrae al azar un conjunto de números, los individuos correspondientes a ellos forman una muestra aleatoria de tal población. Para hacer esta selección podemos utilizar también las tablas de números aleatorios.
Supongamos que se desea conocer la estatura media µ de todos los españoles.
Si tomamos una muestra de n = 100 españoles ¿qué valor elegiremos como
el más aproximado, presuntamente, a µ? Parece razonable que si 170 cm es
la estatura media de dicha muestra, debemos afirmar que µ=170 es inexacto
(pues la media muestral no coincide en general con µ ), convengamos en
indicar lo anterior así: µ 1 = 170, indicando el subíndice en
el parámetro que la cantidad es una estimación puntual del mismo. De un
modo general, una estimación puntual es un valor que se propone para el
parámetro desconocido, valor que se obtiene determinando en la muestra
el parámetro muestral paralelo al poblacional. Así, una estimación puntual
para la media µ de una v.a es la media muestral µ1=
,
para la varianza
de una v.a.
es la varianza muestral
=s2
ó para la proporción de una Binomial p es la proporción muestral p1.
Los estimadores puntuales sólo dan una idea aproximada del valor del parámetro a estimar, no conociéndose cómo de buena es la aproximación; ellos simplemente proporcionan el mejor número que pueda proponerse como valor del parámetro. Por ejemplo decir que µ1=170 cm significa que la estatura media de todos los españoles es aproximadamente 170 cm, pero el término "aproximado" no se sabe si alude a 1 cm arriba o abajo, o a 1 metro arriba o abajo. De hecho no puede esperarse gran cosa de un estimador.
Los problemas anteriores eran de esperar pues realmente es demasiado
pedir que a partir de una muestra pueda calcularse el valor del parámetro
tan exactamente como si se tomara toda la población. En realidad lo que
importa es que el valor de la media muestral
,por
ejemplo, no esté demasiado alejado de µ, y esto se comprueba con los intervalos
de confianza.
El objetivo es realizar afirmaciones del tipo: "la estatura media
( de los españoles no sé exactamente cuanto es, pero es casi seguro alguno
de los valores
,
con una cierta seguridad. La seguridad alude a la probabilidad de que la
afirmación sea cierta, con lo que el problema de obtener intervalos de
confianza para un parámetro
radica
en encontrar dos valores a y b tales que
,donde
(a , b) es el intervalo de confianza para
,
1 -
el nivel de confianza del
intervalo (usualmente próximo a 1) y
el nivel de error del intervalo (usualmente próximo a 0).
Intervalo de Confianza para una media
Supongamos una v. a. x con distribución N(µ ;
)
en donde la media µ es desconocida y la varianza
,
la suponemos por ahora conocida. Con el fin de estimar µ (colesterol medio,
nivel medio de glucosa, altura media de los varones mayores de edad, etc.)
se va a tomar una muestra aleatoria x1
,x2 ,...,xn
que proporciona una media que será una estimación puntual de µ. Aceptaremos
sin demostrarlo que:
(4.1)
con probabilidad del 95%, y así tenemos el intervalo buscado. Esta expresión
debe interpretarse adecuadamente. Ella indica que el 95% de las muestras
de tamaño n tendrán una media que, al sustituirla en la expresión, da lugar
a un intervalo que contiene en su interior a µ, en tanto que otro 5% no
sucederá esto. Nótese que se ha dicho que "el intervalo contiene en
su interior a µ, y no que "µ cae en el interior del intervalo";
la primera afirmación es cierta pues los extremos del intervalo son v.
a. por depender de
que también lo es; la segunda afirmación es falsa pues µ es un parámetro
(valor fijo aunque desconocido), no una v.a., no pudiendo variar. Así pues
debe decirse que hay una probabilidad del 95% de que el intervalo contenga
al parámetro.
En el ejemplo de la estatura media µ de los españoles, si se tiene que
, dado que el
95% de los intervalos contienen a µ, diremos que "tenemos la esperanza
de que este sea uno de los 95 intervalos de cada 100 que dejan en su interior
a µ, esperando no haber tenido la mala suerte de que el intervalo obtenido
sea uno de los 5 de cada 100 intervalos erróneos". Más abreviadamente,
diremos que µ está entre (169 ; 172) "con una confianza del 95%";
de ahí el nombre de intervalo de confianza. Conviene notar que ahora se
habla de "confianza" , y no de "probabilidad" como
antes, pues los extremos del intervalo ya son números fijos y µ o está
o no está dentro.
El intervalo (4.1) podemos expresarlo abreviadamente como
,
debiéndose el valor 1,96 al 5% de error tomado, es decir z0,05
= 1,96 en la tabla de la Distribución Normal.. De un modo general, si en
lugar de una confianza del 95% tomamos una de (1 -
),
(o en lugar de un error del 5% se toma uno de
),
entonces el intervalo será:
(4.2)
con
,en la
tabla de la D. N..
Ejemplo 1: Para determinar la estatura media de los varones adultos
españoles, se tomó una muestra al azar de 10 de ellos en la que se obtuvo
los valores 162, 176, 169, 165, 171, 169, 172, 168, 167 y 175 cm. Determinar
el valor de la estatura media, suponiendo que
=
16.
Un estimador puntual para la estatura media µ es la
que
en este caso es 169,4. Para dar un intervalo de confianza hemos de suponer
que es una v. a. normal. Como n=10,
=
169,4 y
= 4, para el intervalo
de confianza al 95%, la expresión (4.1) indica que ![]()
Así pues, esperamos que este intervalo sea un de los 95 de cada 100 que contienen a µ, o, más brevemente, la estatura media de los españoles varones adultos es algún valor entre 166,92 cm y 171,88 cm con una confianza del 95%.
Es evidente que un intervalo de confianza para un
dado será tanto más preciso cuanto más estrecho sea. Así, será preferible
afirmar que la estatura media está entre 170 y 171 cm al 95% de confianza,
que afirmar que la estatura está entre 165 y 175 con igual confianza. Como
la longitud del intervalo es dos veces su radio, el mismo puede disminuirse
aumentando el valor del tamaño de la muestra (pues n aparece dividiendo).
Ello responde a una regla que será general en toda la Estadística: cuanto
más grande sea una muestra, más información da y más precisas son las conclusiones
que se obtengan a partir de ella.
La otra forma de estrechar el intervalo es disminuyendo la confianza
( es decir, aumentando el error). Así z0,05
= 1,96, pero z0,15 = 1,44, que por ser
menor da un intervalo más estrecho. Sin embargo ahora la anchura del intervalo
ha disminuido a costa de la seguridad (confianza) del mismo, y ello no
es deseable. Lo usual es considerar errores
del 5%, aunque en ocasiones se utilizan otros como los del 1% o del 10%.
Nos podemos preguntar ¿se puede dar un intervalo al 100% de confianza?;
la respuesta es que esto exigiría una z0,00
=
, con lo que el intervalo sería
( -
,
)
que en el caso del ejemplo daría lugar a la afirmación "la estatura
media de los españoles está entre -
y
", que es absolutamente
cierta y absolutamente inútil también.
Hasta este momento hemos supuesto que la varianza de la población era
conocida, lo que no suele ser real. Cuando
es desconocida, lo lógico es sustituirla por su estimador s, obteniendo
así que
.Sin
embargo s es una v. a. y unas veces será más grande que
y otras más pequeña, lo que da una cierta imprecisión al intervalo. Conviene
ensanchar un poco el intervalo para que la confianza del mismo permanezca.
El modo de hacerlo consiste en aumentar el valor de
,
localizándolo en una tabla distinta. Ahora tendremos:
(4.3)
con t
en
la tabla de la distribución t de Student con (n-1) grados de libertad,
tabla que presenta los valores de t
en un formato similar al de la distribución normal, excepto en que la nueva
variable depende de un nuevo parámetro llamado grados de libertad.
Ejemplo 2: Resolver el ejemplo anterior sin suponer conocido el valor
de
.
De antes se conoce que n =10 y = 169,4. Ahora es preciso calcular la varianza muestral por la fórmula correspondiente lo que da s = 4,3. Como t0,05 (9 g.l.)= 2,262 en la tabla , entonces es el intervalo de confianza para µ al 95% de confianza.
La interpretación del nuevo intervalo es idéntica del que resultaba cuando la varianza era conocida, la única diferencia es que ahora no sólo el centro del intervalo es variable, sino que también lo es su radio.
En la fase de diseño de una experiencia suele plantearse cuál debe ser
el tamaño mínimo de la muestra para lograr una precisión dada en la estimación
de la media. Así, ¿cuántos españoles debo tomar para determinar su estatura
media con una precisión de 1 cm? Con ello se quiere indicar que si concluyo
que debo tomar n = 100 españoles y tomo una muestra de 100 de ellos, la
estatura media en la muestra (
)
distará de la media de la población (µ) en menos de 1 cm (en general d
cm), es decir que
con una cierta confianza. Otro modo de decir lo mismo es afirmar que si
es
=170 en la
muestra de 100 que se ha decidido como idónea, entonces sé que ( va a estar
entre 169 y 171 ( es decir entre
-d
y
+d). . Como
además se tiene
habrá de ser
,
y despejando n queda:
(4.4)
La expresión (4.4) tiene la desventaja de depender de
,
valor desconocido usualmente.
Tenemos varias alternativas para resolver este inconveniente:
1º )Sustituir
por el valor
máximo que se piense pueda tomar, según nuestras experiencias previas.
En el peor de los casos n será mayor de lo necesario. Quedaría:
(4.5)
2º) Tomar una muestra piloto de tamaño n´ pequeño, obtener en ella su
varianza
y entonces:
(4.6)
con t
en
la Tabla de la t de Student con n´-1 g.l.
3º) Enunciar la precisión en términos de fracciones de
.
Así, si deseamos ocurra que
con una confianza 1-
, cambiando
d2 por K2
en la (4.4) queda:
(4.7)
Ejemplo 3: Determinar el tamaño de muestra requerido para obtener la
estatura media de la población, con una precisión de 1 cm, si la varianza
poblacional es
= 25.
Tomando n=97 individuos, según la fórmula (4.4) la media de ellos estará
en el intervalo x
1al
95% de confianza. El redondeo se hace siempre por exceso pasa asegurar
la precisión.
Ejemplo 4: Determinar el tamaño de la muestra para obtener la estatura
media de una población con una precisión de 0,3
.
Ahora n=43, según la expresión (4.7),y, entonces la media está en ![]()
0,3![]()
Ejemplo 5: Con datos del Ejemplo 1 como muestra piloto, determinar n con precisión d=4cm
Ahora n´=10 y
.
Como 6 < 10 = n´, ello indica que con la muestra piloto nos basta para
la precisión deseada.
Ejemplo 6: Igual que el anterior pero exigiendo un d = 1 cm.
De nuevo n´= 10 y ahora
,
con lo que son precisos 85 individuos más que antes.
Intervalo de confianza para una proporción.
Vamos a empezar este apartado planteando un ejemplo.
Ejemplo 7: Si de 100 personas encuestadas, 30 se manifiestan a favor de un determinado partido político, ¿qué porcentaje de votos obtendría dicho partido de celebrarse en ese momento las elecciones? (confianza del 95%)
Obsérvese que x="nº de individuos, entre los 100 encuestados, que votarán al candidato" es una Binomial de parámetro n = 100 y p desconocido. El objetivo es determinar p teniendo en cuenta que x sigue una B(n,p), con n = 100 y x = 30 el valor obtenido experimentalmente de esa Binomial. Conviene expresar que todo lo que sigue contiene las fórmulas para p expresadas en tantos por uno, no en %.
La distribución Binomial, bajo ciertas circunstancias, se aproxima a una Normal. Los resultados siguientes se basan en esta aproximación. La expresión más tradicional del intervalo de confianza para una proporción p es la siguiente:
(4.8)
Esta expresión es válida si x > 20 y n-x >20.Tiene la ventaja de ser cómoda, pero a cambio es más imprecisa y tiene unas condiciones de validez más exigentes. La siguiente expresión es más exacta (pero más incómoda) y para su validez basta con que sean x > 5 y n - x > 5:
(4.9)
Ejemplo 7(continuación):
Aquí n = 100 y x = 30. Como x > 20 y n - x = 70 > 20, se puede utilizar (4.8):
, es decir
que piensan votar al partido entre un 20,52% y un 39,48% de la población.
Si usamos la (4.9) que es más exacta:
= (0,2145
; 0,4011)
para obtener este intervalo, se han considerado en primer lugar todos los signos (-) y después todos los signos (+).
Ejemplo 8: En relación con el ejemplo anterior, el partido político desea realizar una encuesta con el fin de determinar el porcentaje de votantes con una precisión del 3% ¿A cuántos individuos hay que encuestar (confianza del 95%).
El objetivo es decidir a qué número n de individuos hay que preguntar para que el porcentaje de votos favorables entre ellos difiera del porcentaje nacional en menos de d = 3%.
Esto garantiza que, tomada la muestra, si el porcentaje en ella es de
30% el porcentaje nacional será 27% < p < 33%, es decir que p está
en 30%
3% con
una confianza del 95%
De un modo general, si d es la precisión (máxima diferencia a admitir entre la estimación y p), hay una fórmula paralela a la (4.4):
(4.10)
La idea es tener garantías de que tomando una muestra de tamaño n, la
proporción poblacional p de individuos que verifican la característica
es, con una confianza de (1 -
),
alguno de los valores entre p1
d, con p1 la proporción en la muestra y
d un número dado de antemano.
El problema, una vez más, es que la expresión anterior depende de p ( que es desconocido). Puede demostrarse que pq es tanto mayor cuanto más se aproxime p a 0,5 alcanzando el máximo cuando p = 0,5, o sea,
(4.11).
Como sucede en todas las fórmulas de tamaño de muestra, n es tanto más grande cuanto mayor sea la confianza del intervalo y cuanto menor sea d (cuanta mayor precisión se desee). La (4.11) aporta una novedad: el tamaño de la muestra es más grande cuanto más se aproxime p al valor 0,5, disminuyendo cuando nos enfrentemos a caracteres raros (p pequeño) o muy frecuentes (p grande). Igual sucede con la anchura de los intervalos de confianza para p: son más anchos cuanto más se acerque p a 0,5. Volviendo al problema del desconocimiento de p, la aplicación de (4.10) puede hacerse de dos modos:
1º) Si no se tiene idea alguna acerca de su posible valor, sustituir pq por 1/4, quedando:
(4.12)
2º) Si se tiene alguna información, sustituir p por el valor más cercano posible ( y compatible con la información) a 0,5.
Ejemplo 8 (continuación):
Si el partido es nuevo y no se tiene idea acerca del porcentaje posible
de votos favorables, sería
.
Si el partido sabe que nunca en elecciones anteriores ha obtenido más
del 30% de los votos y le sorprendería que esto no siguiera siendo así,
sería ![]()