·
CALCULO
DE LA DISTRIBUCON T STUDENT.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos
medias muéstrales y para la construcción del intervalo de confianza para la diferencia entre las medias
de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser
estimada a partir de los datos de una muestra.
La Distribución t de Student,
tiene por función de densidad:
Donde el parámetro n de
,
se denomina grados de libertad de la distribución.
La distribución t de
Student existe para todos los valores de x reales, y es simétrica respecto al eje y.
La distribución de probabilidad de esta función para valores menores de un xdado, que representamos por
Donde:
Para el cálculo de esta integral existen
distintos tipos de Tabla de
distribución t de Student, en la que para distintos valores de n y de x se puede buscar su probabilidad acumulada p, veamos una de esas tablas.
·
TABLAS
En esta
tabla hay dos entradas, en la fila superior están los valores de n para los que
se ha calculado la probabilidad, en la columna de la izquierda los de x, para x
igual o mayor que cero, en incrementos de 0,05, para cada valor de n y de la x
correspondiente tenemos la probabilidad acumulada, expresada con tres cifras
decimales.
Tabla distribución t de Student
|
x \ n
|
1
|
2
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
15
|
20
|
25
|
30
|
40
|
50
|
0,00
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,05
|
0,516
|
0,518
|
0,519
|
0,519
|
0,519
|
0,519
|
0,519
|
0,519
|
0,519
|
0,520
|
0,520
|
0,520
|
0,520
|
0,520
|
0,520
|
0,10
|
0,532
|
0,535
|
0,537
|
0,538
|
0,538
|
0,538
|
0,539
|
0,539
|
0,539
|
0,539
|
0,539
|
0,539
|
0,539
|
0,540
|
0,540
|
0,15
|
0,547
|
0,553
|
0,556
|
0,557
|
0,557
|
0,558
|
0,558
|
0,558
|
0,558
|
0,559
|
0,559
|
0,559
|
0,559
|
0,559
|
0,559
|
0,20
|
0,563
|
0,570
|
0,574
|
0,575
|
0,576
|
0,576
|
0,577
|
0,577
|
0,577
|
0,578
|
0,578
|
0,578
|
0,579
|
0,579
|
0,579
|
Ejemplo.
Cual es la
probabilidad acumulada de una Distribución t de Student de 9 grados de
libertad, de que x < 0,25.
Esto es:
Buscando en
la tabla en la columna del 9, y la fila de 0,25 tenemos que:
·
FORMULA.
La distribución t de Student es la distribución
de probabilidad del cociente
Donde:
Si μ
es una constante no nula, el cociente
·
GRÁFICAS
La estadística gráfica es una parte importante y
diferenciada de una aplicación de técnicas gráficas, a la descripción e
interpretación de datos e inferencias sobre éstos. Forma parte de los programas estadísticos usados con los ordenadores. Autores como Edward R. Tute han desarrollado nuevas soluciones
de análisis gráficos. Existen diferentes tipos de gráficas, que se pueden
clasificar en:
Gráfico lineal: se representan los valores en dos ejes cartesianos ortogonales entre sí. Las gráficas
lineales se recomiendan para representar series en el tiempo, y es donde se
muestran valores máximos y mínimos; también se utilizan para varias muestras en
un diagrama.
Gráfico de barras: se usa cuando se pretende resaltar la representación
de porcentajes de datos que componen un total. Una gráfica de barras contiene
barras verticales que representan valores numéricos, generalmente usando una
hoja de cálculo. Las gráficas de barras son una manera de representar
frecuencias; las frecuencias están asociadas con categorías. Una gráfica de
barras se presenta de dos maneras: horizontal o vertical. El objetivo es poner
una barra de largo (alto si es horizontal) igual a la frecuencia. La gráfica de
barras sirve para comparar y tener una representación gráfica de la diferencia
de frecuencias o de intensidad de la característica numérica de interés.
Histograma: se emplea para ilustrar muestras
agrupadas en intervalos. Está formado por rectángulos unidos a otros, cuyos
vértices de la base coinciden con los límites de los intervalos y el centro de
cada intervalo es la marca de clase que representamos en el eje de las
abscisas. La altura de cada rectángulo es proporcional a la frecuencia del
intervalo respectivo.
Gráfico circular: permite ver la distribución interna de los datos que
representan un hecho, en forma de porcentajes sobre un total. Se suele separar
el sector correspondiente al mayor o menor valor, según lo que se desee
destacar.
Pictograma: con imágenes que sirven para
representar el comportamiento o la distribución de los datos cuantitativos de
una población, utilizando símbolos de tamaño proporcional al dato
representado. Una posibilidad es que el gráfico sea analógico por ejemplo, la representación de los resultados de
las elecciones con colores sobre un hemiciclo.
·
AREA BAJO LA
CURVA
El concepto de área lo hemos
manejado ampliamente en cursos básicos, de hecho para las figuras geométricas
como el rectángulo el cálculo de su área se define como el producto de su base
por su altura, del mismo modo para calcular el área de un triángulo
multiplicamos su base por su altura y al resultado lo dividimos entre dos. Para
calcular el área de cualquier polígono (regular e irregular) solo debemos
triangular (construir triángulos en su área), calcular el área de cada uno de
ellos y sumarlas...
En todas las situaciones anteriores el proceso para el cálculo del área es
relativamente simple, sin embargo cuando tenemos una figura como la siguiente
en la cual uno o varios de sus lados que limitan la región en la cual queremos
calcular el área son curvas, no tenemos un proceso claro.
El concepto de área lo hemos manejado ampliamente en cursos básicos, de hecho
para las figuras geométricas como el rectángulo el cálculo de su área se define
como el producto de su base por su altura, del mismo modo para calcular el área
de un triángulo multiplicamos su base por su altura y al resultado lo dividimos
entre dos. Para calcular el área de cualquier polígono (regular e irregular)
solo debemos triangular (construir triángulos en su área), calcular el área de
cada uno de ellos y sumarlas...
En todas las situaciones anteriores el proceso para el cálculo del área es
relativamente simple, sin embargo cuando tenemos una figura como la siguiente
en la cual uno o varios de sus lados que limitan la región en la cual queremos
calcular el área son curvas, no tenemos un proceso claro.
La gráfica corresponde a la función
En ambas gráficas podemos ver que el área calculada va a tener pequeños
márgenes de error, en la primera (rectángulos amarillos) vemos que estamos
calculando un área mayor mientras que en la segunda (rectángulos verdes)
calculamos un área menor
En ambas situaciones podemos identificar que la base de todos los rectángulos
·
INTERVALOS
DE CONFIANZA
Las líneas verticales representan 50
construcciones diferentes de intervalos de confianza para la estimación del
valor μ.
En estadística,
se llama intervalo de confianza
a un par de números entre los cuales se estima que estará cierto valor
desconocido con una determinada probabilidad de acierto. Formalmente, estos
números determinan un intervalo, que se calcula a partir de
datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de
éxito en la estimación se representa con 1
- α y se denomina nivel de
confianza. En estas circunstancias, α es el llamado error
aleatorio o nivel de
significación, esto es, una medida de las posibilidades de fallar en la
estimación mediante tal intervalo.[1]
El nivel de confianza
y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más
amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras
que para un intervalo más pequeño, que ofrece una estimación más precisa,
aumentan sus posibilidades de error.
Para la construcción
de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el
parámetro a estimar, θ. Es
habitual que el parámetro presente una distribución normal. También pueden construirse
intervalos de confianza con la desigualdad de Chebyshov.
En definitiva, un intervalo
de confianza al 1 - α por ciento para la estimación de un parámetro poblacional
θ que sigue una determinada distribución de probabilidad, es una
expresión del tipo [θ1,
θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de
θ.
De una población de media
y desviación típica
se pueden tomar muestras de
elementos. Cada una de estas muestras
tiene a su vez una media (
). Se puede demostrar que la
media de todas las medias muestrales coincide con la media poblacional:[2]
Pero además, si el
tamaño de las muestras es lo suficientemente grande,[3]
la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media μ y
una desviación típica dada por la siguiente expresión:
Esto se representa como sigue:
estandarizamos, se sigue que:
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual
caigan un determinado porcentaje de las observaciones, esto es, es sencillo
hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 -
α)·100 es el porcentaje deseado (véase
el uso de las tablas en una distribución normal).
Se desea obtener una
expresión tal que
En esta distribución
normal de medias se puede calcular el intervalo de confianza donde se
encontrará la media poblacional si sólo se conoce una media muestral (
), con una confianza
determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por
ciento. A este valor se le llamará
(debido a que
es el error que se cometerá, un
término opuesto).
Para ello se necesita
calcular el punto
o, mejor dicho, su versión estandarizada
valor crítico— junto con su "opuesto
en la distribución"
Estos puntos
delimitan la probabilidad para el intervalo, como se muestra en la siguiente
imagen:
Dicho punto es el
número tal que:
Y en la versión
estandarizada se cumple que:
Así:
Haciendo operaciones
es posible despejar
para obtener el intervalo:
De lo cual se
obtendrá el intervalo de confianza:
Obsérvese que el intervalo de confianza viene
dado por la media muestral
el producto del valor crítico
por el error estándar
Si no se conoce
y n es grande (habitualmente
se toma n ≥ 30):[]
donde s es la
desviación típica de una muestra.
Aproximaciones para el valor
para los niveles de
confianza estándar son 1,96 para
y 2,576 para
El intervalo de
confianza para estimar una proporción p,
conocida una proporción muestral pn
de una muestra de tamaño n, a
un nivel de confianza del (1-α)·100% es:
En la demostración de
estas fórmulas están involucrados el Teorema Central del Límite y la
aproximación de una binomial por una normal
La realización de
cualquier estudio clínico-epidemiológico pretende poner de manifiesto al final
del mismo si existe o no asociación entre diferentes variables. Esta asociación
puede ser resultado de que realmente exista la asociación indicada, pero esta
asociación también puede ser producto del azar, de la presencia de sesgos o de
la presencia de variables de confusión.
Una de las
aplicaciones de la estadística es hacer inferencias a poblaciones, a partir de
muestras (1).
En la realización de este proceso inferencial, siempre existe el riesgo de
error o imprecisión ya sea por el azar o la variabilidad biológica del fenómeno
a estudiar. La carencia de error aleatorio debido al azar se conoce como
precisión. Cuanto más grande es el tamaño muestral, mayor es la precisión y la
variabilidad explicada por el azar disminuye. Esta posibilidad de error o falta
de precisión, siempre que no existan sesgos o variables de confusión, se
corrige aumentando el tamaño de la muestra. De cualquier manera el papel del
azar debe ser siempre contemplado, evaluado y medido, realizando test de
hipótesis o construyendo intervalos de confianza para conocer la precisión de
nuestra estimación dentro de una seguridad previamente definida.
Desde el punto de
vista clínico la significación estadística no resuelve todos los interrogantes
que hay que responder ya que la asociación estadísticamente significativa puede
no ser clínicamente relevante y además la asociación estadísticamente
significativa puede no ser causal. En definitiva podemos encontrar asociaciones
"estadísticamente posibles y conceptualmente estériles"
A pesar de las
limitaciones de la estadística, el término "estadísticamente significativo"
invade la literatura médica y se percibe como una etiqueta que indicase
"garantía de calidad". El considerar el término significativo implica
utilizar términos comparativos de dos hipótesis. Los test de hipótesis
son test de significación estadística que cuantifican hasta que punto la
variabilidad de la muestra puede ser responsable de los resultados de un
estudio en particular. La Ho (hipótesis nula) representa la
afirmación de que no hay asociación entre las dos variables estudiadas y la Ha
(hipótesis alternativa) afirma que hay algún grado de relación o asociación
entre las dos variables. Nuevamente la estadística nos muestra su
utilidad ya que nos ayuda a tomar la decisión de que hipótesis debemos
elegir. Dicha decisión puede ser afirmada con una seguridad que nosotros
previamente decidimos. El nivel de significación se estableció siguiendo
los comentarios del estadístico Fisher que señaló "...es conveniente
trazar una línea de demarcación a partir de la cual podamos decir: o bien hay
algo en el tratamiento..." (3).
El mecanismo de los diferentes test se realiza aunque con matices siempre de la
siguiente forma: En primer lugar se mira la magnitud de la diferencia que hay
entre los grupos a comparar (A y B). Si esta magnitud o valor absoluto es mayor
que un error estándar definido multiplicado por una seguridad definida,
concluimos que la diferencia es significativa entre A y B. Por tanto aceptamos
la hipótesis alternativa y rechazamos la hipótesis nula.
Ejemplo:
Disponemos de 2
tratamientos ( A y B). El tratamiento A lo reciben 25 pacientes y el
tratamiento B otros 25 pacientes. 15 pacientes responden favorablemente al
tratamiento A y 20 al tratamiento B. ¿Existe diferencia significativa entre
ambos tratamientos?
Ho
(hipótesis nula) = No hay diferencia entre ambos tratamientos.
Ha
(hipótesis alternativa) = Sí existe diferencia.
es mayor que el producto de 1.96 * el error
estándar,
|
concluímos que la diferencia es
significativa.
|
Error estándar =
= 0.1296
Error estándar * 1.96
= 0.1296 * 1.96 = 0.25
Como quiera que la diferencia =