·
CALCULO
DE LA DISTRIBUCON T STUDENT.
En probabilidad y estadística, la
distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos
medias muéstrales y para la construcción del intervalo de confianza para la diferencia entre las medias
de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser
estimada a partir de los datos de una muestra.
La Distribución t de Student,
tiene por función de densidad:
Donde el parámetro n de
,
se denomina grados de libertad de la distribución.
La distribución t de
Student existe para todos los valores de x reales, y es simétrica respecto al eje y.
Donde:
Para el cálculo de esta integral existen distintos tipos de Tabla de distribución t de Student, en la que para distintos valores de n y de x se puede buscar su probabilidad acumulada p, veamos una de esas tablas.
·
TABLAS
En esta
tabla hay dos entradas, en la fila superior están los valores de n para los que
se ha calculado la probabilidad, en la columna de la izquierda los de x, para x
igual o mayor que cero, en incrementos de 0,05, para cada valor de n y de la x
correspondiente tenemos la probabilidad acumulada, expresada con tres cifras
decimales.
Tabla distribución t de Student
|
|||||||||||||||
x \ n
|
1
|
2
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
15
|
20
|
25
|
30
|
40
|
50
|
0,00
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,500
|
0,05
|
0,516
|
0,518
|
0,519
|
0,519
|
0,519
|
0,519
|
0,519
|
0,519
|
0,519
|
0,520
|
0,520
|
0,520
|
0,520
|
0,520
|
0,520
|
0,10
|
0,532
|
0,535
|
0,537
|
0,538
|
0,538
|
0,538
|
0,539
|
0,539
|
0,539
|
0,539
|
0,539
|
0,539
|
0,539
|
0,540
|
0,540
|
0,15
|
0,547
|
0,553
|
0,556
|
0,557
|
0,557
|
0,558
|
0,558
|
0,558
|
0,558
|
0,559
|
0,559
|
0,559
|
0,559
|
0,559
|
0,559
|
0,20
|
0,563
|
0,570
|
0,574
|
0,575
|
0,576
|
0,576
|
0,577
|
0,577
|
0,577
|
0,578
|
0,578
|
0,578
|
0,579
|
0,579
|
0,579
|
Ejemplo.
Cual es la
probabilidad acumulada de una Distribución t de Student de 9 grados de
libertad, de que x < 0,25.
Esto es:
Buscando en
la tabla en la columna del 9, y la fila de 0,25 tenemos que:
·
FORMULA.
La distribución t de Student es la distribución
de probabilidad del cociente
Donde:
- Z tiene una distribución normal de
media nula y varianza 1
- V tiene una distribución ji-cuadrado con
- Z y V son independientes
es una variable
aleatoria que sigue la distribución t de Student no central
con parámetro de no-centralidad
.
·
GRÁFICAS
La estadística gráfica es una parte importante y
diferenciada de una aplicación de técnicas gráficas, a la descripción e
interpretación de datos e inferencias sobre éstos. Forma parte de los programas estadísticos usados con los ordenadores. Autores como Edward R. Tute han desarrollado nuevas soluciones
de análisis gráficos. Existen diferentes tipos de gráficas, que se pueden
clasificar en:
Gráfico lineal: se representan los valores en dos ejes cartesianos ortogonales entre sí. Las gráficas
lineales se recomiendan para representar series en el tiempo, y es donde se
muestran valores máximos y mínimos; también se utilizan para varias muestras en
un diagrama.
Gráfico de barras: se usa cuando se pretende resaltar la representación
de porcentajes de datos que componen un total. Una gráfica de barras contiene
barras verticales que representan valores numéricos, generalmente usando una
hoja de cálculo. Las gráficas de barras son una manera de representar
frecuencias; las frecuencias están asociadas con categorías. Una gráfica de
barras se presenta de dos maneras: horizontal o vertical. El objetivo es poner
una barra de largo (alto si es horizontal) igual a la frecuencia. La gráfica de
barras sirve para comparar y tener una representación gráfica de la diferencia
de frecuencias o de intensidad de la característica numérica de interés.
Histograma: se emplea para ilustrar muestras
agrupadas en intervalos. Está formado por rectángulos unidos a otros, cuyos
vértices de la base coinciden con los límites de los intervalos y el centro de
cada intervalo es la marca de clase que representamos en el eje de las
abscisas. La altura de cada rectángulo es proporcional a la frecuencia del
intervalo respectivo.
Gráfico circular: permite ver la distribución interna de los datos que
representan un hecho, en forma de porcentajes sobre un total. Se suele separar
el sector correspondiente al mayor o menor valor, según lo que se desee
destacar.
Pictograma: con imágenes que sirven para
representar el comportamiento o la distribución de los datos cuantitativos de
una población, utilizando símbolos de tamaño proporcional al dato
representado. Una posibilidad es que el gráfico sea analógico por ejemplo, la representación de los resultados de
las elecciones con colores sobre un hemiciclo.
·
AREA BAJO LA
CURVA
El concepto de área lo hemos
manejado ampliamente en cursos básicos, de hecho para las figuras geométricas
como el rectángulo el cálculo de su área se define como el producto de su base
por su altura, del mismo modo para calcular el área de un triángulo
multiplicamos su base por su altura y al resultado lo dividimos entre dos. Para
calcular el área de cualquier polígono (regular e irregular) solo debemos
triangular (construir triángulos en su área), calcular el área de cada uno de
ellos y sumarlas...
En todas las situaciones anteriores el proceso para el cálculo del área es relativamente simple, sin embargo cuando tenemos una figura como la siguiente en la cual uno o varios de sus lados que limitan la región en la cual queremos calcular el área son curvas, no tenemos un proceso claro.
El concepto de área lo hemos manejado ampliamente en cursos básicos, de hecho para las figuras geométricas como el rectángulo el cálculo de su área se define como el producto de su base por su altura, del mismo modo para calcular el área de un triángulo multiplicamos su base por su altura y al resultado lo dividimos entre dos. Para calcular el área de cualquier polígono (regular e irregular) solo debemos triangular (construir triángulos en su área), calcular el área de cada uno de ellos y sumarlas...
En todas las situaciones anteriores el proceso para el cálculo del área es relativamente simple, sin embargo cuando tenemos una figura como la siguiente en la cual uno o varios de sus lados que limitan la región en la cual queremos calcular el área son curvas, no tenemos un proceso claro.
La gráfica corresponde a la función
En ambas gráficas podemos ver que el área calculada va a tener pequeños márgenes de error, en la primera (rectángulos amarillos) vemos que estamos calculando un área mayor mientras que en la segunda (rectángulos verdes) calculamos un área menor
En ambas situaciones podemos identificar que la base de todos los rectángulos
En todas las situaciones anteriores el proceso para el cálculo del área es relativamente simple, sin embargo cuando tenemos una figura como la siguiente en la cual uno o varios de sus lados que limitan la región en la cual queremos calcular el área son curvas, no tenemos un proceso claro.
El concepto de área lo hemos manejado ampliamente en cursos básicos, de hecho para las figuras geométricas como el rectángulo el cálculo de su área se define como el producto de su base por su altura, del mismo modo para calcular el área de un triángulo multiplicamos su base por su altura y al resultado lo dividimos entre dos. Para calcular el área de cualquier polígono (regular e irregular) solo debemos triangular (construir triángulos en su área), calcular el área de cada uno de ellos y sumarlas...
En todas las situaciones anteriores el proceso para el cálculo del área es relativamente simple, sin embargo cuando tenemos una figura como la siguiente en la cual uno o varios de sus lados que limitan la región en la cual queremos calcular el área son curvas, no tenemos un proceso claro.
La gráfica corresponde a la función
En ambas gráficas podemos ver que el área calculada va a tener pequeños márgenes de error, en la primera (rectángulos amarillos) vemos que estamos calculando un área mayor mientras que en la segunda (rectángulos verdes) calculamos un área menor
En ambas situaciones podemos identificar que la base de todos los rectángulos
· INTERVALOS DE CONFIANZA
Las líneas verticales representan 50
construcciones diferentes de intervalos de confianza para la estimación del
valor μ.
En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.[1]
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error.
Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con la desigualdad de Chebyshov.
En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.
Pero además, si el tamaño de las muestras es lo suficientemente grande,[3] la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión:
Esto se representa como sigue:
estandarizamos, se sigue que:
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las tablas en una distribución normal).
Se desea obtener una expresión tal que
En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral (
Para ello se necesita calcular el punto
o, mejor dicho, su versión estandarizada
valor crítico— junto con su "opuesto en la distribución"
Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:
Dicho punto es el número tal que:
Y en la versión estandarizada se cumple que:
Así:
Haciendo operaciones es posible despejar
De lo cual se obtendrá el intervalo de confianza:
Obsérvese que el intervalo de confianza viene dado por la media muestral
el producto del valor crítico
por el error estándar
Si no se conoce
donde s es la desviación típica de una muestra.
y 2,576 para
El intervalo de confianza para estimar una proporción p, conocida una proporción muestral pn de una muestra de tamaño n, a un nivel de confianza del (1-α)·100% es:
En la demostración de estas fórmulas están involucrados el Teorema Central del Límite y la aproximación de una binomial por una normal
La realización de cualquier estudio clínico-epidemiológico pretende poner de manifiesto al final del mismo si existe o no asociación entre diferentes variables. Esta asociación puede ser resultado de que realmente exista la asociación indicada, pero esta asociación también puede ser producto del azar, de la presencia de sesgos o de la presencia de variables de confusión.
Una de las aplicaciones de la estadística es hacer inferencias a poblaciones, a partir de muestras (1). En la realización de este proceso inferencial, siempre existe el riesgo de error o imprecisión ya sea por el azar o la variabilidad biológica del fenómeno a estudiar. La carencia de error aleatorio debido al azar se conoce como precisión. Cuanto más grande es el tamaño muestral, mayor es la precisión y la variabilidad explicada por el azar disminuye. Esta posibilidad de error o falta de precisión, siempre que no existan sesgos o variables de confusión, se corrige aumentando el tamaño de la muestra. De cualquier manera el papel del azar debe ser siempre contemplado, evaluado y medido, realizando test de hipótesis o construyendo intervalos de confianza para conocer la precisión de nuestra estimación dentro de una seguridad previamente definida.
Desde el punto de vista clínico la significación estadística no resuelve todos los interrogantes que hay que responder ya que la asociación estadísticamente significativa puede no ser clínicamente relevante y además la asociación estadísticamente significativa puede no ser causal. En definitiva podemos encontrar asociaciones "estadísticamente posibles y conceptualmente estériles"
A pesar de las limitaciones de la estadística, el término "estadísticamente significativo" invade la literatura médica y se percibe como una etiqueta que indicase "garantía de calidad". El considerar el término significativo implica utilizar términos comparativos de dos hipótesis. Los test de hipótesis son test de significación estadística que cuantifican hasta que punto la variabilidad de la muestra puede ser responsable de los resultados de un estudio en particular. La Ho (hipótesis nula) representa la afirmación de que no hay asociación entre las dos variables estudiadas y la Ha (hipótesis alternativa) afirma que hay algún grado de relación o asociación entre las dos variables. Nuevamente la estadística nos muestra su utilidad ya que nos ayuda a tomar la decisión de que hipótesis debemos elegir. Dicha decisión puede ser afirmada con una seguridad que nosotros previamente decidimos. El nivel de significación se estableció siguiendo los comentarios del estadístico Fisher que señaló "...es conveniente trazar una línea de demarcación a partir de la cual podamos decir: o bien hay algo en el tratamiento..." (3). El mecanismo de los diferentes test se realiza aunque con matices siempre de la siguiente forma: En primer lugar se mira la magnitud de la diferencia que hay entre los grupos a comparar (A y B). Si esta magnitud o valor absoluto es mayor que un error estándar definido multiplicado por una seguridad definida, concluimos que la diferencia es significativa entre A y B. Por tanto aceptamos la hipótesis alternativa y rechazamos la hipótesis nula.
Ejemplo:
Disponemos de 2 tratamientos ( A y B). El tratamiento A lo reciben 25 pacientes y el tratamiento B otros 25 pacientes. 15 pacientes responden favorablemente al tratamiento A y 20 al tratamiento B. ¿Existe diferencia significativa entre ambos tratamientos?
Ho (hipótesis nula) = No hay diferencia entre ambos tratamientos.
Ha (hipótesis alternativa) = Sí existe diferencia.
es mayor que el producto de 1.96 * el error
estándar,
|
concluímos que la diferencia es
significativa.
|
Error estándar =
= 0.1296
Error estándar * 1.96 = 0.1296 * 1.96 = 0.25
Como quiera que la diferencia =
el blogg es muy bueno pues ya que la informacion es muy completa y relacionada con el tema, saber de la probabilidad y como relacionar un problema con la probabilidad
ResponderEliminarcarolina hernandez
ResponderEliminarFALTARON FORMULAS, TEMAS, FUENTE DE INFORMACIÓN COMENTARIOS PERSONALES Y VÍDEOS, ESO TAMBIÉN LO TOMO EN CUENTA.
ResponderEliminar