jueves, 7 de junio de 2012

G) CALCULO DE LA PROBABILIDAD EN LA DISTRIBUCION


·                    FORMULA


En estadística la distribución exponencial es una distribución de probabilidad continua con un parámetro


cuya función de densidad es:



Su función de distribución es:



Donde representa el número e.

El valor esperado y la varianza de una variable aleatoria X con distribución exponencial son:

·         GRAFICA
Funciones exponenciales
 
Gráfica de Funciones exponenciales
Definición
Propiedades

Funciones relacionadas


F) CALCULO DE LA PROBABILIDAD EN LA DISTRIBUCION UNIFORME


·         FORMULA
Si la distribución asume los valores reales



su función de probabilidad es


y su función de distribución la función escalonada




y su varianza


·         GRAFICA



Gráfica de la función de distribución de la variable aleatoria uniforme discreta

que toma los valores x1 = 0.2, x2 = 0.8, x3 = 1 y x4 = 1.4.



·         PROBLEMA



-       El gerente de un restaurante que sólo da servicio mediante reservas sabe, por experiencia, que el 20% de las personas que reservan una mesa no asistirán. Si el restaurante acepta 25 reservas pero sólo dispone de 20 mesas, ¿cuál es la probabilidad de que a todas las personas que asistan al restaurante se les asigne una mesa?

Solución:

Representemos por la variable aleatoria δ la decisión de asistir (δ = 0) no (δ = 1) finalmente al restaurante por parte de una persona que ha hecho una reserva. Esta variable sigue una distribución de Bernoulli de parámetro p = 0,2, de acuerdo con el enunciado del ejercicio.  Suponiendo que las distintas reservas son independientes entre sí, se tiene que, de un total de n  reservas (δ 1….δ n), el número de ellas que acuden finalmente al restaurante es una variable aleatoria Yn =Σ= n i 1 δ 1, con distribución binomial de parámetros n y p=0,2. En el caso particular del problema, n=25. Entonces, para aquellas personas que asistan al restaurante de las 25 que han hecho la reserva puedan disponer de una mesa, debe ocurrir que acudan 20 o menos. Así se

tiene que:
p(y<_20)= Σi 25                  *0,2i*(1-0,2)=0,5799

E) CALCULO DE LA DISTRIBUCION T STUDENT


·         CALCULO  DE LA DISTRIBUCON  T  STUDENT.

En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.

Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muéstrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra.

La Distribución t de Student, tiene por función de densidad:

Donde el parámetro n de , se denomina grados de libertad de la distribución.
La distribución t de Student existe para todos los valores de x reales, y es simétrica respecto al eje y.

La distribución de probabilidad de esta función para valores menores de un xdado, que representamos por

 
Donde:


Para el cálculo de esta integral existen distintos tipos de Tabla de distribución t de Student, en la que para distintos valores de n y de x se puede buscar su probabilidad acumulada p, veamos una de esas tablas.

·         TABLAS

En esta tabla hay dos entradas, en la fila superior están los valores de n para los que se ha calculado la probabilidad, en la columna de la izquierda los de x, para x igual o mayor que cero, en incrementos de 0,05, para cada valor de n y de la x correspondiente tenemos la probabilidad acumulada, expresada con tres cifras decimales.

Tabla distribución t de Student
x \ n
1
2
4
5
6
7
8
9
10
15
20
25
30
40
50



0,00
0,500
0,500
0,500
0,500
0,500
0,500
0,500
0,500
0,500
0,500
0,500
0,500
0,500
0,500
0,500
0,05
0,516
0,518
0,519
0,519
0,519
0,519
0,519
0,519
0,519
0,520
0,520
0,520
0,520
0,520
0,520
0,10
0,532
0,535
0,537
0,538
0,538
0,538
0,539
0,539
0,539
0,539
0,539
0,539
0,539
0,540
0,540
0,15
0,547
0,553
0,556
0,557
0,557
0,558
0,558
0,558
0,558
0,559
0,559
0,559
0,559
0,559
0,559
0,20
0,563
0,570
0,574
0,575
0,576
0,576
0,577
0,577
0,577
0,578
0,578
0,578
0,579
0,579
0,579


Ejemplo.

Cual es la probabilidad acumulada de una Distribución t de Student de 9 grados de libertad, de que x < 0,25.

Esto es:

Buscando en la tabla en la columna del 9, y la fila de 0,25 tenemos que:


·         FORMULA.

La distribución t de Student es la distribución de probabilidad del cociente



Donde:

Si μ es una constante no nula, el cociente


es una variable aleatoria que sigue la distribución t de Student no central con parámetro de no-centralidad .

·         GRÁFICAS

La estadística gráfica es una parte importante y diferenciada de una aplicación de técnicas gráficas, a la descripción e interpretación de datos e inferencias sobre éstos. Forma parte de los programas estadísticos usados con los ordenadores. Autores como Edward R. Tute han desarrollado nuevas soluciones de análisis gráficos. Existen diferentes tipos de gráficas, que se pueden clasificar en:

Gráfico lineal: se representan los valores en dos ejes cartesianos ortogonales entre sí. Las gráficas lineales se recomiendan para representar series en el tiempo, y es donde se muestran valores máximos y mínimos; también se utilizan para varias muestras en un diagrama.

Gráfico de barras: se usa cuando se pretende resaltar la representación de porcentajes de datos que componen un total. Una gráfica de barras contiene barras verticales que representan valores numéricos, generalmente usando una hoja de cálculo. Las gráficas de barras son una manera de representar frecuencias; las frecuencias están asociadas con categorías. Una gráfica de barras se presenta de dos maneras: horizontal o vertical. El objetivo es poner una barra de largo (alto si es horizontal) igual a la frecuencia. La gráfica de barras sirve para comparar y tener una representación gráfica de la diferencia de frecuencias o de intensidad de la característica numérica de interés.

Histograma: se emplea para ilustrar muestras agrupadas en intervalos. Está formado por rectángulos unidos a otros, cuyos vértices de la base coinciden con los límites de los intervalos y el centro de cada intervalo es la marca de clase que representamos en el eje de las abscisas. La altura de cada rectángulo es proporcional a la frecuencia del intervalo respectivo.

Gráfico circular: permite ver la distribución interna de los datos que representan un hecho, en forma de porcentajes sobre un total. Se suele separar el sector correspondiente al mayor o menor valor, según lo que se desee destacar.

Pictograma: con imágenes que sirven para representar el comportamiento o la distribución de los datos cuantitativos de una población, utilizando símbolos de tamaño proporcional al dato representado. Una posibilidad es que el gráfico sea analógico por ejemplo, la representación de los resultados de las elecciones con colores sobre un hemiciclo.

·                  AREA BAJO LA CURVA

El concepto de área lo hemos manejado ampliamente en cursos básicos, de hecho para las figuras geométricas como el rectángulo el cálculo de su área se define como el producto de su base por su altura, del mismo modo para calcular el área de un triángulo multiplicamos su base por su altura y al resultado lo dividimos entre dos. Para calcular el área de cualquier polígono (regular e irregular) solo debemos triangular (construir triángulos en su área), calcular el área de cada uno de ellos y sumarlas...
En todas las situaciones anteriores el proceso para el cálculo del área es relativamente simple, sin embargo cuando tenemos una figura como la siguiente en la cual uno o varios de sus lados que limitan la región en la cual queremos calcular el área son curvas, no tenemos un proceso claro.

El concepto de área lo hemos manejado ampliamente en cursos básicos, de hecho para las figuras geométricas como el rectángulo el cálculo de su área se define como el producto de su base por su altura, del mismo modo para calcular el área de un triángulo multiplicamos su base por su altura y al resultado lo dividimos entre dos. Para calcular el área de cualquier polígono (regular e irregular) solo debemos triangular (construir triángulos en su área), calcular el área de cada uno de ellos y sumarlas...
En todas las situaciones anteriores el proceso para el cálculo del área es relativamente simple, sin embargo cuando tenemos una figura como la siguiente en la cual uno o varios de sus lados que limitan la región en la cual queremos calcular el área son curvas, no tenemos un proceso claro.
La gráfica corresponde a la función
En ambas gráficas podemos ver que el área calculada va a tener pequeños márgenes de error, en la primera (rectángulos amarillos) vemos que estamos calculando un área mayor mientras que en la segunda (rectángulos verdes) calculamos un área menor
En ambas situaciones podemos identificar que la base de todos los rectángulos

·         INTERVALOS DE CONFIANZA

Las líneas verticales representan 50 construcciones diferentes de intervalos de confianza para la estimación del valor μ.

En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.[1]

El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error.

Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con la desigualdad de Chebyshov.

En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.

De una población de media y desviación típica se pueden tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media ( ). Se puede demostrar que la media de todas las medias muestrales coincide con la media poblacional:[2]
Pero además, si el tamaño de las muestras es lo suficientemente grande,[3] la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión:

Esto se representa como sigue:
 estandarizamos, se sigue que:




En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las tablas en una distribución normal).
Se desea obtener una expresión tal que



En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral ( ), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamará (debido a que es el error que se cometerá, un término opuesto).
Para ello se necesita calcular el punto

o, mejor dicho, su versión estandarizada


valor crítico— junto con su "opuesto en la distribución"



Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:

Dicho punto es el número tal que:



Y en la versión estandarizada se cumple que:

Así:


Haciendo operaciones es posible despejar para obtener el intervalo:



De lo cual se obtendrá el intervalo de confianza:

Obsérvese que el intervalo de confianza viene dado por la media muestral

el producto del valor crítico

por el error estándar



Si no se conoce y n es grande (habitualmente se toma n ≥ 30):[]



donde s es la desviación típica de una muestra.

 Aproximaciones para el valor

para los niveles de confianza estándar son 1,96 para

y 2,576 para



El intervalo de confianza para estimar una proporción p, conocida una proporción muestral pn de una muestra de tamaño n, a un nivel de confianza del (1-α)·100% es:





En la demostración de estas fórmulas están involucrados el Teorema Central del Límite y la aproximación de una binomial por una normal

La realización de cualquier estudio clínico-epidemiológico pretende poner de manifiesto al final del mismo si existe o no asociación entre diferentes variables. Esta asociación puede ser resultado de que realmente exista la asociación indicada, pero esta asociación también puede ser producto del azar, de la presencia de sesgos o de la presencia de variables de confusión.

Una de las aplicaciones de la estadística es hacer inferencias a poblaciones, a partir de muestras (1). En la realización de este proceso inferencial, siempre existe el riesgo de error o imprecisión ya sea por el azar o la variabilidad biológica del fenómeno a estudiar. La carencia de error aleatorio debido al azar se conoce como precisión. Cuanto más grande es el tamaño muestral, mayor es la precisión y la variabilidad explicada por el azar disminuye. Esta posibilidad de error o falta de precisión, siempre que no existan sesgos o variables de confusión, se corrige aumentando el tamaño de la muestra. De cualquier manera el papel del azar debe ser siempre contemplado, evaluado y medido, realizando test de hipótesis o construyendo intervalos de confianza para conocer la precisión de nuestra estimación dentro de una seguridad previamente definida.

Desde el punto de vista clínico la significación estadística no resuelve todos los interrogantes que hay que responder ya que la asociación estadísticamente significativa puede no ser clínicamente relevante y además la asociación estadísticamente significativa puede no ser causal. En definitiva podemos encontrar asociaciones "estadísticamente posibles y conceptualmente estériles"

A pesar de las limitaciones de la estadística, el término "estadísticamente significativo" invade la literatura médica y se percibe como una etiqueta que indicase "garantía de calidad". El considerar el término significativo implica utilizar términos comparativos de dos hipótesis.  Los test de hipótesis son test de significación estadística que cuantifican hasta que punto la variabilidad de la muestra puede ser responsable de los resultados de un estudio en particular.  La Ho (hipótesis nula) representa la afirmación de que no hay asociación entre las dos variables estudiadas y la Ha (hipótesis alternativa) afirma que hay algún grado de relación o asociación entre las dos variables.  Nuevamente la estadística nos muestra su utilidad ya que nos ayuda a tomar la decisión de que hipótesis debemos elegir.  Dicha decisión puede ser afirmada con una seguridad que nosotros previamente decidimos.  El nivel de significación se estableció siguiendo los comentarios del estadístico Fisher que señaló "...es conveniente trazar una línea de demarcación a partir de la cual podamos decir: o bien hay algo en el tratamiento..." (3).  El mecanismo de los diferentes test se realiza aunque con matices siempre de la siguiente forma: En primer lugar se mira la magnitud de la diferencia que hay entre los grupos a comparar (A y B). Si esta magnitud o valor absoluto es mayor que un error estándar definido multiplicado por una seguridad definida, concluimos que la diferencia es significativa entre A y B. Por tanto aceptamos la hipótesis alternativa y rechazamos la hipótesis nula.

Ejemplo:

Disponemos de 2 tratamientos ( A y B).  El tratamiento A lo reciben 25 pacientes y el tratamiento B otros 25 pacientes. 15 pacientes responden favorablemente al tratamiento A y 20 al tratamiento B. ¿Existe diferencia significativa entre ambos tratamientos?

Ho (hipótesis nula) = No hay diferencia entre ambos tratamientos.

Ha (hipótesis alternativa) = Sí existe diferencia.



es mayor que el producto de 1.96 * el error estándar, 
concluímos que la diferencia es significativa.




Error estándar =





= 0.1296


Error estándar * 1.96 = 0.1296 * 1.96 = 0.25


Como quiera que la diferencia =