Mostrando entradas con la etiqueta Formularios. Mostrar todas las entradas
Mostrando entradas con la etiqueta Formularios. Mostrar todas las entradas

23/4/22

DISTRIBUCIONES DE PROBABILIDADES

 

1. DISTRIBUCIONES DE PROBABILIDAD DISCRETAS 

 


2. DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 

 

 

Fuente: (1), (2), (3), (4).

5/6/21

INTERVALOS DE CONFIANZA

 

Fuente: Adaptado de "Uso de árboles de decisión para la estimación estadística" (C. Valdivieso, R. Valdivieso & O. Valdivieso; 2010)

 

Referencias: (1), (2), (3).


6/6/20

CUANTILES

Los cuantiles son parámetros de posición que dividen los valores de una variable de forma proporcional, son utilizados para facilitar la evaluación de la dispersión y la tendencia central de un conjunto de datos. Para hallar los cuantiles, se deben ordenar los valores de menor a mayor, esta distribución es dividida en partes iguales, por tanto cada cuantil contiene el mismo número de frecuencia. Los cuantilles más usados son los cuartiles, quintiles, deciles y percentiles. La fórmula general es la siguiente:
Donde:
L: Límite inferior de la clase i (donde se encuentra el cuantil k)
: Número cuantil
: Número total de valores involucrados
: Número total de partes iguales en que dividimos al grupo de datos
f: Frecuencia absoluta de la clase i (la clase donde se encuentra el cuantil k)
Fi-1 : Frecuencia acumulada previa a la clase i
a: Amplitud de clase (longitud del intérvalo de la clase del cuantil i-ésimo)


CUARTILES

Estadístico de posición que divide a la muestra en 4 grupos con frecuencias similares. Los cuartiles son tres valores (0.25; 0.50 y 0.75) y son representadas por: Q1, Q2 y Q3. La diferencia entre el tercer cuartil y el primer cuartil es conocido como rango intercuartílico, representado en los diagramas de caja. 

Cálculo de Cuartiles para datos agrupados
1. En la tabla de frecuencias, completar la Frecuencia Absoluta Acumulada Fi.
2. Encontrar la Clase Cuartil: k*N/4 (donde k es el número de cuartil y N es el tamaño de la muestra o población).
3. Ubicamos el primer número mayor a la clase cuartil en la Columna de Frecuencia Absoluta Acumulada (Fi), siendo esa la posición de la marca de clase para este cuartil k.
4. Calcular el valor para el cuartil k según la fórmula.

Cálculo de Cuartiles para datos no agrupados
1. Ordenamos los valores de menor a mayor.
2. Calculamos la posición que ocupa el cuartil, considerar si el número de la muestra o población es impar o par, para usar la fórmula adecuada.
3. Si el resultado tiene decimales, el cuartil se obtiene del promedio de los valores que están en las posiciones A y A+1 (donde A, en este caso, equivale al número entero).

Fórmulas para hallar Cuartiles de datos agrupados y no agrupados


Rango intercuartil

Es la distancia entre el primer primer cuartil (Q₁) y el tercer cuartil (Q₃); de esta manera, abarca el 50% central de los datos. Debido a que no son afectados por observaciones extremas, la mediana y el rango intercuartil constituyen una mejor medida de la tendencia central y la dispersión de conjuntos de datos altamente asimétricos, en comparación con la media y la desviación estándar.





QUINTILES

El Quintil es una medida estadística de posición que divide a la muestra en 5 grupos con frecuencias similares (corresponden a los cuantiles 0,20; 0,40; 0,60 y 0,80). Se utiliza para indicar el valor por debajo del cual se encuentra un determinado porcentaje de observaciones. Cada quintil representa un 20% de la muestra/población hasta llegar a 100% (el quinto quintil correspondería al valor más alto).

Cálculo de Quintiles para datos no agrupados
1. Ordenamos los valores de menor a mayor.
2. Calculamos la posición que ocupa el quintil, aplicando la fórmula.
3. Si el resultado no tiene decimales, el quintil se obtiene seleccionando el valor de la muestra que ocupa la posición A, pero si el resultado tiene decimales, el quintil se obtiene del promedio de los valores que están en las posiciones A y A+1 (donde A equivale al número entero).

Cálculo de Quintiles para datos agrupados
1. En la tabla de frecuencias, completar la frecuencia Absoluta Acumulada Fi.
2. Encontrar la Clase Quintil: k*N/5 (donde k es el número de cuartil y N es el tamaño de la muestra o población).
3. Ubicamos el primer número mayor a la clase quintil en la Columna de Frecuencia Absoluta Acumulada (Fi), siendo esa la posición de la marca de clase para este quintil k.
4. Calcular el valor para el quintil k según la fórmula de la tabla.

Fórmulas para hallar Quintiles de datos agrupados y no agrupados


Un quintil es la quinta parte de una población estadística, representa el 20% del número total de individuos de una población determinada. Es un término muy utilizado en economía para distribuir a la población. El quintil es muy usado en diferentes áreas, por ejemplo en economía sirve para representar el nivel de ingreso familiar de la población, un quintil representa una quinta parte de una población, entonces El 20% de los individuos más pobres representa el primer quintil (Q1) y el 20% más rico que representa el quintil (Q5). 



DECILES

Los deciles son 9 valores (0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9) que dividen la sucesión de datos ordenados en 10 grupos con frecuencias similares. Los deciles suelen usarse frecuentemente para fijar el aprovechamiento académico.

Cálculo de Deciles para datos no agrupados
1. Ordenamos los valores de menor a mayor.
2. Calculamos la posición que ocupa el decil, según la fórmula correspondiente (considerar si N es par o impar).
3. Si el resultado tiene decimales, el decil se obtiene del promedio de los valores que están en las posiciones A y A+1 (donde A, equivale al número entero).

Cálculo de Deciles para datos agrupados
1. En la tabla de frecuencias, completar la frecuencia Absoluta Acumulada Fi.
2. Encontrar la Clase Decil: k*N/10 (donde k es el número de cuartil y N es el tamaño de la muestra o población).
3. Ubicamos el primer número mayor a la clase decil en la Columna de Frecuencia Absoluta Acumulada (Fi), siendo esa la posición de la marca de clase para el decil k.
4. Calcular el valor para el decil k según la fórmula de la tabla.

Fórmulas para hallar Deciles de datos agrupados y no agrupados




PERCENTILES

Los Percentiles dividen la sucesión de datos ordenados en 100 partes con frecuencias similares, en donde cada parte representa al 1% de la población o muestra. Los percentiles, son 99 valores (Q1, Q2, …, Q99).

Cálculo de Percentiles para datos no agrupados
1. Ordenamos los valores de menor a mayor.
2. Calculamos la posición que ocupa el percentil, según la fórmula que corresponde.
3. Si el resultado tiene decimales, el percentil se obtiene del promedio de los valores que están en las posiciones A y A+1 (donde A, equivale al número entero).

Cálculo de Percentiles para datos agrupados
1. En la tabla de frecuencias, completar la frecuencia Absoluta Acumulada Fi.
2. Encontrar la Clase Decil: k*N/100 (donde k es el número de cuartil y N es el tamaño de la muestra o población).
3. Ubicamos el primer número mayor a la clase decil en la Columna de Frecuencia Absoluta Acumulada (Fi), siendo esa la posición de la marca de clase para el percentil k.
4. Calcular el valor para el percentil k según la fórmula de la tabla.

Fórmulas para hallar Percentiles de datos agrupados y no agrupados



MEDIANA

Es una medida de tendencia central, que se basa en la posición central que ocupa en la distribución de datos de la de una población o muestra, dividen la sucesión de datos ordenados de menor a mayor en 2 partes iguales, el valor que está en el centro es la mediana (Me.).


Cálculo de la Mediana para datos no agrupados
1. Ordenamos los valores de menor a mayor.
2. Calculamos la posición de la mediana, teniendo en cuenta si el número de valores (población o muestra) es par o impar, utilizando la fórmula adecuada.
3. Si el resultado tiene decimales, la mediana se obtiene del promedio de los valores (Xi) que están en las posiciones A y A+1 (donde A, equivale al número entero): (XA + XA+1 )/2

Cálculo de la Mediana para datos agrupados
1. En la tabla de frecuencias, completar la frecuencia Absoluta Acumulada Fi.
2. Encontramos el intervalo o la clase de la media donde se encuentra la media: N/2 (N es el tamaño de la muestra o población).
3. Ubicamos el primer número mayor a N/2 en la Columna de Frecuencia Absoluta Acumulada (Fi), en esta fila se encuentra la clase de la mediana.
4. Calcular el valor de la mediana, según la fórmula de la tabla.



Representación gráfica de la correspondencia entre Cuantiles



Referencias: (1), (2), (3), (4), (5), (6), (7), (8), (9), (10), (11), (12), (13).

15/6/19

DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS

La distribución de frecuencias agrupadas o tabla con datos agrupados se utiliza cuando tenemos un gran número de valores y la tabla de frecuencias se extiende, entonces, agrupamos los valores en intervalos llamados clases, la distribución de frecuencias agrupadas, también es usado en tablas con valores continuos.


INTERVALO DE CLASE

El intervalo de clase o simplemente intervalo, es cada uno de los grupos de valores de la variable con la misma amplitud denominados clases y que ocupan una fila en una distribución de frecuencias. Cada clase tiene un límite inferior y un límite superior y le corresponde una frecuencia.

Ejemplo:


AMPLITUD DE CLASE

La amplitud de clase o longitud de clase (Lc), es el número de valores que se encuentran en una clase. La amplitud de la clase resulta de la diferencia entre el límite superior y el límite inferior del intervalo de clase.

Lc = Ls - Li


MARCA DE CLASE

La marca de clase es el valor medio o promedio de cada intervalo y que representa a los valores que están dentro de la clase, se usa para medir parámetros como la media y la desviación estándar. Para la elección del número de clases se debe tomar en cuenta que un número pequeño de clases puede ocultar información sobre los datos que deseamos estudiar y uno muy grande puede generar demasiados detalles que no necesariamente sean útiles, además, considerar el número de datos y el tamaño del rango de la distribución, es decir, la diferencia entre la observación más grande y la más pequeña, después de tener las clases, procedemos a contar cuántos datos existen en cada clase (frecuencia). (Referencia)

La marca de clase (Xi), resulta de sumar los límites inferior (Li) y superior (Ls) del intervalo, divididos entre 2:

Xi = Ls – Li /2 

Ejemplo:
Referencias (1) (2)


RANGO

El Rango, amplitud o recorrido es una medida de dispersión de los datos, cuanto mayor es el rango, aún más dispersos están los datos. El rango resulta de la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos:
Rango = Valor máximo – Valor mínimo


1/7/18

TAMAÑO DE MUESTRA



La muestra es una pequeña cantidad pero representativa de la población, es un conjunto de datos seleccionados probabilística o no probabilísticamente (al azar o según otro criterio), utilizada para estudiar o analizar las características de una población. Las razones por las que se utiliza una muestra es por el tiempo y el coste que se requeriría para obtener información de grandes poblaciones, sin embargo, la muestra debe ser lo suficientemente representativa de la población, es decir, que en lo posible el tamaño de la muestra sea grande y esté seleccionada aleatoriamente.

El tamaño de la muestra es un número determinado de elementos de la población sean sujetos o cosas, para poder estimar un parámetro determinado. 



Consideraciones:
- Algunos valores de Z según su nivel de confianza son: 
 - La probabilidad de ocurrencia del evento estudiado (p), es la proporción de individuos que poseen en la población la característica de estudio, la probabilidad máxima es igual a 1; en caso no se sepa la probabilidad de que ocurra el evento, entonces consideramos una probabilidad de p=0.5=50% de que haya éxito y q=1-p=0.5=50% de que haya fracaso (entonces p=0.5 y q=0.5) 

- Error de estimación (e). Límite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), según el criterio del investigador. 



Referencias: (1), (2), (3), (4), (5), (6), (7), (8), (9).  

4/6/17

DISTRIBUCIÓN DE FRECUENCIAS





La distribución de frecuencias o tabla de frecuencias, es la organización de datos en categorías y el número de ocurrencias en cada categoría, con el fin de sintetizar y facilitar la presentación de los datos. La distribución de frecuencias recoge los valores de la categoría, frecuencia absoluta, frecuencia relativa, porcentajes y los acumulados de cada frecuencia así como el número total de datos o tamaño de muestra.


FRECUENCIA ABSOLUTA 
La frecuencia absoluta es un tipo de frecuencia estadística que se utiliza para determinar la cantidad de veces que aparece el valor en un estudio, se denota por "ni" y es utilizada en la estadísticas descriptivas, además, la suma de las frecuencias absolutas obtenidas es igual al total de los datos analizados, representado por N (tamaño de la muestra).


Frecuencia absoluta acumulada (Ni): es el acumulado, resultado de la suma de las frecuencias absolutas de manera progresiva. 

Ejemplo:


FRECUENCIA RELATIVA 
La frecuencia relativa es una medida influida por el tamaño de la muestra, resulta de dividir la frecuencia absoluta entre el tamaño de la muestra y se denota por fi. 


Frecuencia relativa acumulada (Fi). La frecuencia relativa acumulada resulta de la división entre la frecuencia absoluta acumulada y el tamaño de la muestra, se denota como Fi.



Ejemplo: 


FRECUENCIA PORCENTUAL 
La frecuencia porcentual es llamada también frecuencia relativa porcentual, resulta de multiplicar la frecuencia relativa por 100 y su denotación es pi. La suma de las frecuencias porcentuales es 100%. 


Frecuencia Relativa Acumulada Porcentual (Pi). Resulta de la multiplicación de la frecuencia relativa acumulada por 100 (denotado Pi). 


Ejemplo: 



6/6/15

VARIANZA Y DESVIACION ESTANDAR



Varianza

La varianza es una medida de dispersión relativa a algún punto de referencia. Ese punto de referencia es la media aritmética de la distribución. Más específicamente, la varianza es una medida de que tan cerca, o que tan lejos están los diferentes valores de su propia media aritmética. Cuando más lejos están las Xi de su propia media aritmética, mayor es la varianza; cuando más cerca estén las Xi a su media menos es la varianza. Dado un conjunto de observaciones, tales como X1, X2, …, Xn, la varianza denotada usualmente por la letra minúscula griega σ (sigma) elevada al cuadrado (σ²)y en otros casos S².

La varianza mide qué tan estrecha o ampliamente dispersos están los números alrededor del promedio. De esta manera, una varianza grande significa que los datos están más alejados del promedio, y una varianza más reducida significa que están agrupados más cerca alrededor del promedio. La varianza es el promedio de las diferencias cuadradas (o desviaciones) de cada número con respecto al promedio.

Desviación estándar

La desviación estándar (σ) mide cuánto se separan los datos. Es una medida de la cantidad típica en la que los valores del conjunto de datos difieren de la media. Es la medida de dispersión más utilizada, se le llama también desviación típica. La desviación estándar siempre se calcula con respecto a la media y es un mínimo cuando se estima con respecto a este valor.
Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raíz cuadrada positiva de esta. A la desviación se le representa por la letra minúscula griega "sigma" (σ), o por la letra S

La desviación estándar es una especie de índice de variabilidad, porque es proporcional a la dispersión de los datos. Entre más diversa sea la distribución (es decir, cuando los datos están dispersos más ampliamente), más grande será la desviación estándar, mientras que entre menos diversa sea la distribución (es decir, cuando los datos están agrupados o muy juntos), más pequeña será la desviación estándar. La desviación estándar es muy útil para entender el grado de dispersión de una variable. Para la mayoría de los datos distribuidos normalmente, generalmente casi todos los valores estarán dentro de tres desviaciones estándar del promedio, a esto algunas veces se le conoce como la regla del 68-95-99.7, cerca del 68.27% de los valores están dentro de 1 desviación estándar del promedio (la media) De manera similar, aproximadamente el 95.45% de los valores se encuentran dentro de 2 desviaciones estándar de la media. Casi todos (99.73%) los valores están dentro de 3 desviaciones estándar de la media.

En la  siguiente tabla se pueden identificar la definición de varianza y desviación estándar para poblaciones y muestras:




Ejemplos: 1, 2, 3, 4.

Fuentes: 1, 2, 3, 4, 5.

19/4/14

LA MEDIA

Denominada media estadística o promedio, es una medida de tendencia central que se obtiene al efectuar una serie determinada de operaciones con un conjunto de números y que, en determinadas condiciones, puede representar por sí solo a todo el conjunto. Existen distintos tipos de medias:


Representación Geométrica



Fuentes: 1, 2, 3.