[MUSIC] En este video te presentamos las principales estadísticas descriptivas agrupadas en tres categorías. Medidas de tendencia central, medidas de variabilidad y medidas de posición. Además, veremos cómo se calculan y cómo se interpretan. Su objetivo es describir un conjunto de datos sin necesariamente producir conclusiones o realizar inferencias. Acerca de la población a la que pertenecen estos datos. Un análisis descriptivo se puede realizar de forma gráfica o numérica. Esta última a través de medidas que resumen la muestra, objetivo de este video. Al realizar un análisis descriptivo de una muestra aleatoria. Es importante tener en cuenta cuáles son las escalas de medición de cada una de las variables que tenemos disponibles en la muestra. you que no todas las estadísticas aplican para todo tipo de variable. Antes de continuar, queremos que tengan clara cuál es la diferencia entre realizar estadística descriptiva y realizar estadística inferencial. La estadística descriptiva se encarga de resumir de forma cuantitativa. Los valores de una muestra aleatoria a través de unas mediciones que llamamos estadísticas. La estadística inferencial utiliza métodos como construcción de intervalos de confianza o evaluación de pruebas de hipótesis. A través de las cuales se puede realizar inferencia acerca de las características de una población. A partir de los datos de una muestra aleatoria. Al realizar un análisis estadístico, es necesario precisar cuál es la variable aleatoria para la cual queremos realizar ese análisis. En una muestra aleatoria podemos tener diferentes características para analizar. Cada una de ellas las denotamos a través de variables como X, Y, Z, W, entre otras. Una vez decidimos cuál es la variable para la cual queremos realizar el análisis. Lo que hacemos es tomar una muestra aleatoria, en la cual obtenemos valores específicos para cada uno de los elementos de esta muestra. Los cuales se convierten en la evidencia. Es esta evidencia, a través de la cual nosotros aplicamos una serie de fórmulas que llamamos estadísticas. Y obtenemos valores puntuales de la muestra. you veremos más adelante qué significan cada una de estas fórmulas. Una estadística no es más que una medida numérica que se calcula a partir de los datos de la muestra. Cuyo valor se conoce una vez especificamos los valores de la muestra aleatoria. Y este valor puede cambiar si nosotros tenemos muestras con valores diferentes. Este valor de la estadística varía de una muestra a otra. Para finalizar, es importante formalizar qué significa una estadística. Y no es más que una función de las variables aleatorias X1, X2, X3, hasta Xn. Es decir, una función de la muestra aleatoria. Recordemos que es importante identificar cuál es la escala de medición de la variable que estámos analizando. En la tabla que tenemos en la pantalla podemos diferenciar los tipos de variables. De forma ilustrativa mencionamos algunos elementos que pueden serles útiles para diferenciar estas variables. Y además es importante mencionar que no todas las estadísticas aplican a todos los tipos de variables. Por ejemplo, si estamos analizando el color de los ojos, y es una variable que hemos categorizado. Asignandole uno, dos, tres o cuatro al color de los ojos específicos. Entonces, si nosotros calculamos la media de esta variable, su resultado no sería interpretable, no tendría validez. En este caso, una medida como la media no tendría sentido pero una medida como la moda sí lo tendría. Las estadísticas descriptivas podemos agruparlas en tres categorías. Medidas de tendencia central, medidas de variabilidad y medidas de posición. Veremos a continuación cómo calcularlos y cómo interpretar cada uno de estos valores. Muy bien, en la pantalla tenemos las medidas de tendencia, central, media, mediana y moda. La definición de cada uno de ellas, y unos datos. A partir de estos datos, vamos a ejemplificar la forma de calcular e interpretar cada una de estas medidas. Para calcular la media, necesitamos tomar los datos de la muestra aleatoria. X1, X2, X3, hasta Xn, en este caso ocho datos. Sumarlos, dividir en el tamaño de la muestra, que en este caso es ocho. Y encontrar que la media de esta variable corresponde a 12.24. Si ahora queremos calcular la mediana, la mediana corresponde al valor de mi variable. Hasta el cual se acomula el 50% de los datos. Eso necesariamente implica que debamos organizar los datos de menor a mayor. Tal como aparecen en la pantalla. Una vez organizados debemos identificar cuál es el dato de la mitad. Como tenemos ocho datos la posición 4 y 5 corresponden a los valores de la mitad tal como se presenta en el circulo naranja. Tomando estos datos y dividiendo en dos, encontramos el valor de la mediana, 10.55, ¿qué significa? Que el 50% de los datos de esta variable o de esta muestra aleatoria. Se encuentran o son menores o iguales a 10.55. Implícitamente, el 50% son mayores a 10.55. Calculemos para finalizar, la moda. Si revisamos los datos, la moda implica identificar cuál es el valor que tiene la mayor frecuencia. En nuestro caso no tenemos ninguna moda identificada, you que ninguno de los casos se repite más de una vez. Ahora bien, es posible que en una muestra aleatoria no exista moda. Pero también es posible que en una muestra aleatoria tengamos varias modas. Si hay varios valores que tienen la frecuencia igual y más alta posible dentro de todos nuestros datos. Para finalizar, queremos mostrar tres gráficas que aparecen en la parte inferior de la pantalla. Donde tenemos una distribución o unos datos graficados, los cuales se comportan de forma simétrica. Y allí es posible ver que la media, la mediana y la moda tienen exactamente el mismo valor. ¿Qué pasa si nuestros datos no son simétricos? Y se encuentran sesgados bien sea al lado positivo o al lado negativo como son las dos siguientes gráficas. La media, la mediana y la moda tienen valores diferentes. Es importante reconocer que estas tres medidas tienen una interpretación particular. Que la mediana no se deja afectar por valores extremos de la muestra. you que no los utiliza de forma explícita para su cálculo. Pero sí ocurre esta afectación si tengo valores extremos en mi muestra. En el cálculo de la media. Hablemos ahora de las medidas de variabilidad. En nuestro caso, vamos a hablar de varianza muestral, desviación estándar muestral y coeficiente de variabilidad. Estas medidas reflejan el grado de dispersión de los datos con respecto a su media. Para empezar, calculemos el valor de la varianza muestral. Si tenemos los siguientes datos, ¿cómo calculamos la varianza? Bueno, lo primero que debemos hacer es calcular el valor del promedio de estos datos, que corresponde a 12.24. Ahora, tal como indica la fórmula, debemos restar cada uno de los valores de X menos el valor del promedio. Lo cual aparece en la segunda columna. La última columna corresponde a las diferencias elevadas al cuadrado, cuya sumatoria corresponde a 121.52. Al dividir esta sumatoria en n-1, que en nuestro caso corresponde a 7 datos. Obtenemos el valor de la varianza muestral, que es de 17.36 unidades al cuadrado. A partir de este resultado, podemos encontrar la desviación muestral. La cual se calcula simplemente hallando la raíz de la varianza. Haciendo el ejercicio, encontramos que la desviación estándar muestral de los datos disponibles corresponde a 4.17. La desviación estándar tiene unidades iguales a las de la variable que estamos analizando. Así que la medida de dispersión que podemos fácilmente interpretar corresponde a la desviación estándar. Para finalizar, cuando hablamos del coeficiente de variabilidad hablamos de un coeficiente adimensional. Que nos permite comparar el comportamiento en términos de variabilidad de diferentes poblaciones. Vamos a hacer uso de este coeficiente en el ejercicio más adelante. ¿Cómo lo calculamos? Desviación estándar sobre promedio. Con base en los datos que tenemos aquí en la pantalla disponibles. Obtenemos que el porcentaje de variabilidad relativa corresponde a 0.34 o 34%. En la gráfica que acaba de aparecer en la pantalla tenemos representadas dos variables aleatorias, o dos grupos de datos. Uno para la variable aleatoria X, y otro para la variable aleatoria Y. En ella podemos ver que las dos variables aleatorias tienen la misma media. Sin embargo, la dispersión de los datos de las dos variables es diferente. La variable aleatoria Y, que es la variable que se encuentra más plana. Tiene un rango más amplio, lo cual indica una mayor variabilidad. Ahora bien, queremos realizar el cálculo de algunas estadísticas descriptivas pero aplicados a un caso real. En esta oportunidad, vamos a tomar los resultados de una encuesta realizada en la Universidad de los Andes. A 500 estudiantes de la facultad de Ingeniería. Donde identificamos el género de cada una de las personas que realizan esta encuesta. La ingeniería que estudian, el deporte que practican. Y la dedicación semanal en horas a cada uno de los deportes que mencionaron. Para analizar esta información vamos a hacernos cuatro preguntas que aparecen en la pantalla y vamos a ir las resolviendo una a una. Para empezar, queremos calcular. En promedio, ¿cuántas horas semanales dedican a la práctica de actividad física los estudiantes de ingeniería? Vamos a comparar la media calculada con las otras medidas de tendencia central. Cuya variable para la cual necesitamos realizar el análisis descriptivo. La dedicación semanal en horas. Este análisis podemos hacerlo rápidamente a través de dos herramientas. Pueden utilizar Excel a través de la ruta Datos, Análisis de Datos y el menú Estadística Descriptiva. O a través de las fórmulas o funciones de Excel, promedio, mediana y moda. Recuerden que dependiendo de la versión de Excel que tengan instalada, o la configuración de idioma. Estas funciones pueden cambiar. Calculados estos datos encontramos que en promedio los estudiantes de ingeneria de la muestra dada. Dedican a la semana 5.87 horas a la realización de deporte. Con la mediana, lo que tenemos es que el 50% de los datos. Es decir, el 50% de los estudiantes dedican a la semana 6 horas o menos a la realización de un deporte. La moda implica que el número de horas de dedicación semanal con mayor frecuencia. En los estudiantes de Ingeniería de la muestra que nos dieron es de 6 horas. Vean que todas las medidas de tendencia central tienen las mismas unidades de la variable. Veamos ahora la segunda pregunta. Nos piden calcular las medidas de variabilidad del tiempo dedicado semanalmente a la práctica de actividad física. Por parte de los estudiantes de Ingeniería. Tomando los datos, los cuales se presentan parcialmente en la pantalla. Y habiendo identificado la variable para la cual queremos realizar el análisis. Podemos utilizar las funciones de Excel o las rutas que aparecen en la pantalla. Una vez utilizadas encontramos que la desviación estándar muestral es de 2.42 horas. Recuerden que las unidades son iguales a las de la variable. La varianza corresponde a 5.84 horas al cuadrado. El rango que corresponde a la resta entre el máximo y el mínimo valor es de 13. Y el coeficiente de variabilidad calculado, que es de 0.41. Recuerden que este coeficiente no tiene dimensiones. ¿Cuál es la interpretación de esta desviación estándar? En promedio, la variabilidad alrededor de la media del número de horas de dedicación semanal a la práctica de actividad física. Por parte de los estudiantes de ingeniería, es de 2.42 horas. Muy bien, hablemos ahora al coeficiente de variabilidad. En esta oportunidad debemos calcular cuál es el coeficiente de variabilidad. Para el tiempo dedicado semanalmente a la práctica de actividad física. Por parte de los estudiantes que practican fútbol y de quienes practivan yoga. Para esto debemos clasificar nuestros datos, de acuerdo con el deporte que practican las 500 personas dadas en la muestra. Calcular para cada uno de estos grupos el promedio de dedicación semanal en horas. Así como la desviación estándar de la dedicación semanal en horas. A partir de estas dos mediciones, podemos entonces calcular el coeficiente de variabilidad. Como aparece en la última columna de la tabla. Hemos señalado los estudiantes que practican fútbol y que practican yoga. Si utilizamos simplemente la desviación estándar para comparar la variabilidad. Del tiempo dedicado a la práctica de deporte en estos dos grupos. Vemos que la diferencia no es mucha, podríamos decir que la variabilidad es similar en los dos. Grupos de estudiantes. Sin embargo, si calculamos el coeficiente de variabilidad que corresponde a 0.39 y 0.78 respectivamente. Vemos que se hace notoria la diferencia en términos de variabilidad de estos dos grupos. Así que a partir del coeficiente de variabilidad podemos comparar de una forma más adecuada variables que tengan diferentes magnitudes. O variables que tengan diferentes unidades. Hablemos ahora de las medidas de posición. En este caso, vamos a hablar específicamente de los percentiles. Esto implica que nuestros datos de la muestra aleatoria se dividen en 100 partes. Los percentiles corresponden a valores hasta los cuales se acumula un x% de los datos de la muestra aleatoria. Y requiere que los datos se encuentren ordenados de menor a mayor. Nuestro fin, en esta oportunidad, es calcular el percentil del 50% y el percentil del 90% para el tiempo dedicado a la semana a la práctica de actividad física por parte de los estudiantes de ingeniería. Muy bien, teniendo nuestros datos, los cuales you se encuentran ordenados e identificada la posición de cada uno de ellos, podemos hacer el cálculo de cada uno de los dos percentiles solicitados. Para empezar el percentil del 50% corresponde a identificar cuál es el valor al cual se acumula el 50% de los estudiantes. Entonces, tomamos los valores 250 y 251 que corresponden a los valores exactos de la mitad de nuestros datos. Y vemos que el percentil del 50% corresponde a un valor de 6. ¿Cuál es la interpretación? El 50% de los estudiantes de ingeniería dados en la muestra, dedican 6 o menos horas a la práctica de actividad física. Ahora bien, calculemos el percentil del 90%. Recuerden que el 90% corresponde a el valor o la ubicación 450. Tenemos 500 datos, el 90% de nuestros datos corresponde a 450. Es decir, que la posición 450 me indica, con los datos ordenados, cuál es el percentil del 90%. La interpretación es que el 90% de los estudiantes de ingeniería dedican 9 o menos horas a la práctica de actividad física. En Excel, pueden hacer uso de la función percentil seleccionando los datos. E identificando cuál es el porcentaje de datos asociados al percentil que quieren calcular, tal como aparecen en la pantalla. Para finalizar, queremos mostrarles de forma gráfica el cálculo de los percentiles. En el histograma que tenemos en la pantalla tenemos las frecuencias para cada uno de los valores en nuestra variable. Y las frecuencias en un porcentaje acumulado. Recuerden que los percentiles corresponden a los valores de la variable, hasta el cual se acumula cierto porcentaje de datos. Verifiquemos el percentil del 50%, corresponde a 6. Si lo ven en la pantalla, tenemos que hasta el valor de 6 tenemos acumulado el 62% de los datos. ¿Por qué identificamos que el percentil del 50% era también 6? Eso implica, tal como le pueden ver en la parte izquierda de la pantalla donde tenemos los datos que 6 se repite varias veces. Entonces, la posición 250, 251, 252, 54, 55 en adelante, tienen el valor de 6. Esto implica que el percentil del 50%, del 51%, 52%, 53% hasta el percentil del 62.8% corresponde al valor de 6. A través de los percentiles, también podemos ver los datos, si se encuentran o no acumulados alrededor de cierto valor. Lo mismo ocurre con el percentil del 90% que corresponde al valor de 9. En frecuencia acomulado, tenemos que el 90% de nuestros estudiantes de ingenería tienen un valor de dedicación semanal a la activada física menor o igual a 9 horas.