La estadística es fundamental en la ciencia de datos, ya que sienta las bases para un análisis significativo. No se limita a gráficos simples, sino que permite un examen detallado de los datos, lo que nos ayuda a obtener conclusiones sólidas en lugar de suposiciones. En este artículo se abordarán algunos conceptos clave de estadística que son esenciales para los analistas de datos.
En oportunidades anteriores, les escribí sobre lo interesante de la estadística descriptiva y la estadística inferencial. Luego de leer este articulo, puedes ir a revisar estos enlaces para entender mejor la gran utilidad de datos e información que podemos manejar con esta disciplina. Primero revisemos entonces estos conceptos Básicos de Estadística.
1. Población y Muestras
Población (N)
La población es el conjunto completo que se estudia en un análisis estadístico. Puedes considerarlo como la colección total de puntos de datos. Se denota con la letra N en mayúscula.
Muestra (n)
Una muestra es un subconjunto de la población seleccionado para su análisis. Esta distinción es importante, ya que en muchos casos estudiar toda la población es poco práctico o imposible, lo que hace necesario el uso de muestras. En este caso se denota con la letra n minúscula.
En la investigación, una población no siempre se refiere a personas. Puede hacer referencia a un conjunto que incluya elementos de cualquier cosa que se desee estudiar, como objetos, eventos, organizaciones, países, especies, organismos, entre otros.
Población | Muestra |
---|---|
Anuncios de trabajos de TI en los Estados Unidos | Los 50 principales resultados de búsqueda de anuncios de trabajos de TI en los Estados Unidos en de julio de 2024 |
Canciones del Festival de Eurovisión | Canciones ganadoras del Festival de Eurovisión interpretadas en inglés |
Estudiantes de grado en Francia | 300 estudiantes de grado de tres universidades francesas que se ofrecen como voluntarios para tu estudio de psicología |
Todos los países del mundo | Países con datos publicados sobre tasas de natalidad y PIB desde el año 2022 |
Parámetros y Estadísticas
Parámetros (μ, σ²)
Estas medidas, como la media (μ) o la varianza (σ²), describen a toda la población. A menudo son desconocidos porque es poco práctico examinar cada dato de una población completa. A través del análisis de muestras, podemos estimar estos parámetros.
Estadísticas Muestrales (x̅, s²)
Son estimaciones obtenidas de la muestra, como la media muestral (x̅) y la varianza (s²), que se utilizan para estimar los valores correspondientes en la población.
La estadística inferencial emplea estas estimaciones para hacer conjeturas fundamentadas sobre la población, basándose en métodos de muestreo adecuados para validar dichas estimaciones. Técnicas como las pruebas de hipótesis y los intervalos de confianza son fundamentales para garantizar la precisión de nuestras conclusiones.
Estimadores
Un estimador es un método utilizado para calcular un parámetro poblacional a partir de los datos de una muestra, y suele denotarse como p̂. Por ejemplo, la media muestral es un estimador comúnmente empleado para la media poblacional. Los estimadores eficaces son tanto imparciales como precisos.
Sesgo de un estimador
El sesgo de un estimador se refiere a la diferencia entre el valor esperado del estimador y el valor real del parámetro que se desea estimar.
Si el sesgo = 0, el estimador es imparcial, lo que significa que, en promedio, estima correctamente el parámetro.
Si el sesgo ≠ 0, el estimador es sesgado, lo que indica una desviación sistemática del valor real del parámetro.
También en comparación con lo esperado, si el valor es menor, se puede hablar de sesgo negativo a la izquierda. Si el valor es mayor de lo esperado, se habla de sesgo a la derecha o positivo.
La precisión de un estimador
La precisión está relacionada con la varianza del estimador y refleja qué tan cerca están los valores estimados del valor verdadero. Una varianza baja significa alta precisión, lo que indica estimaciones consistentes en diferentes muestras.
Técnicas de Muestreo
Muestreo Aleatorio Simple: Este método asegura que cada miembro de la población tenga la misma probabilidad de ser seleccionado, garantizando una representación justa.
Muestreo Estratificado: La población se divide en subgrupos, y se extraen muestras de cada uno para mantener una representación proporcional.
Muestreo por Conglomerados: Consiste en dividir la población en grupos o conglomerados y seleccionar aleatoriamente conglomerados completos para su estudio detallado.
Muestreo Sistemático: Implica seleccionar muestras a intervalos regulares, lo que proporciona un enfoque simplificado al muestreo aleatorio.
Tipos de Variables
Las variables se clasifican en categóricas (nominales, ordinales) y numéricas (discretas, continuas).
Ejemplos:
Nominal: Colores (rojo, azul);
Ordinal: Una variable que sigue un orden, como los niveles educativos (secundaria < licenciatura < maestría);
Discreta: Una variable discreta solo puede tomar valores enteros. (100, 2, 30, 1, 40, 5000)
Continua: Una variable que puede tomar cualquier valor decimal o fraccionado. (3/4, 0.00723, 3.141516)
Medidas de Tendencia Central
Media Aritmética
La media muestral se utiliza para estimar la media verdadera (μ) de una distribución en toda la población. La media muestral se suele denotar como (x̅) y se define de la siguiente manera:
donde X₁,…, Xₙ es una muestra de n mediciones independientes.
Mediana
La mediana actúa como el punto medio del conjunto de datos, dividiendo los datos de manera equitativa: la mitad de los valores está por encima y la otra mitad por debajo. Es especialmente útil en distribuciones asimétricas, ya que representa mejor un valor «central».
Moda
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. Es el valor que tiene mayor probabilidad de ser seleccionado en una muestra.
Medidas de Dispersión
Rango
El rango representa la diferencia entre los valores más grandes y más pequeños en una muestra de datos.
Rango Intercuartílico (IQR)
El IQR describe la parte central de los datos, abarcando desde el primer cuartil (Q1) hasta el tercer cuartil (Q3). Imagina que alineas todos tus datos y seleccionas la sección media: Q1 marca el inicio (el 25% más bajo) y Q3 marca el final (el 25% más alto). Este rango, el IQR, cubre el 50% central de tus datos, ayudándote a identificar dónde se concentra la mayor parte de los valores, ignorando los valores atípicos.
Varianza y Desviación Estándar
La varianza muestral se utiliza para estimar la verdadera varianza (σ²) de una distribución. Mide qué tan dispersos están los valores de una muestra respecto a su promedio. Se denota como s² y se define de la siguiente manera:
La varianza es el cuadrado de la desviación estándar. La desviación estándar, denotada como «s» en su estimación muestral, es más fácil de interpretar porque está en las mismas unidades que los datos.
Puntuación Z (Z-Score)
Para cada individuo de tu muestra, puedes calcular su puntuación Z, lo que te permite saber cuántas desviaciones estándar está de la media.
Una puntuación Z es positiva para los valores que están por encima del promedio y negativa para los que están por debajo. Por ejemplo, si obtienes una puntuación Z de 1.5 para un individuo, esto significa que está 1.5 desviaciones estándar por encima de la media.
Correlación
La correlación evalúa la intensidad y dirección de una relación lineal entre dos variables.
Ejemplo: En un estudio, encontramos una correlación positiva fuerte (0.9) entre las horas de estudio y los resultados en los exámenes, lo que sugiere que a más horas de estudio, mejores son las calificaciones.
Distribución Normal
Una curva normal, o curva de campana, muestra qué tan comunes son diferentes valores. Imagina que alineas a todas las personas según su estatura. La mayoría estaría en el centro, con una altura promedio. Las personas muy altas o muy bajas estarían en los extremos.
Este patrón, donde la mayoría de los valores son promedio y solo unos pocos son extremos, tiene la forma de una campana, de ahí el nombre de «curva de campana». La curva de campana, o distribución normal, es importante porque nos ayuda a entender cómo se distribuyen los datos alrededor del promedio.
Asimetría y Curtosis
La asimetría y la curtosis son dos estadísticas que miden diferentes aspectos de la forma de una distribución, proporcionando más detalles sobre cómo se desvía de una curva de campana perfecta o una distribución normal.
Asimetría
Mide la falta de simetría en una distribución. Si una distribución tiene una cola larga hacia la derecha (más valores altos), se dice que tiene asimetría positiva. Si la cola está hacia la izquierda (más valores bajos), tiene asimetría negativa. Esto nos indica si la distribución se inclina hacia algún lado.
Curtosis
Mide la «pronunciación» de las colas de una distribución, es decir, cuán pesadas o ligeras son las colas en comparación con una distribución normal. Una alta curtosis significa que más datos se concentran en las colas y los picos, mientras que una baja curtosis indica que los datos están más uniformemente distribuidos.
Intervalos de Confianza
Es un rango de valores, obtenido a partir de datos muestrales, que probablemente contiene el verdadero parámetro poblacional desconocido.
Ejemplo: Estimar un intervalo de confianza del 95% para la estatura promedio de los hombres adultos.
Conclusión
Recuerda que la estadística es como una caja de herramientas para un detective. Te permite descubrir información oculta y resolver misterios presentes en los datos. Estos conceptos son la clave para desvelar el «encanto» de los números y transformarlos en valiosas conclusiones.
Hoy en día, manejar bien la estadística es esencial, ya que vivimos en una era impulsada por los datos. Desde la toma de decisiones empresariales hasta la investigación científica, la capacidad de analizar y comprender los datos con precisión es fundamental para obtener ventajas competitivas, optimizar procesos y tomar decisiones bien informadas.
Espero que te gustara este contenido. Si deseas agregar otro concepto que consideras importante, escríbeme en los comentarios.