La Correlación en el Análisis de Datos: Conceptos, Aplicaciones y Ejemplos con Python

Esteban Madrigal
27 ene 2023
6 Min. de lectura

La correlación es una medida estadística que indica la relación entre dos o más variables. Esta puede ser positiva, negativa o nula. Una correlación positiva indica que a medida que una variable aumenta, la otra variable también aumenta, mientras que una correlación negativa indica que a medida que una variable aumenta, la otra variable disminuye. La correlación no implica causalidad, es decir, no necesariamente significa que una variable está causando al cambio en la otra.

¿Por qué es importante estudiar la correlación?

El estudio de la correlación es importante en muchos campos del conocimiento, como la economía, la psicología, la epidemiología y la estadística. En el análisis exploratorio de datos la correlación ayuda a identificar patrones y relaciones entre variables, lo que puede conducir a nuevas hipótesis y descubrimientos.

Por otra parte, en la predicción y el modelado, la correlación se utiliza para seleccionar variables relevantes y construir modelos predictivos. En los estudios epidemiológicos es utilizada para identificar factores de riesgo y determinar la relación entre exposiciones y enfermedades.

¿Qué es la correlación?

La correlación es una medida estadística que indica la relación entre dos o más variables. Se utiliza para cuantificar la fuerza y la dirección de la relación entre dos variables. El coeficiente de correlación varía entre -1 y 1, donde un coeficiente de 1 indica una relación perfectamente positiva, -1 indica una relación perfectamente negativa y 0 indica ausencia de relación.

Tipos de correlación:

Existen dos tipos principales de correlación, la correlación positiva y la correlación negativa. Una correlación positiva se da cuando las dos variables aumentan o disminuyen juntas, mientras que una correlación negativa se da cuando una variable aumenta mientras la otra disminuye. Además, la correlación puede ser débil o fuerte, una correlación débil se da cuando el coeficiente de correlación está cerca de cero, mientras que una correlación fuerte se da cuando el coeficiente de correlación está cerca de 1 o -1.

Uso del coeficiente de correlación para medir la relación entre variables:

El coeficiente de correlación es la medida estadística más comúnmente utilizada para medir la relación entre dos variables. El coeficiente de correlación de Pearson es el más común y mide la relación lineal entre dos variables continuas. Existen también otros coeficientes de correlación para medir relaciones no lineales o relaciones entre variables categóricas. Es importante tener en cuenta que el uso de un coeficiente de correlación específico dependerá del tipo de variables y de la distribución de los datos que se estén analizando.

Correlación vs Causalidad

Correlación y causalidad son dos conceptos estadísticos diferentes. Correlación se refiere a la relación entre dos o más variables, mientras que causalidad se refiere a la relación de causa y efecto entre dos variables. Es posible que dos variables estén correlacionadas, pero eso no significa necesariamente que una variable esté causando al cambio en la otra.

Un ejemplo de correlación vs causalidad es el número de helados vendidos y el número de accidentes de tráfico. Es posible que estas dos variables estén correlacionadas, ya que ambas aumentan en el verano, pero eso no significa que el número de helados vendidos cause accidentes de tráfico. Otro ejemplo es el número de horas de estudio y el rendimiento académico, es posible que un estudiante que estudia más tenga un mejor rendimiento académico, pero esto no significa que el estudio sea la causa del mejor rendimiento.

Confundir correlación con causalidad puede llevar a conclusiones equivocadas y a la toma de decisiones ineficaces. Por ejemplo, si se cree que el número de helados vendidos causa accidentes de tráfico, se podría tomar medidas innecesarias para reducir el número de helados vendidos en lugar de abordar el verdadero problema detrás de los accidentes de tráfico. También puede llevar a la ignorancia de otros factores importantes que están relacionados con el problema.

Medidas de Correlación

Coeficiente de Pearson: es una medida de la relación lineal entre dos variables continuas. Es el coeficiente de correlación más comúnmente utilizado y varía entre -1 y 1, donde 1 indica una relación perfectamente positiva, -1 indica una relación perfectamente negativa y 0 indica ausencia de relación. El coeficiente de Pearson es adecuado para variables continuas que siguen una distribución normal.
Coeficiente de Spearman: es una medida de la relación no lineal entre dos variables. Es similar al coeficiente de Pearson, pero mide la relación entre las posiciones relativas de los datos en lugar de los valores de las variables. El coeficiente de Spearman varía entre -1 y 1, donde 1 indica una relación perfectamente positiva, -1 indica una relación perfectamente negativa y 0 indica ausencia de relación. Este coeficiente es adecuado para datos ordinales o continuos no normales.
Coeficiente de Kendall: es una medida de la relación ordinal entre dos variables. Es similar al coeficiente de Spearman, pero se utiliza específicamente para variables ordinales. El coeficiente de Kendall varía entre -1 y 1, donde 1 indica una relación perfectamente positiva, -1 indica una relación perfectamente negativa y 0 indica ausencia de relación.
Otros coeficientes de correlación: existen muchos otros coeficientes de correlación disponibles, como el coeficiente de correlación de Point-Biserial, el coeficiente de correlación de Tau-b de Kendall y el coeficiente de correlación de Mathews. Cada uno de estos coeficientes se utiliza en situaciones específicas y con tipos específicos de datos.
Cuando utilizar cada medida: Es importante elegir la medida de correlación adecuada dependiendo del tipo de variables y la distribución de los datos. El coeficiente de Pearson es adecuado para variables continuas que siguen una distribución normal. El coeficiente de Spearman es adecuado para datos ordinales o continuos no normales. El coeficiente de Kendall es adecuado para variables ordinales. Otros coeficientes de correlación como el coeficiente de Point-Biserial, el coeficiente de correlación de Tau-b de Kendall y el coeficiente de correlación de Mathews se utilizan en situaciones específicas y con tipos específicos de datos. Es importante también tener en cuenta el objetivo del estudio y la interpretación de los resultados.

Aplicaciones de la Correlación

Análisis exploratorio de datos: la correlación es una herramienta importante en el análisis exploratorio de datos ya que ayuda a identificar patrones y relaciones entre variables. Esto puede conducir a nuevas hipótesis y descubrimientos en diferentes campos.
Predicción y modelado: en la predicción y el modelado, la correlación se utiliza para seleccionar variables relevantes y construir modelos predictivos. La correlación ayuda a identificar las variables que tienen la mayor relación con la variable objetivo y a construir modelos que se ajusten mejor a los datos.
Estudios epidemiológicos: en los estudios epidemiológicos, la correlación se utiliza para identificar factores de riesgo y determinar la relación entre exposiciones y enfermedades. Los estudios de correlación son una herramienta importante para identificar las relaciones entre los factores de riesgo y las enfermedades.
Otros campos de aplicación: la correlación es una herramienta importante en muchos campos del conocimiento, como la economía, la psicología, la sociología, la ingeniería y la física, entre otros. En estos campos, la correlación se utiliza para analizar y entender las relaciones entre las variables y para tomar decisiones informadas.

Caso Práctico utilizando Python

Para calcular el coeficiente de Pearson, se puede utilizar la función "pearsonr()" del módulo "scipy.stats". El código sería algo similar a esto:

from scipy.stats import pearsonr
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
coef, p = pearsonr(x, y)
print("Coeficiente de Pearson: ", coef)

Para calcular el coeficiente de Kendall, se puede utilizar la función "kendalltau()" del módulo "scipy.stats". El código sería algo similar a esto:

from scipy.stats import kendalltau
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
coef, p = kendalltau(x, y)
print("Coeficiente de Kendall: ", coef)

Para calcular el coeficiente de Spearman, se puede utilizar la función "spearmanr()" del módulo "scipy.stats". El código sería algo similar a esto:

from scipy.stats import spearmanr
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
coef, p = spearmanr(x, y)
print("Coeficiente de spearman: ", coef)

Es posible calcular los coeficientes de correlación para una matriz de datos en lugar de para dos vectores individuales. En lugar de utilizar las funciones que mencioné anteriormente, puedes utilizar la función "corr()" del módulo "pandas" para calcular la matriz de correlación para todas las variables en un conjunto de datos.

Por ejemplo, si tienes un DataFrame de pandas llamado "df" con tus datos, el código para calcular la matriz de correlación de Pearson sería:

import pandas as pd
df = pd.read_csv("/content/DatasetHeatMap.csv")

#Correlación lineal
corr_matrix = df.corr()
print(corr)

Para calcular la matriz de correlación de Kendall o Spearman se debe utilizar la función "corr()" de pandas y especificar el tipo de coeficiente, sería de esta manera:

corr_matrix_kendall = df.corr(method='kendall')
corr_matrix_spearman = df.corr(method='spearman')

La matriz de correlación resultante tendrá un valor para cada par de variables en el conjunto de datos. Puedes utilizar esta matriz para identificar patrones y relaciones entre variables y para seleccionar variables relevantes para modelos predictivos.

Es importante mencionar que antes de calcular la matriz de correlación es necesario limpiar y preparar los datos, eliminando valores faltantes o outliers, entre otras tareas. Y la representación visual se podría realizar con librerías tales como seaborn o matplotlib

sns.heatmap(corr_matrix , annot=True, cmap='YlGnBu', vmax=1,vmin=-1)
plt.title('Gráfico de Calor')
plt.show()

Conclusión

La correlación es una herramienta valiosa en el análisis estadístico ya que ayuda a identificar patrones y relaciones entre variables. Es importante elegir la medida de correlación adecuada dependiendo del tipo de variables y la distribución de los datos. También debemos tomar en cuenta la diferencia entre correlación y causalidad, para evitar confusiones.