Python’i korrelatsioonikordaja: praktiline ärijuhend

1. Kuidas arvutada korrelatsioonikordajat Pythonis?

Korrelatsioonikordaja on mõõdik, mis kvantifitseerib kahe andmekogumi vahelise suhte tugevust, ulatudes -1 kuni 1. Väärtused, mis on lähedal 1-le, näitavad tugevat positiivset korrelatsiooni (kui üks väärtus suureneb, suureneb ka teine), väärtused, mis on lähedal -1-le, näitavad tugevat negatiivset korrelatsiooni (kui üks väärtus suureneb, teine väheneb), ning väärtused, mis on lähedal 0-le, viitavad vähesele või puudulisele korrelatsioonile.

Korrelatsioonikordaja kasutamise eelised

  • Kiirelt hinnata andmete vahelisi seoseid
  • Tõhus ennustava sisendina trendide ja mustrite mõistmiseks
  • Abiks funktsioonide valikul masinõppemudelite jaoks

2. Põhilised meetodid korrelatsioonikordajate arvutamiseks Pythonis

Pythonis saate korrelatsioonikordajaid hõlpsasti arvutada, kasutades NumPy ja Pandas teeke.

Korrelatsioonikordajate arvutamine NumPy abil

NumPy on numbrilise arvutuse jaoks spetsialiseeritud teek, ning numpy.corrcoef() funktsiooni kasutades saate arvutada korrelatsioonikordajaid loendite või massiivide vahel.

import numpy as np

# Prepare data
data1 = [1, 2, 3, 4, 5]
data2 = [5, 4, 3, 2, 1]

# Compute the correlation coefficient
correlation = np.corrcoef(data1, data2)
print(correlation)

Korrelatsioonikordajate arvutamine Pandas abil

Pandas-is saate luua mitme muutuja vahel korrelatsioonimaatriksi, kasutades DataFrame’i .corr() meetodit. See on kasulik kogu andmekogumi sisemiste seoste mõistmiseks.

import pandas as pd

# Create sample data
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': [2, 3, 4, 5, 6]
}
df = pd.DataFrame(data)

# Compute the correlation matrix
correlation_matrix = df.corr()
print(correlation_matrix)

3. Korrelatsiooni ja põhjuslikkuse erinevus

Paljudel juhtudel näitab korrelatsioonikordaja muutujate vahelise suhte olemasolu, kuid see ei tähenda tingimata, et üks põhjustab teist. Korrelatsiooni ja põhjuslikkuse erinevuse mõistmine parandab andmeanalüüsi usaldusväärsust.

Korrelatsiooni ja põhjuslikkuse erinevused

  • Korrelatsioon : See tähendab, et kaks muutujat liiguvad koos, kuid see ei tähenda tingimata, et üks põhjustab teist. Näiteks jäätise müük ja päikesekaitsekreemide müük tõusevad suvel, näidates korrelatsiooni, kuid nad sõltuvad ühiskommonist – hooajast – ning neil puudub otsene põhjuslik seos.
  • Põhjuslikkus : See viitab olukorrale, kus üks muutuja mõjutab otse teist. Näiteks lüliti vajutamine süütab lamp, sest lüliti tegevus on otsene põhjus lampi süttimiseks.

4. Korrelatsioonikordajate tüübid ja nende rakendused

On olemas mitmesuguseid korrelatsioonikordajate tüüpe ning on oluline valida sobiv tüüp andmete omaduste põhjal.

  • Pearsoni korrelatsioonikordaja : hindab lineaarseid seoseid ja sobib, kui andmed on ligikaudu normaaljaotusega.
  • Spearmani korrelatsioonikordaja : mõõdab järjekorrastatud korrelatsiooni ja on tõhus, kui andmed ei ole normaaljaotusega või sisaldavad palju äärmusväärtusi.
  • Kendalli korrelatsioonikordaja : hindab järjekorra kokkuleppe taset ja on sobiv väikeste andmekogumite või järjekorrase suhete rõhutamise korral.

5. Korrelatsioonikordajate visualiseerimine

Korrelatsioonisuhete tulemuste visualiseerimine muudab andmemustrite intuitiivse mõistmise lihtsamaks.

Visualiseerimine soojuskaardi abil

Kasutades Seaborni heatmap() funktsiooni, visualiseerime korrelatsioonimaatriksit värvidega. Erinevad varjundid võimaldavad näha korrelatsioonide tugevust, nii et saate mitme muutuja vahelised suhted ühe pilguheitmisega mõista.

import seaborn as sns
import matplotlib.pyplot as plt

# Compute the correlation matrix
correlation_matrix = df.corr()

# Create a heatmap
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.show()

Visualiseerimine ribadiagrammidega

Kui soovite keskenduda konkreetse muutuja ja teiste muutujate korrelatsioonile, on tulpdiagrammid tõhusad.

target_corr = df.corr()['A'].sort_values()
target_corr.plot.barh()
plt.show()

6. Reaalsed ärilised kasutusjuhtumid ja ettevaatusabinõud

Ärilised kasutusjuhtumid

  • Turundusanalüüs : Korrelatsioonikordajaid saab kasutada reklaamikulutuste ja müügi vahelise seose analüüsimisel. Kontrollige korrelatsiooni müügikasvu ja reklaamikulutuste suurenemise vahel, et aidata planeerida tõhusaid reklaamistrateegiaid.
  • Kasutajate käitumise analüüs : Hinnake veebiliikluse ja konversioonimäärade vahelist seost, et mõista tegureid, mis mõjutavad konversioonide kõikumist.
  • Masinõpe : Korrelatsioonianalüüsi abil toetatakse masinõppemudelite kasutatavate tunnuste valikut, mis aitab parandada mudeli jõudlust.

Ettevaatusabinõud

Arvestage, et korrelatsioon ei tähenda põhjuslikkust, seega korrelatsioonikordajate tõlgendamine nõuab ettevaatust. Eriti siis, kui kolmas muutuja (segajamuutuja) mõjutab tulemusi, võite jõuda valede järeldusteni. Näiteks jäätise müük ja päikesekaitsekreemide müük tõusevad mõlemad kuumadel suvekuudel, seega kuigi need on korreleeritud, ei ole nende vahel otsest põhjuslikku seost.

7. Kokkuvõte

Selgitasime, kuidas arvutada korrelatsioonikordajaid Pythoniga, korrelatsiooni ja põhjuslikkuse erinevust ning esitasime ka äriliste rakenduste ja ettevaatusabinõude näiteid. Korrelatsioonianalüüs on võimas tööriist andmete vaheliste suhete mõistmiseks, kuid eksituste vältimiseks peaks olema ettevaatlik põhjuslikkuse testimisel.