- 1 1. Kuidas arvutada korrelatsioonikordajat Pythonis?
- 2 2. Põhilised meetodid korrelatsioonikordajate arvutamiseks Pythonis
- 3 3. Korrelatsiooni ja põhjuslikkuse erinevus
- 4 4. Korrelatsioonikordajate tüübid ja nende rakendused
- 5 5. Korrelatsioonikordajate visualiseerimine
- 6 6. Reaalsed ärilised kasutusjuhtumid ja ettevaatusabinõud
- 7 7. Kokkuvõte
1. Kuidas arvutada korrelatsioonikordajat Pythonis?
Korrelatsioonikordaja on mõõdik, mis kvantifitseerib kahe andmekogumi vahelise suhte tugevust, ulatudes -1 kuni 1. Väärtused, mis on lähedal 1-le, näitavad tugevat positiivset korrelatsiooni (kui üks väärtus suureneb, suureneb ka teine), väärtused, mis on lähedal -1-le, näitavad tugevat negatiivset korrelatsiooni (kui üks väärtus suureneb, teine väheneb), ning väärtused, mis on lähedal 0-le, viitavad vähesele või puudulisele korrelatsioonile.
Korrelatsioonikordaja kasutamise eelised
- Kiirelt hinnata andmete vahelisi seoseid
- Tõhus ennustava sisendina trendide ja mustrite mõistmiseks
- Abiks funktsioonide valikul masinõppemudelite jaoks
2. Põhilised meetodid korrelatsioonikordajate arvutamiseks Pythonis
Pythonis saate korrelatsioonikordajaid hõlpsasti arvutada, kasutades NumPy ja Pandas teeke.
Korrelatsioonikordajate arvutamine NumPy abil
NumPy on numbrilise arvutuse jaoks spetsialiseeritud teek, ning numpy.corrcoef() funktsiooni kasutades saate arvutada korrelatsioonikordajaid loendite või massiivide vahel.
import numpy as np
# Prepare data
data1 = [1, 2, 3, 4, 5]
data2 = [5, 4, 3, 2, 1]
# Compute the correlation coefficient
correlation = np.corrcoef(data1, data2)
print(correlation)
Korrelatsioonikordajate arvutamine Pandas abil
Pandas-is saate luua mitme muutuja vahel korrelatsioonimaatriksi, kasutades DataFrame’i .corr() meetodit. See on kasulik kogu andmekogumi sisemiste seoste mõistmiseks.
import pandas as pd
# Create sample data
data = {
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1],
'C': [2, 3, 4, 5, 6]
}
df = pd.DataFrame(data)
# Compute the correlation matrix
correlation_matrix = df.corr()
print(correlation_matrix)

3. Korrelatsiooni ja põhjuslikkuse erinevus
Paljudel juhtudel näitab korrelatsioonikordaja muutujate vahelise suhte olemasolu, kuid see ei tähenda tingimata, et üks põhjustab teist. Korrelatsiooni ja põhjuslikkuse erinevuse mõistmine parandab andmeanalüüsi usaldusväärsust.
Korrelatsiooni ja põhjuslikkuse erinevused
- Korrelatsioon : See tähendab, et kaks muutujat liiguvad koos, kuid see ei tähenda tingimata, et üks põhjustab teist. Näiteks jäätise müük ja päikesekaitsekreemide müük tõusevad suvel, näidates korrelatsiooni, kuid nad sõltuvad ühiskommonist – hooajast – ning neil puudub otsene põhjuslik seos.
- Põhjuslikkus : See viitab olukorrale, kus üks muutuja mõjutab otse teist. Näiteks lüliti vajutamine süütab lamp, sest lüliti tegevus on otsene põhjus lampi süttimiseks.
4. Korrelatsioonikordajate tüübid ja nende rakendused
On olemas mitmesuguseid korrelatsioonikordajate tüüpe ning on oluline valida sobiv tüüp andmete omaduste põhjal.
- Pearsoni korrelatsioonikordaja : hindab lineaarseid seoseid ja sobib, kui andmed on ligikaudu normaaljaotusega.
- Spearmani korrelatsioonikordaja : mõõdab järjekorrastatud korrelatsiooni ja on tõhus, kui andmed ei ole normaaljaotusega või sisaldavad palju äärmusväärtusi.
- Kendalli korrelatsioonikordaja : hindab järjekorra kokkuleppe taset ja on sobiv väikeste andmekogumite või järjekorrase suhete rõhutamise korral.
5. Korrelatsioonikordajate visualiseerimine
Korrelatsioonisuhete tulemuste visualiseerimine muudab andmemustrite intuitiivse mõistmise lihtsamaks.
Visualiseerimine soojuskaardi abil
Kasutades Seaborni heatmap() funktsiooni, visualiseerime korrelatsioonimaatriksit värvidega. Erinevad varjundid võimaldavad näha korrelatsioonide tugevust, nii et saate mitme muutuja vahelised suhted ühe pilguheitmisega mõista.
import seaborn as sns
import matplotlib.pyplot as plt
# Compute the correlation matrix
correlation_matrix = df.corr()
# Create a heatmap
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.show()
Visualiseerimine ribadiagrammidega
Kui soovite keskenduda konkreetse muutuja ja teiste muutujate korrelatsioonile, on tulpdiagrammid tõhusad.
target_corr = df.corr()['A'].sort_values()
target_corr.plot.barh()
plt.show()

6. Reaalsed ärilised kasutusjuhtumid ja ettevaatusabinõud
Ärilised kasutusjuhtumid
- Turundusanalüüs : Korrelatsioonikordajaid saab kasutada reklaamikulutuste ja müügi vahelise seose analüüsimisel. Kontrollige korrelatsiooni müügikasvu ja reklaamikulutuste suurenemise vahel, et aidata planeerida tõhusaid reklaamistrateegiaid.
- Kasutajate käitumise analüüs : Hinnake veebiliikluse ja konversioonimäärade vahelist seost, et mõista tegureid, mis mõjutavad konversioonide kõikumist.
- Masinõpe : Korrelatsioonianalüüsi abil toetatakse masinõppemudelite kasutatavate tunnuste valikut, mis aitab parandada mudeli jõudlust.
Ettevaatusabinõud
Arvestage, et korrelatsioon ei tähenda põhjuslikkust, seega korrelatsioonikordajate tõlgendamine nõuab ettevaatust. Eriti siis, kui kolmas muutuja (segajamuutuja) mõjutab tulemusi, võite jõuda valede järeldusteni. Näiteks jäätise müük ja päikesekaitsekreemide müük tõusevad mõlemad kuumadel suvekuudel, seega kuigi need on korreleeritud, ei ole nende vahel otsest põhjuslikku seost.
7. Kokkuvõte
Selgitasime, kuidas arvutada korrelatsioonikordajaid Pythoniga, korrelatsiooni ja põhjuslikkuse erinevust ning esitasime ka äriliste rakenduste ja ettevaatusabinõude näiteid. Korrelatsioonianalüüs on võimas tööriist andmete vaheliste suhete mõistmiseks, kuid eksituste vältimiseks peaks olema ettevaatlik põhjuslikkuse testimisel.


