Gunakan .corr untuk mendapatkan korelasi antara dua kolom

Question

Lebih

Question

Gunakan .corr untuk mendapatkan korelasi antara dua kolom

Saya memiliki berikut panda dataframe Top15:

Saya membuat sebuah kolom yang memperkirakan jumlah citable dokumen per orang:

Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']

Saya ingin mengetahui hubungan antara jumlah citable dokumen per kapita dan pasokan energi per kapita. Jadi saya gunakan .corr() metode (Pearson's korelasi):

data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')

Aku ingin kembali nomor tunggal, tapi hasilnya adalah:

Cœur

Pertanyaan edit 3 April 2018 в 10:36

Pemrograman

python

correlation

pandas

Popular videos

« Sebelumnya

Selanjutnya »

Solution / Answer

Gary

11 Juli 2017 в 6:17

Lebih

Aku berlari ke dalam masalah yang sama. Ternyata Citable Dokumen per Orang adalah float, dan python melompat entah bagaimana secara default. Semua kolom lainnya saya dataframe yang di numpy-format, jadi saya dipecahkan dengan mengubah columnt untuk np.float64

Top15['Citable Documents per Person']=np.float64(Top15['Citable Documents per Person'])

Ingat itu's persis kolom anda dihitung sendiri

6

0

ibozkurt79

29 Agustus 2018 в 11:15

Lebih

Solusi saya akan setelah konversi data ke tipe numerik:

Top15[['Citable docs per Capita','Energy Supply per Capita']].corr()

fantaghirocco

Jawaban edit 30 Agustus 2018 в 3:14

4

0

aumpen

5 Mei 2018 в 11:22

Lebih

Ketika anda menelepon ini:

data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')

Karena, DataFrame.corr() fungsi melakukan pair-wise korelasi, anda memiliki empat pasangan dari dua variabel. Jadi, pada dasarnya anda mendapatkan diagonal nilai-nilai sebagai auto korelasi (korelasi dengan dirinya sendiri, dua nilai karena anda memiliki dua variabel), dan dua lainnya nilai-nilai sebagai cross korelasi dari satu lebih baik dari yang lain dan sebaliknya.

Baik melakukan korelasi antara dua seri untuk mendapatkan nilai tunggal:

from scipy.stats.stats import pearsonr
docs_col = Top15['Citable docs per Capita'].values
energy_col = Top15['Energy Supply per Capita'].values
corr , _ = pearsonr(docs_col, energy_col)

atau, jika anda ingin satu nilai dari fungsi yang sama (DataFrame's corr):

single_value = correlation[0][1]

Semoga ini bisa membantu.

aumpen

Jawaban edit 10 Mei 2018 в 1:44

3

0

Orca

16 Oktober 2018 в 9:46

Lebih

Ia bekerja seperti ini:

Top15['Citable docs per Capita']=np.float64(Top15['Citable docs per Capita'])

Top15['Energy Supply per Capita']=np.float64(Top15['Energy Supply per Capita'])

Top15['Energy Supply per Capita'].corr(Top15['Citable docs per Capita'])

Rahul

Jawaban edit 16 Oktober 2018 в 10:26

2

0

mgoldwasser

1 September 2017 в 6:34

Lebih

Jika anda ingin korelasi antara semua pasangan dari kolom, anda bisa melakukan sesuatu seperti ini:

import pandas as pd
import numpy as np

def get_corrs(df):
    col_correlations = df.corr()
    col_correlations.loc[:, :] = np.tril(col_correlations, k=-1)
    cor_pairs = col_correlations.stack()
    return cor_pairs.to_dict()

my_corrs = get_corrs(df)
# and the following line to retrieve the single correlation
print(my_corrs[('Citable docs per Capita','Energy Supply per Capita')])

1

0

Related communities 6

Python Indonesia

25 972 pengguna

Programmer Python Indonesia. Group ini dikelola oleh sejumlah admin. Baca pesan tersemat / pinned message: https://t.me/pythonID/217588

Buka telegram

Indonesian Python Warriors

1 564 pengguna

Di grup ini tidak ada kewajiban untuk menggunakan username dan foto. Yang tidak boleh adalah spamming. Gak boleh baper, kalau nanya yang bener, eror jangan difoto pake HP, gunakan screenshot, code copas ke dpaste.org lalu share link ke sini.

Buka telegram

Python-ID Jogja

947 pengguna

Buka telegram

Python Newbie Indonesia

471 pengguna

Peraturan grup Python Newbie 🌻Dilarang spam 🌻Dilarang menggunakan bahasa kasar 🌻Dilarang beriklan di grup tanpa seizin admin Beberapa video dasar python dapat diliat melalui channel youtube juan aditya Jangan lupa untuk subscribe ya🙏

Buka telegram

BASIC PYTHON INDONESIA

351 pengguna

Buka telegram

PythonWealth Indonesia 🇮🇩

14 pengguna

Buka telegram

Tambahkan pertanyaan

Kategori

Semua

Teknologi

Budaya / Rekreasi

Kehidupan / Seni

Ilmu Pengetahuan

Profesional

Bisnis

Pengguna

Semua

Baru

Populer

1

Ксения Комарова

Terdaftar 1 bulan yang lalu

2

Артур «Апер»

Terdaftar 2 bulan yang lalu

3

Viktor Malyutin

Terdaftar 2 bulan yang lalu

4

Viktor Malyutin

Terdaftar 2 bulan yang lalu

5

Syahputra Zhedenk

Terdaftar 3 bulan yang lalu

Anda punya pertanyaan? Tambahkan di situs dan dapatkan jawabannya secara instan

id.kzen.dev

Cleb · Accepted Answer · 2017-03-03T13:26:15+00:00

Tanpa data yang sebenarnya sulit untuk menjawab pertanyaan tetapi saya kira anda sedang mencari sesuatu seperti ini:

Top15['Citable docs per Capita'].corr(Top15['Energy Supply per Capita'])

Yang menghitung korelasi antara dua kolom 'Citable docs per Kapita' dan 'Pasokan Energi per Kapita'.

Untuk memberikan sebuah contoh:

import pandas as pd

df = pd.DataFrame({'A': range(4), 'B': [2*i for i in range(4)]})

   A  B
0  0  0
1  1  2
2  2  4
3  3  6

Kemudian

df['A'].corr(df['B'])

memberikan 1 seperti yang diharapkan.

Sekarang, jika anda mengubah value, misalnya

df.loc[2, 'B'] = 4.5

   A    B
0  0  0.0
1  1  2.0
2  2  4.5
3  3  6.0

perintah

df['A'].corr(df['B'])

kembali

0.99586

yang masih dekat dengan 1, seperti yang diharapkan.

Jika anda menerapkan .corr langsung ke dataframe, itu akan mengembalikan semua berpasangan korelasi antara kolom; yang's mengapa anda kemudian mengamati 1 pada diagonal dari matriks (masing-masing kolom adalah sangat berkorelasi dengan dirinya sendiri).

df.corr()

oleh karena itu akan kembali

          A         B
A  1.000000  0.995862
B  0.995862  1.000000

Dalam grafis yang anda lihat, hanya sudut kiri atas dari matriks korelasi diwakili (saya asumsikan).

Bisa ada kasus, di mana anda mendapatkan `NaN dalam solusi anda - check post ini untuk contoh.

Jika anda ingin untuk menyaring entri di atas/di bawah ambang batas tertentu, anda dapat memeriksa pertanyaan. Jika anda ingin plot heatmap dari koefisien korelasi, anda dapat memeriksa ini answer dan jika anda kemudian lari ke masalah tumpang tindih dengan sumbu-label check berikut post.