Bagaimana untuk iterate atas baris di DataFrame di Panda?

7 April 2019 в 10:03

Lebih

Bagaimana untuk iterate atas baris di DataFrame di Panda?

Jawaban: DON'T!

Iterasi di panda adalah aplikasi anti-pola, dan adalah sesuatu yang anda harus hanya ingin anda lakukan ketika anda telah kehabisan semua opsi yang mungkin. Anda tidak harus mempertimbangkan menggunakan fungsi apapun dengan "iter" dalam namanya untuk sesuatu yang lebih dari beberapa ribu baris atau anda akan memiliki untuk mendapatkan digunakan untuk banyak menunggu. Apakah anda ingin mencetak DataFrame? Gunakan DataFrame.to_string(). Apakah anda ingin menghitung sesuatu? Dalam kasus itu, pencarian untuk metode dalam urutan ini (daftar dimodifikasi dari di sini):

Vektorisasi

Acpi rutinitas

Daftar Pemahaman (vanilla untuk loop)

DataFrame.apply(): i) Pengurangan yang dapat dilakukan di acpi, ii) Perulangan pada python ruang

DataFrame.itertuples() dan iteritems()

DataFrame.iterrows() iterrows dan itertuples (baik menerima banyak suara di jawaban untuk pertanyaan ini) harus digunakan dalam keadaan yang sangat langka, seperti menghasilkan baris benda/nametuples untuk pemrosesan sekuensial, yang benar-benar satu-satunya hal fungsi-fungsi ini berguna untuk. Banding ke Otoritas Dokumen halaman pada iterasi memiliki besar merah kotak peringatan yang mengatakan: Iterasi melalui panda benda-benda yang umumnya lambat. Dalam banyak kasus, iterasi secara manual di atas baris yang tidak diperlukan [...].

Lebih cepat dari Perulangan: Vektorisasi, Acpi

Baik jumlah operasi dasar dan perhitungan "vectorised" oleh panda (baik melalui NumPy, atau melalui Cythonized fungsi). Ini meliputi aritmatika, perbandingan, (kebanyakan) pengurangan, penyusunan kembali (seperti berputar), bergabung, dan groupby operasi. Melihat melalui dokumentasi pada Penting Dasar Functionality untuk menemukan cocok vectorised metode untuk masalah anda. Jika tidak ada, jangan ragu untuk menulis anda sendiri menggunakan custom acpi extensions.

Hal Terbaik berikutnya: Daftar Pemahaman

Daftar pemahaman yang harus anda berikutnya port of call jika 1) tidak ada vectorized solusi yang tersedia, 2) kinerja adalah penting, tetapi tidak cukup penting untuk pergi melalui kerumitan cythonizing kode anda, dan 3) anda're berusaha untuk melakukan elementwise transformasi pada kode anda. Ada baik jumlah bukti untuk menunjukkan bahwa daftar pemahaman yang cukup cepat (dan bahkan kadang-kadang lebih cepat) untuk banyak umum panda tugas. Rumus sederhana,

# iterating over one column - `f` is some function that processes your data
result = [f(x) for x in df['col']]
# iterating over two columns, use `zip`
result = [f(x, y) for x, y in zip(df['col1'], df['col2'])]
# iterating over multiple columns
result = [f(row[0], ..., row[n]) for row in df[['col1', ...,'coln']].values]

Jika anda dapat merangkum logika bisnis anda menjadi sebuah fungsi, anda dapat menggunakan daftar pemahaman bahwa panggilan itu. Anda dapat membuat sewenang-wenang kompleks hal-hal yang bekerja melalui kesederhanaan dan kecepatan baku python.

Contoh Yang Jelas

Let's menunjukkan perbedaan dengan contoh sederhana untuk menambahkan dua panda kolom B+. Ini adalah vectorizable operaton, sehingga akan mudah untuk membandingkan kinerja dari metode yang dibahas di atas. Benchmarking kode, untuk referensi anda. Saya harus menyebutkan, bagaimanapun, bahwa itu isn't selalu dipotong dan kering. Kadang-kadang jawaban "yang merupakan metode terbaik untuk operasi" adalah "itu tergantung pada data anda". Saran saya adalah untuk menguji pendekatan yang berbeda pada data anda sebelum menetap di satu.

Referensi

10 Menit untuk panda, dan Penting Fungsi Dasar - link yang Berguna yang memperkenalkan anda untuk panda dan perpustakaan vectorized*/cythonized fungsi.
Meningkatkan Kinerja - primer dari docs pada peningkatan standar panda operasi
https://stackoverflow.com/questions/54028199/for-loops-with-pandas-when-should-i-care - rinci langgan oleh saya pada daftar pemahaman dan kesesuaian mereka untuk berbagai operasi (terutama yang melibatkan data non-numerik)
https://stackoverflow.com/questions/54432583/when-should-i-ever-want-to-use-pandas-apply-in-my-code - apply lambat (tapi sekarang lambat sebagai iter* keluarga. Ada, bagaimanapun, situasi di mana satu dapat (atau harus) mempertimbangkan terapkan sebagai serangkaian alternatif, terutama di beberapa GroupBy operasi). _{* Panda string metode "vectorized" dalam arti bahwa mereka ditentukan pada seri tetapi beroperasi pada masing-masing elemen. Mekanisme yang mendasari masih berulang, karena operasi string secara inheren sulit untuk vectorize.}

Jawaban edit 21 Juli 2019 в 8:17

193

e9t

20 September 2015 в 1:52

Lebih

Sementara iterrows() adalah pilihan yang baik, kadang-kadang itertuples() dapat menjadi jauh lebih cepat:

df = pd.DataFrame({'a': randn(1000), 'b': randn(1000),'N': randint(100, 1000, (1000)), 'x': 'x'})

%timeit [row.a * 2 for idx, row in df.iterrows()]
# => 10 loops, best of 3: 50.3 ms per loop

%timeit [row[1] * 2 for row in df.itertuples()]
# => 1000 loops, best of 3: 541 µs per loop

143

docs: DataFrame.berlaku()

cheekybastard

1 Juni 2015 в 6:24

Lebih

Anda juga dapat menggunakan df.berlaku() untuk iterate atas baris dan beberapa kolom untuk fungsi.

def valuation_formula(x, y):
    return x * y * 0.5

df['price'] = df.apply(lambda row: valuation_formula(row['x'], row['y']), axis=1)

80

PJay

7 September 2016 в 12:56

Lebih

Anda dapat menggunakan df.iloc fungsi sebagai berikut:

for i in range(0, len(df)):
    print df.iloc[i]['c1'], df.iloc[i]['c2']

69

Lucas B

17 Januari 2018 в 9:41

Lebih

Saya sedang mencari Bagaimana untuk menampilkannya pada baris DAN kolom dan terakhir di sini jadi :

for i, row in df.iterrows():
    for j, column in row.iteritems():
        print(column)

29

piRSquared

7 November 2017 в 4:15

Lebih

Anda dapat menulis sendiri iterator yang menerapkan namedtuple

from collections import namedtuple

def myiter(d, cols=None):
    if cols is None:
        v = d.values.tolist()
        cols = d.columns.values.tolist()
    else:
        j = [d.columns.get_loc(c) for c in cols]
        v = d.values[:, j].tolist()

    n = namedtuple('MyTuple', cols)

    for line in iter(v):
        yield n(*line)

Hal ini secara langsung sebanding dengan pd.DataFrame.itertuples. I'm yang bertujuan untuk melakukan tugas yang sama dengan efisiensi yang lebih.

Untuk diberikan dataframe dengan fungsi:

list(myiter(df))

[MyTuple(c1=10, c2=100), MyTuple(c1=11, c2=110), MyTuple(c1=12, c2=120)]

Atau dengan pd.DataFrame.itertuples:

list(df.itertuples(index=False))

[Pandas(c1=10, c2=100), Pandas(c1=11, c2=110), Pandas(c1=12, c2=120)]

Komprehensif tes Kami menguji semua kolom yang tersedia dan pembagian kolom.

def iterfullA(d):
    return list(myiter(d))

def iterfullB(d):
    return list(d.itertuples(index=False))

def itersubA(d):
    return list(myiter(d, ['col3', 'col4', 'col5', 'col6', 'col7']))

def itersubB(d):
    return list(d[['col3', 'col4', 'col5', 'col6', 'col7']].itertuples(index=False))

res = pd.DataFrame(
    index=[10, 30, 100, 300, 1000, 3000, 10000, 30000],
    columns='iterfullA iterfullB itersubA itersubB'.split(),
    dtype=float
)

for i in res.index:
    d = pd.DataFrame(np.random.randint(10, size=(i, 10))).add_prefix('col')
    for j in res.columns:
        stmt = '{}(d)'.format(j)
        setp = 'from __main__ import d, {}'.format(j)
        res.at[i, j] = timeit(stmt, setp, number=100)

res.groupby(res.columns.str[4:-1], axis=1).plot(loglog=True);

16

Grag2015

2 November 2017 в 10:33

Lebih

 for ind in df.index:
     print df['c1'][ind], df['c2'][ind]

Jawaban edit 7 Mei 2019 в 6:37

13

Pedro Lobito

11 Maret 2017 в 10:44

Lebih

Loop semua baris dalam dataframe yang dapat anda gunakan:

for x in range(len(date_example.index)):
    print date_example['Date'].iloc[x]

13

Zach

27 Juni 2018 в 6:48

Lebih

Kadang-kadang berguna pola adalah:

# Borrowing @KutalmisB df example
df = pd.DataFrame({'col1': [1, 2], 'col2': [0.1, 0.2]}, index=['a', 'b'])
# The to_dict call results in a list of dicts
# where each row_dict is a dictionary with k:v pairs of columns:value for that row
for row_dict in df.to_dict(orient='records'):
    print(row_dict)

Yang menghasilkan:

{'col1':1.0, 'col2':0.1}
{'col1':2.0, 'col2':0.2}

Jawaban edit 13 April 2019 в 11:06

7

Herpes Free Engineer

23 April 2018 в 2:53

Lebih

Loop semua baris dalam dataframe dan gunakan ** nilai-nilai dari setiap baris ketika**, namedtuples dapat dikonversi ke `ndarray ini. Misalnya:

df = pd.DataFrame({'col1': [1, 2], 'col2': [0.1, 0.2]}, index=['a', 'b'])

Iterasi baris:

for row in df.itertuples(index=False, name='Pandas'):
    print np.asarray(row)

hasil:

[ 1.   0.1]
[ 2.   0.2]

Harap dicatat bahwa jika index=True, indeks ditambahkan sebagai elemen pertama dari tuple, yang mungkin tidak diinginkan untuk beberapa aplikasi.

6

Zeitgeist

17 Oktober 2019 в 3:26

Lebih

Ada cara untuk iterate membuang baris sementara mendapatkan DataFrame kembali, dan bukan Seri. Saya don't melihat siapa pun menyebutkan bahwa anda dapat melewati indeks sebagai daftar untuk baris yang dikembalikan sebagai DataFrame:

for i in range(len(df)):
    row = df.iloc[[i]]

Catatan penggunaan kurung ganda. Ini kembali DataFrame dengan satu baris.

James L.

1 Desember 2017 в 5:49

Lebih

Anda juga dapat melakukan numpy pengindeksan untuk kecepatan yang lebih besar up. It's tidak benar-benar iterasi tapi bekerja jauh lebih baik daripada iterasi untuk aplikasi tertentu.

subset = row['c1'][0:5]
all = row['c1'][:]

Anda juga mungkin ingin melemparkannya ke sebuah array. Indeks ini/seleksi seharusnya bertindak seperti Numpy array sudah tapi aku berlari ke dalam masalah dan dibutuhkan untuk cor

np.asarray(all)
imgs[:] = cv2.resize(imgs[:], (224,224) ) #resize every image in an hdf5 file

shubham ranjan

19 Januari 2019 в 6:53

Lebih

Ada begitu banyak cara untuk iterate atas baris di panda dataframe. Salah satu yang sangat sederhana dan intuitif adalah :

df=pd.DataFrame({'A':[1,2,3], 'B':[4,5,6],'C':[7,8,9]})
print(df)
for i in range(df.shape[0]):
    # For printing the second column
    print(df.iloc[i,1])
    # For printing more than one columns
    print(df.iloc[i,[0,2]])

mjr2000

16 Maret 2019 в 10:33

Lebih

Contoh ini menggunakan iloc untuk mengisolasi masing-masing digit pada data frame.

import pandas as pd

 a = [1, 2, 3, 4]
 b = [5, 6, 7, 8]

 mjr = pd.DataFrame({'a':a, 'b':b})

 size = mjr.shape

 for i in range(size[0]):
     for j in range(size[1]):
         print(mjr.iloc[i, j])

Related communities 6

Python Indonesia

25 972 pengguna

Programmer Python Indonesia. Group ini dikelola oleh sejumlah admin. Baca pesan tersemat / pinned message: https://t.me/pythonID/217588

Indonesian Python Warriors

1 564 pengguna

Di grup ini tidak ada kewajiban untuk menggunakan username dan foto. Yang tidak boleh adalah spamming. Gak boleh baper, kalau nanya yang bener, eror jangan difoto pake HP, gunakan screenshot, code copas ke dpaste.org lalu share link ke sini.

Python-ID Jogja

947 pengguna

Python Newbie Indonesia

471 pengguna

Peraturan grup Python Newbie 🌻Dilarang spam 🌻Dilarang menggunakan bahasa kasar 🌻Dilarang beriklan di grup tanpa seizin admin Beberapa video dasar python dapat diliat melalui channel youtube juan aditya Jangan lupa untuk subscribe ya🙏

BASIC PYTHON INDONESIA

351 pengguna

PythonWealth Indonesia 🇮🇩

14 pengguna

Tambahkan pertanyaan

Kategori

Semua

Teknologi

Budaya / Rekreasi

Kehidupan / Seni

Ilmu Pengetahuan

Profesional

Bisnis

Pengguna

Semua

Baru

Populer

Terdaftar 1 bulan yang lalu

Ксения Комарова

2

Артур «Апер»

3

Viktor Malyutin

4

Viktor Malyutin

5

Syahputra Zhedenk