Shuffle DataFrame rânduri

Question

Mai mult

Question

Shuffle DataFrame rânduri

Am urmatoarele DataFrame:

    Col1  Col2  Col3  Type
0      1     2     3     1
1      4     5     6     1
...
20     7     8     9     2
21    10    11    12     2
...
45    13    14    15     3
46    16    17    18     3
...

DataFrame este citit dintr-un fișier csv. Toate rândurile care au " Tip "1 sunt pe partea de sus, urmat de rânduri cu" Tip "2, urmat de rânduri cu" Tip " 3, etc.

Aș dori pentru a amesteca ordinea de DataFrame's randuri, astfel încât toate " Tip " 's sunt amestecate. Un rezultat posibil ar putea fi:

    Col1  Col2  Col3  Type
0      7     8     9     2
1     13    14    15     3
...
20     1     2     3     1
21    10    11    12     2
...
45     4     5     6     1
46    16    17    18     3
...

Cum pot realiza acest lucru?

smci

Întrebarea editată 8 martie 2019 в 9:36

shuffle

pandas

Solution / Answer

24 septembrie 2016 в 7:17

Mai mult

Puteți folosi pur și simplu sklearn pentru asta

from sklearn.utils import shuffle
df = shuffle(df)

ekad

Răspuns editat 24 septembrie 2016 в 7:42

183

0

joris

11 aprilie 2015 в 10:26

Mai mult

Puteți amesteca rânduri de un dataframe prin indexarea cu o amestecate index. Pentru aceasta, puteți de exemplu folosesc np.aleatoare.permutare` (dar np.aleatoare.alegerea este, de asemenea, o posibilitate):

In [12]: df = pd.read_csv(StringIO(s), sep="\s+")

In [13]: df
Out[13]: 
    Col1  Col2  Col3  Type
0      1     2     3     1
1      4     5     6     1
20     7     8     9     2
21    10    11    12     2
45    13    14    15     3
46    16    17    18     3

In [14]: df.iloc[np.random.permutation(len(df))]
Out[14]: 
    Col1  Col2  Col3  Type
46    16    17    18     3
45    13    14    15     3
20     7     8     9     2
0      1     2     3     1
1      4     5     6     1
21    10    11    12     2

Dacă doriți să păstrați indicele numerotate de la 1, 2, .., n, ca în exemplu, puteți reseta pur și simplu index: df_shuffled.reset_index(drop=True)

52

0

haku

23 martie 2018 в 1:40

Mai mult

TL;DR: np.aleatoare.shuffle(ndarray) poate face treaba. Deci, în cazul tău

np.random.shuffle(DataFrame.values)

DataFrame, sub capota, foloseste NumPy ndarray ca deținătorul de date. (Puteți verifica de la DataFrame codul sursă)

Deci, dacă utilizați np.random.shuffle()ar amesteca matrice de-a lungul primei axe de un multi-dimensional matrice. Dar indicele de DataFrame rămâne unshuffled.

Totuși, există câteva puncte să ia în considerare.

funcția întoarce nici unul. În cazul în care doriți să păstrați o copie a obiectului original, trebuie să faci astfel încât înainte de a trece la funcție.
sklearn.utils.shuffle()ca utilizator tj89 sugerat, poate desemna `random_state împreună cu o altă opțiune pentru a controla de ieșire. Poate doriți pentru dev scop.
sklearn.utils.shuffle() este mai rapid. Dar VA AMESTECA axa info(indicele de coloană) a DataFrame împreună cu ndarray le conține.

De referință rezultat

între sklearn.utils.shuffle() și np.random.shuffle().

ndarray

nd = sklearn.utils.shuffle(nd)

0.10793248389381915 sec. 8x mai rapid

np.random.shuffle(nd)

0.8897626010002568 sec

DataFrame

df = sklearn.utils.shuffle(df)

0.3183923360193148 sec. 3x mai rapid

np.random.shuffle(df.values)

0.9357550159329548 sec

Concluzie: Dacă este bine să axa info(index, coloana) pentru a fi amestecate împreună cu ndarray, utilizare sklearn.utils.shuffle(). În caz contrar, utilizați np.random.shuffle()

a folosit de cod

import timeit
setup = '''
import numpy as np
import pandas as pd
import sklearn
nd = np.random.random((1000, 100))
df = pd.DataFrame(nd)
'''

timeit.timeit('nd = sklearn.utils.shuffle(nd)', setup=setup, number=1000)
timeit.timeit('np.random.shuffle(nd)', setup=setup, number=1000)
timeit.timeit('df = sklearn.utils.shuffle(df)', setup=setup, number=1000)
timeit.timeit('np.random.shuffle(df.values)', setup=setup, number=1000)

[tag:python][tag:benchmarking]

haku

Răspuns editat 12 decembrie 2018 в 12:17

34

0

NotANumber

11 iulie 2018 в 4:31

Mai mult

(Nu't au suficient de reputația sa comenteze acest lucru pe postul de sus, asa ca sper ca cineva poate face asta pentru mine.) Nu a fost un motiv de îngrijorare faptul că prima metodă:

df.sample(frac=1)

a făcut o copie profundă sau schimbat doar dataframe. Am fugit următorul cod:

print(hex(id(df)))
print(hex(id(df.sample(frac=1))))
print(hex(id(df.sample(frac=1).reset_index(drop=True))))

și rezultatele mele au fost:

0x1f8a784d400
0x1f8b9d65e10
0x1f8b9d65b70

ceea ce înseamnă că metoda este nu revenind la același obiect, așa cum a fost sugerat în ultimul comentariu. Deci, această metodă are într-adevăr face o amestecate copia.

11

0

Ido Cohn

27 iunie 2018 в 1:09

Mai mult

AFAIK cea mai simplă soluție este:

df_shuffled = df.reindex(np.random.permutation(df.index))

4

0

Abhilash Reddy Yammanuru

13 iunie 2018 в 11:28

Mai mult

shuffle panda cadru de date de a lua o mostră de matrice în acest caz index și aleator de ordine, apoi setați matrice ca un indice de cadru de date. Acum sorta datele cadru potrivit index. Aici merge amestecate dataframe

import random
df = pd.DataFrame({"a":[1,2,3,4],"b":[5,6,7,8]})
index = [i for i in range(df.shape[0])]
random.shuffle(index)
df.set_index([index]).sort_index()

ieșire

Introduce cadru de date în loc de-al meu din codul de mai sus .

2

0

Comunități asemănătoare 1

Python România

121 utilizatori

Comunitatea pasionaților de Python din România.

Deschide telegram

Adăugati o întrebare

Categorii

Toate

Tehnologii

Cultură

Viață / Artă

Stiință

Profesii

Afaceri

Utilizatori

Toate

Nou

Populare

1

Ксения Комарова

Înregistrat 1 lună în urmă

2

Артур «Апер»

Înregistrat 2 luni în urmă

3

Viktor Malyutin

Înregistrat 2 luni în urmă

4

Viktor Malyutin

Înregistrat 2 luni în urmă

5

Syahputra Zhedenk

Înregistrat 2 luni în urmă

Aveți o întrebare? Adăugați-o pe site-ul nostru și primiți răspuns instant

ro.kzen.dev

Kris · Accepted Answer · 2016-01-19T14:49:17+00:00

Idiomatic mod de a face acest lucru cu panda este de a utiliza .proba metoda de dataframe, adică python df.eșantion(frac=1) Anii frac cuvinte cheie argument specifică fracțiune de rânduri pentru a reveni în eșantion aleatoriu, deci frac=1 înseamnă a reveni toate rândurile (în ordine aleatorie).

Notă: Dacă doriți să shuffle dataframe în loc și a reseta index, ai putea face de exemplu python df = df.eșantion(frac=1).reset_index(drop=True) Aici, specificând drop=True impiedica `.reset_index de a crea o coloană care conține index vechi înregistrări.

Follow-up notă: Deși nu poate arata ca operațiunea de mai sus este în loc de, python/panda este suficient de inteligent să nu facă un alt malloc pentru amestecat obiect. Asta este, chiar dacă referință obiect s-a schimbat (adică id(df_old) nu este același lucru ca id(df_new)), care stau la baza C obiect este în continuare același. Pentru a arăta că acest lucru este într-adevăr cazul, ai putea rula un joc simplu de memorie profiler: `` $ python3 -m memory_profiler .\test.py Filename: .\test.py

Linie # Mem usage Creștere Linie de Conținutul

5 68.5 MiB 68.5 MiB @profil 6 def shuffle(): 7 847.8 MiB 779.3 MiB df = pd.DataFrame(np.aleatoare.randn(100, 1000000)) 8 847.9 MiB 0.1 MiB df = df.eșantion(frac=1).reset_index(drop=True)

``