Ia lista de la panda DataFrame anteturile de coloană

Question

Mai mult

natsuki_2002

Question

Ia lista de la panda DataFrame anteturile de coloană

Vreau pentru a obține o listă de antete de coloană dintr-un panda DataFrame. DataFrame va veni de la utilizator, astfel încât am câștigat't știu cât de multe coloane vor fi sau ce va fi numit.

De exemplu, dacă am'm a dat un DataFrame astfel:

>>> my_dataframe
    y  gdp  cap
0   1    2    5
1   2    3    9
2   8    7    2
3   3    4    7
4   6    7    7
5   4    8    3
6   8    2    8
7   9    9   10
8   6    6    4
9  10   10    7

Aș dori pentru a obține o listă de genul asta:

>>> header_list
['y', 'gdp', 'cap']

Gulzar

Întrebarea editată 16 iunie 2019 в 11:48

Programare

python

pandas

dataframe

Solution / Answer

EdChum - Reinstate Monica

20 octombrie 2013 в 10:25

Mai mult

Există o construit în metoda care este cel mai performant:

my_dataframe.columns.values.tolist()

.coloane returnează un Index .coloane.valorile returnează o matrice și acest lucru are o functie helper .tolist pentru a returna o listă.

Dacă performanța nu este la fel de important pentru tine, "Index" obiecte defini o .tolist() metoda care puteți apela direct:

my_dataframe.columns.tolist()

Diferența de performanță este evident:

%timeit df.columns.tolist()
16.7 µs ± 317 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

%timeit df.columns.values.tolist()
1.24 µs ± 12.3 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

Pentru cei care urăsc să tastați, puteți apela doar "lista" pe "df", astfel:

list(df)

cs95

Răspuns editat 3 aprilie 2019 в 9:26

368

0

tegan

1 decembrie 2014 в 8:31

Mai mult

A făcut niște teste rapide, și, deloc surprinzător versiunea built-in, folosind dataframe.coloane.valori.tolist() este cel mai rapid:

In [1]: %timeit [column for column in df]
1000 loops, best of 3: 81.6 µs per loop

In [2]: %timeit df.columns.values.tolist()
10000 loops, best of 3: 16.1 µs per loop

In [3]: %timeit list(df)
10000 loops, best of 3: 44.9 µs per loop

In [4]: % timeit list(df.columns.values)
10000 loops, best of 3: 38.4 µs per loop

(Eu încă place foarte mult lista(dataframe)`, deși, așa multumesc EdChum!)

82

0

fixxxer

7 aprilie 2015 в 2:50

Mai mult

Sale devine și mai simplă (de panda 0.16.0) :

df.columns.tolist()

va dau nume de coloană într-o listă.

45

0

Alexander

28 mai 2015 в 3:58

Mai mult

>>> list(my_dataframe)
['y', 'gdp', 'cap']

Pentru a lista de coloane a unei dataframe în timp ce în debugger modul de a folosi o listă de înțelegere:

>>> [c for c in my_dataframe]
['y', 'gdp', 'cap']

Apropo, puteți obține o listă sortată pur și simplu prin utilizarea rezolvat:

>>> sorted(my_dataframe)
['cap', 'gdp', 'y']

34

0

Anton Protopopov

4 decembrie 2015 в 9:41

Mai mult

L's interesante, dar df.coloane.valori.tolist() este de aproape 3 ori mai repede atunci `df.coloane.tolist () "" dar am crezut că sunt la fel:

In [97]: %timeit df.columns.values.tolist()
100000 loops, best of 3: 2.97 µs per loop

In [98]: %timeit df.columns.tolist()
10000 loops, best of 3: 9.67 µs per loop

18

0

cs95

3 aprilie 2019 в 9:18

Mai mult

Surprins am't văzut acest postat până acum, așa că am'll las aici.

Extinsă Iterable Despachetarea (python3.5+): `[*df]` și Prietenii

Despachetarea generalizări (PEP 448) au fost introduse cu Python 3.5. Deci, următoarele operațiuni sunt toate posibile.

df = pd.DataFrame('x', columns=['A', 'B', 'C'], index=range(5))
df

   A  B  C
0  x  x  x
1  x  x  x
2  x  x  x
3  x  x  x
4  x  x  x

<!- >

Daca vrei o "lista"....

[*df]
# ['A', 'B', 'C']

Sau, dacă vrei un "set",

{*df}
# {'A', 'B', 'C'}

Sau, dacă doriți un tuplu`,

*df,  # Please note the trailing comma
# ('A', 'B', 'C')

Sau, dacă doriți pentru a stoca rezultatul pe undeva,

*cols, = df  # A wild comma appears, again
cols
# ['A', 'B', 'C']

... daca're genul de persoana care convertește cafea la tastarea sunete, ei bine, acest lucru se va consuma cafeaua mai eficient ;)

P. S.: dacă performanța este important, va doresc sa renunte la soluții de mai sus în favoarea

df.coloane.to_numpy().tolist()

['Un', 'B', 'C']

Acest lucru este similar cu Ed Chum's răspuns, dar actualizat pentru v0.24 unde.to_numpy()este preferat pentru utilizarea.valori`. Vezi acest răspuns (de mine) pentru mai multe informații.

Verificare Vizuală De când am'am văzut acest discutate în alte răspunsuri, puteți utiliza iterable despachetarea (nu este nevoie de explicit bucle).

print(*df)
A B C

print(*df, sep='\n')
A
B
C

Critica de Alte Metode

Don't de a folosi în mod explicit "pentru" buclă pentru o operație care se poate face într-o singură linie (List comprehensions sunt ok).

Apoi, folosind sortate(df) nu păstra ordinea inițială de coloane. Pentru asta, ar trebui să utilizați lista(df)` în loc.

Apoi, listă(df.coloane) " și " lista(df.coloane.valorile) sunt săraci sugestii (ca de versiunea curentă, v0.24). Ambele "Index" (revenit de la df.coloane) și NumPy matrice (returnat de df.coloane.valorile) defini .tolist() metoda care este mai rapid și mai idiomatice.

În cele din urmă, listification de exemplu, listă(df) ar trebui să fie utilizat numai ca un concis alternativă la metodele menționate anterior.

cs95

Răspuns editat 3 aprilie 2019 в 3:08

18

0

Sascha Gottfried

23 ianuarie 2014 в 5:23

Mai mult

O DataFrame urmează dict-cum ar fi convenția de iterarea peste "cheile" de obiecte.

my_dataframe.keys()

Creați o listă de chei/coloane - obiect metoda to_list() și pythonic mod

my_dataframe.keys().to_list()
list(my_dataframe.keys())

De bază repetare pe o DataFrame se întoarce coloana etichete

[column for column in my_dataframe]

Nu converti un DataFrame într-o listă, doar pentru a obține etichete de coloană. Nu te opri gândesc în timp ce caută pentru un mostre de cod.

xlarge = pd.DataFrame(np.arange(100000000).reshape(10000,10000))
list(xlarge) #compute time and memory consumption depend on dataframe size - O(N)
list(xlarge.keys()) #constant time operation - O(1)

Sascha Gottfried

Răspuns editat 31 mai 2018 в 11:25

16

0

firelynx

30 martie 2016 в 7:19

Mai mult

În Notebook-uri

Pentru explorarea datelor în IPython notebook, modul meu preferat este acesta:

sorted(df)

Care va produce un ușor de citit în ordine alfabetică lista ordonata.

Într-un depozit de cod

În codul mi se pare mai explicit de-a face

df.columns

Pentru că a spune altora citit codul ceea ce faci.

14

0

Vivek

16 februarie 2018 в 6:36

Mai mult

ca răspuns de către Simeon Visser...ai putea face

list(my_dataframe.columns.values)

sau

list(my_dataframe) # for less typing.

Dar cred că cel mai dulce loc este:

list(my_dataframe.columns)

Este explicită, în același timp, nu inutil de lung.

Vivek

Răspuns editat 16 februarie 2018 в 7:15

3

0

Joseph True

22 august 2018 в 4:17

Mai mult

Pentru un mod rapid, elegant, control vizual, încercați acest lucru:

for col in df.columns:
    print col

3

0

Harikrishna

22 august 2018 в 8:23

Mai mult

Acest lucru ne dă nume de coloane într-o listă:

list(my_dataframe.columns)

O altă funcție numită tolist() pot fi folosite:

my_dataframe.columns.tolist()

3

0

user21988

20 octombrie 2013 в 9:43

Mai mult

n = []
for i in my_dataframe.columns:
    n.append(i)
print n

1

0

Igor Jakovljevic

14 februarie 2019 в 10:58

Mai mult

Chiar dacă soluția asta a fost condiția de mai sus este frumos. De asemenea, aș aștepta la ceva de genul cadru.column_names() să fie o funcție în panda, dar din moment ce nu este, poate ar fi frumos să utilizați următoarea sintaxă. Cumva păstrează sentimentul că sunteți folosind panda într-un mod adecvat prin apelarea "tolist" funcția: cadru.coloane.tolist()