Python Pandas: Ottenere l'indice delle righe la cui colonna corrisponde a un certo valore

Question

Altro

Question

Python Pandas: Ottenere l'indice delle righe la cui colonna corrisponde a un certo valore

Dato un DataFrame con una colonna "BoolCol", vogliamo trovare gli indici del DataFrame in cui i valori per "BoolCol" == True

Attualmente ho il modo iterante per farlo, che funziona perfettamente:

for i in range(100,3000):
    if df.iloc[i]['BoolCol']== True:
         print i,df.iloc[i]['BoolCol']

Ma questo non è il modo corretto di fare il panda. Dopo alcune ricerche, attualmente sto usando questo codice:

df[df['BoolCol'] == True].index.tolist()

Questo mi dà una lista di indici, ma non corrispondono, quando li controllo facendo:

df.iloc[i]['BoolCol']

Il risultato è effettivamente Falso!

Quale sarebbe il modo corretto di Pandas per fare questo?

Programmazione

indexing

python

pandas

Solution / Answer

Surya

30º dicembre 2016 в 9:53

Altro

Può essere fatto usando la funzione numpy where():

import pandas as pd
import numpy as np

In [716]: df = pd.DataFrame({"gene_name": ['SLC45A1', 'NECAP2', 'CLIC4', 'ADC', 'AGBL4'] , "BoolCol": [False, True, False, True, True] },
       index=list("abcde"))

In [717]: df
Out[717]: 
  BoolCol gene_name
a   False   SLC45A1
b    True    NECAP2
c   False     CLIC4
d    True       ADC
e    True     AGBL4

In [718]: np.where(df["BoolCol"] == True)
Out[718]: (array([1, 3, 4]),)

In [719]: select_indices = list(np.where(df["BoolCol"] == True)[0])

In [720]: df.iloc[select_indices]
Out[720]: 
  BoolCol gene_name
b    True    NECAP2
d    True       ADC
e    True     AGBL4

Anche se non si ha sempre bisogno di un indice per una corrispondenza, ma nel caso in cui si abbia bisogno:

In [796]: df.iloc[select_indices].index
Out[796]: Index([u'b', u'd', u'e'], dtype='object')

In [797]: df.iloc[select_indices].index.tolist()
Out[797]: ['b', 'd', 'e']

Surya

Risposta modificata 30º dicembre 2016 в 10:48

21

0

WeNYoBen

9º gennaio 2019 в 10:24

Altro

Per prima cosa potete controllare query quando la colonna di destinazione è di tipo bool (PS: su come usarlo controllate link )

df.query('BoolCol')
Out[123]: 
    BoolCol
10     True
40     True
50     True

Dopo aver filtrato il df originale per la colonna booleana, possiamo scegliere l'indice.

df=df.query('BoolCol')
df.index
Out[125]: Int64Index([10, 40, 50], dtype='int64')

Anche i panda hanno nonzero, basta selezionare la posizione della riga Vero e usarla per affettare il DataFrame o index.

df.index[df.BoolCol.nonzero()[0]]
Out[128]: Int64Index([10, 40, 50], dtype='int64')

1

0

Comunità collegate 2

Python Italia

2 991 utenti

Network: @flamesnetwork

67 utenti

Categorie

Tutti

Tecnologia

Cultura / Tempo Libero

Vita / Arte

Scienza

Professionista

Business

Utenti

Nuovo

1

2

3

4

5

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

unutbu · Accepted Answer · 2014-02-15T16:28:46+00:00

df.iloc[i] restituisce la ith riga di df. i non si riferisce all'etichetta dell'indice, i è un indice basato su 0.

Al contrario, l'attributo index restituisce effettive etichette di indice, non indici di riga numerici:

df.index[df['BoolCol'] == True].tolist()

o in modo equivalente,

df.index[df['BoolCol']].tolist()

Si può vedere chiaramente la differenza giocando con un DataFrame con un indice non predefinito che non è uguale alla posizione numerica della riga:

df = pd.DataFrame({'BoolCol': [True, False, False, True, True]},
       index=[10,20,30,40,50])

In [53]: df
Out[53]: 
   BoolCol
10    True
20   False
30   False
40    True
50    True

[5 rows x 1 columns]

In [54]: df.index[df['BoolCol']].tolist()
Out[54]: [10, 40, 50]

Se vuoi usare l'indice,

In [56]: idx = df.index[df['BoolCol']]

In [57]: idx
Out[57]: Int64Index([10, 40, 50], dtype='int64')

allora puoi selezionare le righe usando loc invece di iloc:

In [58]: df.loc[idx]
Out[58]: 
   BoolCol
10    True
40    True
50    True

[3 rows x 1 columns]

Si noti che loc può anche accettare array di booleani:

In [55]: df.loc[df['BoolCol']]
Out[55]: 
   BoolCol
10    True
40    True
50    True

[3 rows x 1 columns]

Se avete un array booleano, mask, e avete bisogno di valori di indice ordinali, potete calcolarli usando np.flatnonzero:

In [110]: np.flatnonzero(df['BoolCol'])
Out[112]: array([0, 3, 4])

Usa df.iloc per selezionare le righe per indice ordinale:

In [113]: df.iloc[np.flatnonzero(df['BoolCol'])]
Out[113]: 
   BoolCol
10    True
40    True
50    True