Python Pandas: Obter índice de linhas cuja coluna corresponde a determinado valor

Question

Mais

Question

Python Pandas: Obter índice de linhas cuja coluna corresponde a determinado valor

Dado um DataFrame com uma coluna "BoolCol" queremos encontrar os índices do DataFrame em que os valores para "BoolCol" == Verdadeiro

Actualmente tenho a forma iterante de o fazer, que funciona perfeitamente:

for i in range(100,3000):
    if df.iloc[i]['BoolCol']== True:
         print i,df.iloc[i]['BoolCol']

Mas esta não é a forma correcta de o fazer. Depois de alguma pesquisa, eu estou usando este código no momento:

df[df['BoolCol'] == True].index.tolist()

Este me dá uma lista de índices, mas eles não combinam, quando eu os verifico fazendo:

df.iloc[i]['BoolCol']

O resultado é na verdade Falso!!

Qual seria a forma correcta de Pandas fazer isto?

Programação

indexing

python

pandas

Solution / Answer

Surya

30º dezembro 2016 в 9:53

Mais

Pode ser feito usando a função numpy where():

import pandas as pd
import numpy as np

In [716]: df = pd.DataFrame({"gene_name": ['SLC45A1', 'NECAP2', 'CLIC4', 'ADC', 'AGBL4'] , "BoolCol": [False, True, False, True, True] },
       index=list("abcde"))

In [717]: df
Out[717]: 
  BoolCol gene_name
a   False   SLC45A1
b    True    NECAP2
c   False     CLIC4
d    True       ADC
e    True     AGBL4

In [718]: np.where(df["BoolCol"] == True)
Out[718]: (array([1, 3, 4]),)

In [719]: select_indices = list(np.where(df["BoolCol"] == True)[0])

In [720]: df.iloc[select_indices]
Out[720]: 
  BoolCol gene_name
b    True    NECAP2
d    True       ADC
e    True     AGBL4

Embora você não'nem sempre precisa de índice para uma correspondência, mas incase se você precisar:

In [796]: df.iloc[select_indices].index
Out[796]: Index([u'b', u'd', u'e'], dtype='object')

In [797]: df.iloc[select_indices].index.tolist()
Out[797]: ['b', 'd', 'e']

Surya

Resposta editada :em

21

0

WeNYoBen

9º janeiro 2019 в 10:24

Mais

Primeiro você pode verificar query quando a coluna de destino for do tipo bool (PS: sobre como utilizá-la por favor verifique link )

df.query('BoolCol')
Out[123]: 
    BoolCol
10     True
40     True
50     True

Depois de filtrarmos o df original pela coluna booleana, podemos escolher o índice .

df=df.query('BoolCol')
df.index
Out[125]: Int64Index([10, 40, 50], dtype='int64')

Também os pandas têm nonzero, nós apenas selecionamos a posição da linha True e utilizando-a cortamos o DataFrame ou index.

df.index[df.BoolCol.nonzero()[0]]
Out[128]: Int64Index([10, 40, 50], dtype='int64')

1

0

Comunidades relacionadas 3

Pt-BR Data Science & Python

5 045 utilizadores

Abrir telegram

Python Coding Brazil

308 utilizadores

Programação Python. Python Programming. ***************************** ➸ Pentest Brazil Group (pt_BR) http://t.me/pentestbrazilgroup ➸ Pentest Brazil Channel (pt_BR) http://t.me/pentestbrazilchannel

Abrir telegram

Python Brasil

198 utilizadores

Bem vindos a comunidade do python Brasil! oficial do Telegram! 13/05/20

Abrir telegram

Adicionar pergunta

Categorias

Todos

Tecnologia

Cultura / Recreação

Vida / Artes

Ciência

Profissional

Negócios

Utilizadores

Todos

Novo

Popular

1

Ксения Комарова

Registrado há 1 mês

2

Артур «Апер»

Registrado há 2 meses

3

Viktor Malyutin

Registrado há 2 meses

4

Viktor Malyutin

Registrado há 2 meses

5

Syahputra Zhedenk

Registrado há 3 meses

Tem uma pergunta? Adicione-a no sítio e obtenha uma resposta instantânea

pt.kzen.dev

unutbu · Accepted Answer · 2014-02-15T16:28:46+00:00

df.iloc[i] devolve a fila ith de df. i não se refere à etiqueta do índice, i é um índice baseado em 0.

Em contraste, o atributo index retorna etiquetas de índice reais, não índices de linha numéricos:

df.index[df['BoolCol'] == True].tolist()

ou equivalente,

df.index[df['BoolCol']].tolist()

Você pode ver a diferença muito claramente, jogando com um DataFrame com um índice que não seja igual à posição numérica da linha's:

df = pd.DataFrame({'BoolCol': [True, False, False, True, True]},
       index=[10,20,30,40,50])

In [53]: df
Out[53]: 
   BoolCol
10    True
20   False
30   False
40    True
50    True

[5 rows x 1 columns]

In [54]: df.index[df['BoolCol']].tolist()
Out[54]: [10, 40, 50]

Se você quiser usar o índice,

In [56]: idx = df.index[df['BoolCol']]

In [57]: idx
Out[57]: Int64Index([10, 40, 50], dtype='int64')

**então você pode selecionar as linhas utilizando loc em vez de iloc***:

In [58]: df.loc[idx]
Out[58]: 
   BoolCol
10    True
40    True
50    True

[3 rows x 1 columns]

Note que **loc também pode aceitar matrizes booleanas***:

In [55]: df.loc[df['BoolCol']]
Out[55]: 
   BoolCol
10    True
40    True
50    True

[3 rows x 1 columns]

**Se você tiver uma matriz booleana, máscara, e precisar de valores de índice ordinais, você pode calculá-los utilizando np.flatnonzero***:

In [110]: np.flatnonzero(df['BoolCol'])
Out[112]: array([0, 3, 4])

Utilize df.iloc para selecionar as linhas por índice ordinal:

In [113]: df.iloc[np.flatnonzero(df['BoolCol'])]
Out[113]: 
   BoolCol
10    True
40    True
50    True