Zeilen mit allen oder einigen NAs (fehlenden Werten) im data.frame entfernen

Question

Mehr

Frage

Zeilen mit allen oder einigen NAs (fehlenden Werten) im data.frame entfernen

Ich möchte die Zeilen in diesem Datenrahmen entfernen, die:

a) in allen Spalten "N" enthalten Unten ist mein Beispiel-Datenrahmen.

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   NA
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   NA   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2

Grundsätzlich würde ich gerne einen Datenrahmen wie den folgenden erhalten.

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

b) nur in einigen Spalten NA enthalten, damit ich auch dieses Ergebnis erhalten kann:

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
4 ENSG00000207604    0   NA   NA   1    2
6 ENSG00000221312    0   1    2    3    2

Jaap

Bearbeitete Frage 12. August 2018 в 12:32

Programmierung

filter

r

dataframe

missing-data

r-faq

Beliebte Videos

« Zurück

Vor »

Lösung / Antwort

donshikin

2. Februar 2011 в 9:58

Mehr

Ich bevorzuge die folgende Methode, um zu prüfen, ob Zeilen irgendwelche NAs enthalten:

row.has.na <- apply(final, 1, function(x){any(is.na(x))})

Dies gibt einen logischen Vektor mit Werten zurück, die angeben, ob eine Zeile ein NA enthält. Sie können damit feststellen, wie viele Zeilen Sie streichen müssen:

sum(row.has.na)

und sie schließlich verwerfen

final.filtered <- final[!row.has.na,]

Für das Filtern von Zeilen mit bestimmten Teilen von NAs wird es etwas kniffliger (zum Beispiel können Sie 'final[,5:6]' an 'apply' übergeben). Im Allgemeinen scheint die Lösung von Joris Meys eleganter zu sein.

88

0

Frage hinzufügen

Kategorien

Alle

Technologie

Kultur/Erholung

Leben/Kunst

Wissenschaft

Professionell

Unternehmen

Benutzer

Alle

Neu

Beliebt

1

Ксения Комарова

Registriert vor 3 Wochen

2

Артур «Апер»

Registriert vor 2 Monaten

3

Viktor Malyutin

Registriert vor 2 Monaten

4

Viktor Malyutin

Registriert vor 2 Monaten

5

Syahputra Zhedenk

Registriert vor 2 Monaten

Haben Sie eine Frage? Fügen Sie sie auf der Website hinzu und erhalten Sie sofort eine Antwort

de.kzen.dev

Joris Meys · Accepted Answer · 2011-02-01T12:21:42+00:00

Prüfen Sie auch [complete.cases] (http://stat.ethz.ch/R-manual/R-patched/library/stats/html/complete.cases.html) :

> final[complete.cases(final), ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
6 ENSG00000221312    0    1    2    3    2

na.omit ist besser geeignet, um einfach alle NA's zu entfernen. complete.cases erlaubt eine teilweise Auswahl, indem nur bestimmte Spalten des Datenrahmens einbezogen werden:

> final[complete.cases(final[ , 5:6]),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

Ihre Lösung kann nicht funktionieren. Wenn Sie darauf bestehen, is.na zu verwenden, dann müssen Sie etwas tun wie:

> final[rowSums(is.na(final[ , 5:6])) == 0, ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

aber die Verwendung von complete.cases ist sehr viel klarer und schneller.