Eliminați rânduri cu unele sau cu toate Snc (valori lipsă) în date.cadru

Question

Mai mult

Question

Eliminați rânduri cu unele sau cu toate Snc (valori lipsă) în date.cadru

Am'd cum pentru a elimina liniile în acest cadru de date care:

o) contin `NA pe toate coloanele. Mai jos este exemplul meu cadru de date.

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   NA
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   NA   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2

Practic, am'd place pentru a obține un cadru de date, cum ar fi următoarele.

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

b) contin `NA în doar câteva coloane, așa că am putea obține, de asemenea, acest rezultat:

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
4 ENSG00000207604    0   NA   NA   1    2
6 ENSG00000221312    0   1    2    3    2

Jaap

Întrebarea editată 12 august 2018 в 12:32

Programare

filter

r

dataframe

missing-data

r-faq

Solution / Answer

lukeA

16 august 2016 в 8:49

Mai mult

tidyr are o nouă funcție drop_na:

library(tidyr)
df %>% drop_na()
#              gene hsap mmul mmus rnor cfam
# 2 ENSG00000199674    0    2    2    2    2
# 6 ENSG00000221312    0    1    2    3    2
df %>% drop_na(rnor, cfam)
#              gene hsap mmul mmus rnor cfam
# 2 ENSG00000199674    0    2    2    2    2
# 4 ENSG00000207604    0   NA   NA    1    2
# 6 ENSG00000221312    0    1    2    3    2

Arthur Yip

Răspuns editat 7 martie 2019 в 12:25

98

0

donshikin

2 februarie 2011 в 9:58

Mai mult

Prefer felul următor pentru a verifica dacă rânduri conțin orice NAs:

row.has.na <- apply(final, 1, function(x){any(is.na(x))})

Aceasta returnează valoarea logică vector cu valori care indică dacă există orice NA într-un rând. Puteți să-l utilizați pentru a vedea cât de multe rânduri'll trebuie să renunțe:

sum(row.has.na)

în cele din urmă și fixați-le

final.filtered <- final[!row.has.na,]

Pentru filtrare rânduri cu o anumită parte de NAs devine un pic mai complicată (de exemplu, puteți alimenta 'final[,5:6]' la 'aplica'). În general, Joris Meys' soluție pare a fi mai elegant.

88

0

getting-there

5 noiembrie 2013 в 6:30

Mai mult

O altă opțiune dacă doriți un control mai mare asupra cum rânduri sunt considerate a fi incorecte este

final <- final[!(is.na(final$rnor)) | !(is.na(rawdata$cfam)),]

Folosind cele de mai sus, acest lucru:

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   2
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   2   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2

Devine:

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   2
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   2   NA
4 ENSG00000207604    0   NA   NA   1    2
6 ENSG00000221312    0   1    2    3    2

...în cazul în care numai rândul 5 este eliminat, deoarece acesta este doar rândul care conține NAs pentru ambele rnor " ȘI " cfam`. În logica booleană poate fi apoi schimbate pentru a se potrivi cerințelor specifice.

43

0

Pierre Lafortune

26 mai 2015 в 2:49

Mai mult

Daca vrei control asupra cât de multe Snc sunt valabile pentru fiecare rând, încercați această funcție. Pentru mai multe serii de date din sondaje, prea multe blank răspunsuri întrebare poate ruina rezultate. Deci, acestea sunt șterse după un anumit prag. Această funcție vă va permite să alegeți cât de multe NAs la rând poate avea înainte de a-l's șters:

delete.na <- function(DF, n=0) {
  DF[rowSums(is.na(DF)) <= n,]
}

În mod implicit, acesta va elimina toate Snc:

delete.na(final)
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
6 ENSG00000221312    0    1    2    3    2

Sau specifica numărul maxim de NAs permis:

delete.na(final, 2)
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

38

0

C8H10N4O2

16 februarie 2018 в 3:41

Mai mult

Dacă performanța este o prioritate, utilizarea de date.masă " și " na.omite()`cu opțional param`cols=`.

na.omit.data.table este cel mai rapid de pe meu de referință (a se vedea mai jos), fie pentru toate coloanele sau pentru a selecta coloane (OP întrebare partea a 2-a).

Dacă nu't doriți să utilizați date.masă`, utilizat`complet.cazuri()`.

Pe o vanilie de date.cadru, [complete.cases](https://www.rdocumentation.org/packages/stats/versions/3.4.3/topics/complete.cases) este mai rapid decât [na.omite()](https://www.rdocumentation.org/packages/stats/versions/3.4.3/topics/na.fail) sau [dplyr::drop_na()](https://www.rdocumentation.org/packages/tidyr/versions/0.8.0/topics/drop_na). Observați căna.omite.date.cadrunu suportcols=`.

De referință rezultat

Aici este o comparație de bază (albastru), dplyr (roz), și datele.masa (galben), metode de scadere fie toate sau selectați lipsă de observații, pe noțională set de date de 1 milion de observații de 20 numerice variabile independente cu 5% probabilitatea de a fi dispărut, și un subset de 4 variabile pentru partea a 2-a.

Rezultatele pot varia în funcție de lungimea, lățimea, și sparsity de anumit set de date.

Notă scară logaritmică pe axa y.

Scenariul de referință

#-------  Adjust these assumptions for your own use case  ------------
row_size   <- 1e6L 
col_size   <- 20    # not including ID column
p_missing  <- 0.05   # likelihood of missing observation (except ID col)
col_subset <- 18:21  # second part of question: filter on select columns

#-------  System info for benchmark  ----------------------------------
R.version # R version 3.4.3 (2017-11-30), platform = x86_64-w64-mingw32
library(data.table); packageVersion('data.table') # 1.10.4.3
library(dplyr);      packageVersion('dplyr')      # 0.7.4
library(tidyr);      packageVersion('tidyr')      # 0.8.0
library(microbenchmark)

#-------  Example dataset using above assumptions  --------------------
fakeData <- function(m, n, p){
  set.seed(123)
  m <-  matrix(runif(m*n), nrow=m, ncol=n)
  m[m<p] <- NA
  return(m)
}
df <- cbind( data.frame(id = paste0('ID',seq(row_size)), 
                        stringsAsFactors = FALSE),
             data.frame(fakeData(row_size, col_size, p_missing) )
             )
dt <- data.table(df)

par(las=3, mfcol=c(1,2), mar=c(22,4,1,1)+0.1)
boxplot(
  microbenchmark(
    df[complete.cases(df), ],
    na.omit(df),
    df %>% drop_na,
    dt[complete.cases(dt), ],
    na.omit(dt)
  ), xlab='', 
  main = 'Performance: Drop any NA observation',
  col=c(rep('lightblue',2),'salmon',rep('beige',2))
)
boxplot(
  microbenchmark(
    df[complete.cases(df[,col_subset]), ],
    #na.omit(df), # col subset not supported in na.omit.data.frame
    df %>% drop_na(col_subset),
    dt[complete.cases(dt[,col_subset,with=FALSE]), ],
    na.omit(dt, cols=col_subset) # see ?na.omit.data.table
  ), xlab='', 
  main = 'Performance: Drop NA obs. in select cols',
  col=c('lightblue','salmon',rep('beige',2))
)

C8H10N4O2

Răspuns editat 16 februarie 2018 в 3:47

35

0

Raminsu

12 aprilie 2017 в 5:44

Mai mult

Folosind dplyr pachetului putem filtra NA, după cum urmează:

dplyr::filter(df,  !is.na(columnname))

19

0

Leo

19 septembrie 2014 в 12:36

Mai mult

Acest lucru va reveni rânduri care au cel puțin UN non-NA valoare.

final[rowSums(is.na(final))<length(final),]

Acest lucru va reveni rânduri care au cel puțin DOUĂ non-NA valoare.

final[rowSums(is.na(final))<(length(final)-1),]

17

0

LegitMe

9 februarie 2016 в 5:52

Mai mult

Pentru prima întrebare, am un cod care sunt confortabil cu a scăpa de toate NAs. Multumesc pentru @Gregor pentru a face mai simplu.

final[!(rowSums(is.na(final))),]

Pentru cea de-a doua întrebare, codul este doar o alternanță de soluția anterioară.

final[as.logical((rowSums(is.na(final))-5)),]

Observa -5 este numărul de coloane de date. Acest lucru va elimina rânduri cu tot cu NAs, deoarece rowSums adaugă până la 5 și au devenit zerouri după scădere. De data asta, ca.logic este necesar.

C8H10N4O2

Răspuns editat 7 martie 2018 в 2:57

15

0

Ramya Ural

11 noiembrie 2014 в 10:15

Mai mult

Putem folosi, de asemenea, subset funcția pentru acest lucru.

finalData<-subset(data,!(is.na(data["mmul"]) | is.na(data["rnor"])))

Acest lucru vă va oferi numai acele rânduri care nu au NA în ambele mmul și rnor

14

0

Jerry T

3 februarie 2016 в 5:48

Mai mult

Eu sunt un sintetizator:). Aici am combinat răspunsurile într-o singură funcție:

#' keep rows that have a certain number (range) of NAs anywhere/somewhere and delete others
#' @param df a data frame
#' @param col restrict to the columns where you would like to search for NA; eg, 3, c(3), 2:5, "place", c("place","age")
#' \cr default is NULL, search for all columns
#' @param n integer or vector, 0, c(3,5), number/range of NAs allowed.
#' \cr If a number, the exact number of NAs kept
#' \cr Range includes both ends 3<=n<=5
#' \cr Range could be -Inf, Inf
#' @return returns a new df with rows that have NA(s) removed
#' @export
ez.na.keep = function(df, col=NULL, n=0){
    if (!is.null(col)) {
        # R converts a single row/col to a vector if the parameter col has only one col
        # see https://radfordneal.wordpress.com/2008/08/20/design-flaws-in-r-2-%E2%80%94-dropped-dimensions/#comments
        df.temp = df[,col,drop=FALSE]
    } else {
        df.temp = df
    }

    if (length(n)==1){
        if (n==0) {
            # simply call complete.cases which might be faster
            result = df[complete.cases(df.temp),]
        } else {
            # credit: http://stackoverflow.com/a/30461945/2292993
            log <- apply(df.temp, 2, is.na)
            logindex <- apply(log, 1, function(x) sum(x) == n)
            result = df[logindex, ]
        }
    }

    if (length(n)==2){
        min = n[1]; max = n[2]
        log <- apply(df.temp, 2, is.na)
        logindex <- apply(log, 1, function(x) {sum(x) >= min && sum(x) <= max})
        result = df[logindex, ]
    }

    return(result)
}

Jerry T

Răspuns editat 10 decembrie 2016 в 6:26

9

0

Prradep

15 martie 2017 в 4:51

Mai mult

Presupunând că dat ca dataframe, rezultatul așteptat poate fi realizat folosind

1.rowSums

> dat[!rowSums((is.na(dat))),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

2.lapply

> dat[!Reduce('|',lapply(dat,is.na)),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2

8

0

sapy

22 februarie 2018 в 10:19

Mai mult

delete.dirt <- function(DF, dart=c('NA')) {
  dirty_rows <- apply(DF, 1, function(r) !any(r %in% dart))
  DF <- DF[dirty_rows, ]
}

mydata <- delete.dirt(mydata)

Funcția de mai sus șterge toate rândurile din cadru de date care are 'NA' în orice coloană și returnează rezultate de date. Dacă doriți să verificați pentru mai multe valori, cum ar fi NA "și"? "schimbare" dart=c('NA') în funcție paramdart=c('NA', '?')`

4

0

bschneidr

23 aprilie 2019 в 5:21

Mai mult

O abordare care's atât generale, cât și a randamentelor destul de lizibil codul este de a utiliza "filtru" funcția și variantele sale în dplyr pachet (filter_all, filter_at, filter_if):

library(dplyr)

vars_to_check <- c("rnor", "cfam")

# Filter a specific list of columns to keep only non-missing entries
df %>% 
  filter_at(.vars = vars(one_of(vars_to_check)),
            ~ !is.na(.))

# Filter all the columns to exclude NA
df %>% 
  filter_all(~ !is.na(.))

# Filter only numeric columns
df %>%
  filter_if(is.numeric,
            ~ !is.na(.))

bschneidr

Răspuns editat 26 aprilie 2019 в 2:45

4

0

Joni Hoppen

8 mai 2018 в 8:35

Mai mult

Părerea mea este că acest lucru ar putea fi mai elegant rezolvate în acest fel

  m <- matrix(1:25, ncol = 5)
  m[c(1, 6, 13, 25)] <- NA
  df <- data.frame(m)
  library(dplyr) 
  df %>%
  filter_all(any_vars(is.na(.)))
  #>   X1 X2 X3 X4 X5
  #> 1 NA NA 11 16 21
  #> 2  3  8 NA 18 23
  #> 3  5 10 15 20 NA

3

0

Adăugati o întrebare

Categorii

Toate

Tehnologii

Cultură

Viață / Artă

Stiință

Profesii

Afaceri

Utilizatori

Toate

Nou

Populare

1

Ксения Комарова

Înregistrat 3 săptămâni în urmă

2

Артур «Апер»

Înregistrat 2 luni în urmă

3

Viktor Malyutin

Înregistrat 2 luni în urmă

4

Viktor Malyutin

Înregistrat 2 luni în urmă

5

Syahputra Zhedenk

Înregistrat 2 luni în urmă

Aveți o întrebare? Adăugați-o pe site-ul nostru și primiți răspuns instant

ro.kzen.dev

Joris Meys · Accepted Answer · 2011-02-01T12:21:42+00:00

De asemenea, a verifica complet.cazuri :

> final[complete.cases(final), ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
6 ENSG00000221312    0    1    2    3    2

na.omite este mai frumos pentru eliminarea tuturor " NA " 's. complet.cazuri permite selecție parțială, prin includerea doar a anumitor coloane de dataframe:

> final[complete.cases(final[ , 5:6]),]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

Solutia ta poate't de lucru. Daca insisti sa folosesti este.na, atunci trebuie să faci ceva de genul:

> final[rowSums(is.na(final[ , 5:6])) == 0, ]
             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0    2    2    2    2
4 ENSG00000207604    0   NA   NA    1    2
6 ENSG00000221312    0    1    2    3    2

dar folosind complete.cazuri` este destul de mult mai clară, și mai repede.

Eliminați rânduri cu unele sau cu toate Snc (valori lipsă) în date.cadru

Dacă performanța este o prioritate, utilizarea de date.masă " și " na.omite()cu opțional paramcols=`.

Dacă nu't doriți să utilizați date.masă, utilizatcomplet.cazuri()`.

De referință rezultat

Scenariul de referință

Dacă performanța este o prioritate, utilizarea de date.masă " și " na.omite()`cu opțional param`cols=`.

Dacă nu't doriți să utilizați date.masă`, utilizat`complet.cazuri()`.