How do I 복귀시킴 NA 가치와 제로 작업공간에서 R 다테프라임?

하이브리드 드프리르 옵션을 이제 보다 약 30% 를 기본 R 서브셋 재할당. 100m 에서 'mutate_all 다테프라임 데이터 포인트 (~ 복귀시킴 (., is.na (.), 0))' 는 두 번째 보다 반단면 기본 R 영업사원이에요 [is.na (d)] < - 0 '디바이스입니다. 구체적으로 어떤 것을 피하기 위해 '1' () '' () 또는 메인보드로부터 ifelse 세페우스 사용하고 있습니다. (전체 600 실행했음 4.5 시간 이상으로 인해 이러한 방식은 주로 평가판의 분석 등.) 분석 결과 완료하십시오 벤치마트 대해서는 아래를 참조하시기 바랍니다. 어려움을 겪고 있다 ',' 가장 빠른 경우 대규모 다테프럼스 데이타스터블 옵션을 모두: 표준 기본 r을 외곽진입 40% 더 빠릅니다. 또한 있는 데이터를 효과적으로 사용할 수 있도록 수정되므로 배치하십시오 거의 두 배나 많은 데이터를 동시에.

클러스터링 방식이 다른 도움됐네 티디버스 교체품

Locationally:*
- - '인덱스화할 mutate_at (c (5 10), ~ 복귀시킴 (., is.na (.), 0))'
- - '직접 참조입니다 mutate_at (var (var5:var10), ~ 복귀시킴 (., is.na (.), 0))'
- - '고정식입니다 일치시킵니다 mutate_at (var (포함 (1&quot ";)), ~ 복귀시킴 (., is.na (.), 0))'

또는 () ',' 대신 'map_layer 시도하시겠습니까 ends_with ()', 'starts_with ()'

- - 'mutate_at 패턴 일치 (var (일치시킵니다 (&quot \d 2}, {")), ~ 복귀시킴 (., is.na (.), 0))'
Conditionally:* (그냥 숫자 (열) 과 변경하십시오 남겨두십시오 문자열 (열) 된다.)
- - 'mutate_if 정수 (이오안테거 ~ 복귀시킴 (., is.na (.), 0))'
- - 'mutate_if 복식 (이.누메리크 ~ 복귀시킴 (., is.na (.), 0))'
- - '문장열 mutateif (이스커랙터 ~ 복귀시킴 (., is.na (.), 0))'
    전체 분석 -
업데이트되도록 드프리르 대한 0.8.0: '-' 기능ᆞ기술과 퍼르 형식을 사용하여 기호: 교체하십니까 즐거운 arguments.* 사용되지 않는 ' ()'
외곽진입 테스트됨:

# Base R: 
baseR.sbst.rssgn   <- function(x) { x[is.na(x)] <- 0; x }
baseR.replace      <- function(x) { replace(x, is.na(x), 0) }
baseR.for          <- function(x) { for(j in 1:ncol(x))
    x[[j]][is.na(x[[j]])] = 0 }

# tidyverse
## dplyr
dplyr_if_else      <- function(x) { mutate_all(x, ~if_else(is.na(.), 0, .)) }
dplyr_coalesce     <- function(x) { mutate_all(x, ~coalesce(., 0)) }

## tidyr
tidyr_replace_na   <- function(x) { replace_na(x, as.list(setNames(rep(0, 10), as.list(c(paste0("var", 1:10)))))) }

## hybrid 
hybrd.ifelse     <- function(x) { mutate_all(x, ~ifelse(is.na(.), 0, .)) }
hybrd.replace_na <- function(x) { mutate_all(x, ~replace_na(., 0)) }
hybrd.replace    <- function(x) { mutate_all(x, ~replace(., is.na(.), 0)) }
hybrd.rplc_at.idx<- function(x) { mutate_at(x, c(1:10), ~replace(., is.na(.), 0)) }
hybrd.rplc_at.nse<- function(x) { mutate_at(x, vars(var1:var10), ~replace(., is.na(.), 0)) }
hybrd.rplc_at.stw<- function(x) { mutate_at(x, vars(starts_with("var")), ~replace(., is.na(.), 0)) }
hybrd.rplc_at.ctn<- function(x) { mutate_at(x, vars(contains("var")), ~replace(., is.na(.), 0)) }
hybrd.rplc_at.mtc<- function(x) { mutate_at(x, vars(matches("\\d+")), ~replace(., is.na(.), 0)) }
hybrd.rplc_if    <- function(x) { mutate_if(x, is.numeric, ~replace(., is.na(.), 0)) }

# data.table   
library(data.table)
DT.for.set.nms   <- function(x) { for (j in names(x))
    set(x,which(is.na(x[[j]])),j,0) }
DT.for.set.sqln  <- function(x) { for (j in seq_len(ncol(x)))
    set(x,which(is.na(x[[j]])),j,0) }
DT.fnafill       <- function(x) { fnafill(df, fill=0)}
DT.setnafill     <- function(x) { setnafill(df, fill=0)}

코드 엔드입니다 분석:

library(microbenchmark)
# 20% NA filled dataframe of 10 Million rows and 10 columns
set.seed(42) # to recreate the exact dataframe
dfN <- as.data.frame(matrix(sample(c(NA, as.numeric(1:4)), 1e7*10, replace = TRUE),
                            dimnames = list(NULL, paste0("var", 1:10)), 
                            ncol = 10))
# Running 600 trials with each replacement method 
# (the functions are excecuted locally - so that the original dataframe remains unmodified in all cases)
perf_results <- microbenchmark(
    hybrid.ifelse    = hybrid.ifelse(copy(dfN)),
    dplyr_if_else    = dplyr_if_else(copy(dfN)),
    hybrd.replace_na = hybrd.replace_na(copy(dfN)),
    baseR.sbst.rssgn = baseR.sbst.rssgn(copy(dfN)),
    baseR.replace    = baseR.replace(copy(dfN)),
    dplyr_coalesce   = dplyr_coalesce(copy(dfN)),
    tidyr_replace_na = tidyr_replace_na(copy(dfN)),
    hybrd.replace    = hybrd.replace(copy(dfN)),
    hybrd.rplc_at.ctn= hybrd.rplc_at.ctn(copy(dfN)),
    hybrd.rplc_at.nse= hybrd.rplc_at.nse(copy(dfN)),
    baseR.for        = baseR.for(copy(dfN)),
    hybrd.rplc_at.idx= hybrd.rplc_at.idx(copy(dfN)),
    DT.for.set.nms   = DT.for.set.nms(copy(dfN)),
    DT.for.set.sqln  = DT.for.set.sqln(copy(dfN)),
    times = 600L
)

결과 요약

&gt. &gt. 보기인쇄 (perf_results) &gt. 단위: 밀리초입니다 &gt. uq 맥스야 네발 짓궂군요 마드얀의 식 분 lq &gt. 이브라d.2펠세 6171.0439 6339.7046 6425.221 6407.397 6496. 992 7052.851 600 &gt. dplyr_if_else 3737.4954 3877.0983 3953.857 3946.024 4023. 301 4539.428 600 &gt. hybrd.replace_na 1497.8653 1706.1119 1748.464 1745.282 1789. 804 2127.166 600 &gt. 바제리스프스테드라시니 1480.5098 1686.1581 1730.006 1728.477 1772. 951 2010.215 600 &gt. 바저드레프리스 1457.4016 1681.5583 1725.481 1722.069 1766. 916 2089.627 600 &gt. dplyr_coalesce 1227.6150 1483.3520 1524.245 1519.454 1561. 488 1996.859 600 &gt. tidyr_replace_na 1248.3292 1473.1707 1521.889 1520.108 1570. 382 1995.768 600 &gt. 하이베르그레프리스 913.1865 1197.3133 1233.336 1238.747 1276. 141 1438.646 600 &gt. hybrd.rplc_at.ctn 916.9339 1192.9885 1224.733 1227.628 1268. 644 1466.085 600 &gt. hybrd.rplc_at.nse 919.0270 1191.0541 1228.749 1228.635 1275. 103 2882.040 600 &gt. 배서스퍼 869.3169 1180.8311 1216.958 1224.407 1264. 737 1459.726 600 &gt. hybrd.rplc_at.idx 839.8915 1189.7465 1223.326 1228.329 1266. 375 1565.794 600 &gt. 트리포리세스 마스 761.6086 915.8166 1015.457 1001.772 1106. 315 1363.044 600 &gt. 트리포리스트리스크라인 787.3535 918.8733 1017.812 1002.042 1122. 474 1321.860 600

박스플로트 결과

ggplot(perf_results, aes(x=expr, y=time/10^9)) +
    geom_boxplot() +
    xlab('Expression') +
    ylab('Elapsed Time (Seconds)') +
    scale_y_continuous(breaks = seq(0,7,1)) +
    coord_flip()

! [박스플로트 비교 경과 시간] [박스플로트]

색으로 구분된 산포도 재판 (log 확장성으로 y-축 (함께)

qplot(y=time/10^9, data=perf_results, colour=expr) + 
    labs(y = "log10 Scaled Elapsed Time per Trial (secs)", x = "Trial Number") +
    coord_cartesian(ylim = c(0.75, 7.5)) +
    scale_y_log10(breaks=c(0.75, 0.875, 1, 1.25, 1.5, 1.75, seq(2, 7.5)))

! [산포도 모든 평가판의 회] [산포도]

적어두십시오 on the other 높음입니다 명.

39, & # 39 의 Tidyr& 때 데이터세트를 커질 경우, 앞에 '역사적' replace_na 꺼낸 바 있다. 이를 통해 데이터 점, 100M 에서는 현재 취합은 실행하십시오 향상합니다 거의 정확히 아니라 기본 r을 루프지 대한 각기 다른 크기의 다테프럼스 보려면 어떻게 되는지 궁금하네요.

'변형' 와 '에 대한 추가 참조용이므로 _at' 와 '변형' '요약하십시오 _all' 기능은 여기서 찾을 수 있습니다. https://rdrr.io/cran/dplyr/man/summarise_all.html 또한 모음 I found 도움됐네 시연 및 참조용이므로 있습니다. https://blog.exploratory.io/dplyr-0-5-is-awesome-heres-why-be095fd4eb8a

귀속 및 (원화가치 상승)

With special 덕분이다.

타일러 스케이트 타는 사람 및 악런 을 입증하는 마이크로벤크마크.
alexis_laz 나를 이해하는 데 사용하는 지역 () '및' 작업을 위한 (# 39 의 환자지 도움말에서는 Frank& 함께, 고쳐주렴) 의 속도를 높일 수 있는 역할이라고 silent. 강제 재생할지 이런 다양한 방식.
아서예프 정도면 대한 새로운 기능을 추가할 수 있는 '가속 시 가용 ()' 및 업데이트하려면 분석했다.
그림 '이동' 기능을 충분히 잘 그레고어 대한 아웃해야 데이타스터블 마침내 포함시킬 됐다.
- 기본 r을 For 루프. [ alexis_laz *] 3
- - 용 데이타스터블 루프: Matt_Dowle
(물론, 제발 그 방법을 찾을 수 있다면 그 이상을 기록, 고쳐주렴 업보테스 더 유용할 것입니다.) *
참고 on my 사용할 경우 모든 정수 데이터세트를 순결케 가지고 Numerics:* 너회의 기능은 더욱 빠르게 실행할 수 있습니다. 자세한 내용은 alexiz_laz& # 39 의 작동합니까 를 참조하십시오. # 39, irl, 내가 can& t 재호출 포함하는 데이터 세트 10-15% 이상이 생길 수 있으므로, 이러한 실험을 제가 운영하는 정수를 완전히 숫자 다테프럼스.
하드웨어를 사용하지 * 3.9 GHz CPU 를 24 GB RAM

leerssej

편집된 답변12일 11월 2019 в 7:44

257

0

Ari B. Friedman

17일 11월 2011 в 3:50

단일 벡터입니다:

x <- c(1,2,NA,4,5)
x[is.na(x)] <- 0

'위' 를 만들어 함수은 다다드프라임 빼냅니다 관심용 적용하십시오 이를 열.

예를 들어 다음 시간으로 재현 가능한 제공하십시오 자세한 위치:

https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example

Community

편집된 답변23일 5월 2017 в 12:10

117

0

ianmunoz

8일 5월 2014 в 4:15

드프리르 예:

library(dplyr)

df1 <- df1 %>%
    mutate(myCol1 = if_else(is.na(myCol1), 0, myCol1))

Note: 호스트당 이 작품을 선택한 열 (column), 우리는 우리가 해야 할 경우 이 모든 com/go/lrvid4005_ps_kr @reidjax # 39 을 사용하여 오토메이티드 [mutate_each] (https://stackoverflow.com/a/37334491/680068).

zx8754

편집된 답변26일 1월 2018 в 10:57

68

0

mrsoltys

21일 2월 2014 в 4:27

예를 들어, 만약 우리가 노력하고 굈 'NA 의 csv 관심용 내보낼 때 쓸 때 사용할 수 있습니다.

  write.csv(data, "data.csv", na = "0")

zx8754

편집된 답변26일 1월 2018 в 10:59

52

0

krishan404

24일 9월 2015 в 1:49

지금 이렇게 될 수 있지만, 이미 답변됨 그러니까말이야 문제는 더욱 유용한 일부:

이 함수를 정의할 수 있습니다.

na.zero <- function (x) {
    x[is.na(x)] <- 0
    return(x)
}

지금 # 39 에서 벡터를 zero& NA& 변환할지 할 때마다, s, s # 39 할 수 있습니다.

na.zero(some.vector)

45

0

Psidom

16일 9월 2016 в 9:25

드프리르 '을 (를)', '기능을 쉽게 통합할 수 있는' 가속 시 가용 0.5.0 사용할 수 있습니다 ',' %&gt 수행여 파이프라인간의 % '가속 시 가용 (vec, 0)'. 이 모든 NAs 를 대체하는 'vec' 을 (를) 0:

우리는 함께 데이터 프레임을 말하도다 'NA 의:

library(dplyr)
df <- data.frame(v = c(1, 2, 3, NA, 5, 6, 8))

df
#    v
# 1  1
# 2  2
# 3  3
# 4 NA
# 5  5
# 6  6
# 7  8

df %>% mutate(v = coalesce(v, 0))
#   v
# 1 1
# 2 2
# 3 3
# 4 0
# 5 5
# 6 6
# 7 8

22

0

Charleslmh

25일 2월 2016 в 4:30

더 일반적인 외곽진입 호환표에 굈 '나' 에서 ' () 또는 벡터를 사용하여 대체하십시오' 을 '0'

예를 들면 다음과 같습니다.

> x <- c(1,2,NA,NA,1,1)
> x1 <- replace(x,is.na(x),0)
> x1
[1] 1 2 0 0 1 1

이 역시 '대안' () '을 사용하여 세페우스 드프리르'

df = data.frame(col = c(1,2,NA,NA,1,1))
df <- df %>%
   mutate(col = replace(col,is.na(col),0))

21

0

Sasha

13일 1월 2019 в 9:14

'Tidyr::replace_na' 를 사용할 수도 있다.

    library(tidyr)
    df <- df %>% mutate_all(funs(replace_na(.,0)))

12

0

stats0007

10일 11월 2016 в 6:21

또 다른 예를 들어 임푸테스 사용하여 패키지:

library(imputeTS)
na.replace(yourDataframe, 0)

9

0

reidjax

19일 5월 2016 в 9:40

39, ve would& 대해 아무런 언급도 하지 않고, s, t # 39 don& @ianmunoz& # 39 게시물로의 하지만 난 충분히 명성을 얻었다. ',' & # 39 드프리르 결합할 수 있습니다 '와' s '의' 나 '를 잘있게나 mutate_each 굈' 을 '0' 교체품. S # 39 에서 @aL3xa& 다테프라임 사용하여, 그 답이 있다.

> m <- matrix(sample(c(NA, 1:10), 100, replace = TRUE), 10)
> d <- as.data.frame(m)
> d

    V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1   4  8  1  9  6  9 NA  8  9   8
2   8  3  6  8  2  1 NA NA  6   3
3   6  6  3 NA  2 NA NA  5  7   7
4  10  6  1  1  7  9  1 10  3  10
5  10  6  7 10 10  3  2  5  4   6
6   2  4  1  5  7 NA NA  8  4   4
7   7  2  3  1  4 10 NA  8  7   7
8   9  5  8 10  5  3  5  8  3   2
9   9  1  8  7  6  5 NA NA  6   7
10  6 10  8  7  1  1  2  2  5   7

> d %>% mutate_each( funs_( interp( ~replace(., is.na(.),0) ) ) )

    V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1   4  8  1  9  6  9  0  8  9   8
2   8  3  6  8  2  1  0  0  6   3
3   6  6  3  0  2  0  0  5  7   7
4  10  6  1  1  7  9  1 10  3  10
5  10  6  7 10 10  3  2  5  4   6
6   2  4  1  5  7  0  0  8  4   4
7   7  2  3  1  4 10  0  8  7   7
8   9  5  8 10  5  3  5  8  3   2
9   9  1  8  7  6  5  0  0  6   7
10  6 10  8  7  1  1  2  2  5   7

39, re we& 사용하여 표준 평가 (SE), ',' 하는 이유가 여기 있는 funs_ .&quot &quot 밑줄 필요하다. 또한 '& # 39 의' ~ '/' 사용 '라시에발 안드로프' 와 '.', 즉, 모든 데이터 프레임이 with&quot 참조입니다 &quot, 노력하고 있습니다. 현재는 제로!

7

0

Zahra

30일 3월 2013 в 6:52

Replace () '' 사용할 수 있습니다.

예를 들면 다음과 같습니다.

> x <- c(-1,0,1,0,NA,0,1,1)
> x1 <- replace(x,5,1)
> x1
[1] -1  0  1  0  1  0  1  1

> x1 <- replace(x,5,mean(x,na.rm=T))
> x1
[1] -1.00  0.00  1.00  0.00  0.29  0.00 1.00  1.00

4

0

Antti

10일 10월 2016 в 11:25

'다른' 드프리르 옵션과 함께 사용할 수 있는 '방법' '' 티디르 파이프 호환적 replace_na 여러 열:

require(dplyr)
require(tidyr)

m <- matrix(sample(c(NA, 1:10), 100, replace = TRUE), 10)
d <- as.data.frame(m)

myList <- setNames(lapply(vector("list", ncol(d)), function(x) x <- 0), names(d))

df <- d %>% replace_na(myList)

예를 들어, 숫자 제한 쉽게 열 수 있습니다.

d$str <- c("string", NA)

myList <- myList[sapply(d, is.numeric)]

df <- d %>% replace_na(myList)

4

0

Fábio

11일 4월 2017 в 7:11

이 간단한 함수 다타캠프 에서 추출됨 도움을 줄 수 있습니다.

replace_missings <- function(x, replacement) {
  is_miss <- is.na(x)
  x[is_miss] <- replacement

  message(sum(is_miss), " missings replaced by the value ", replacement)
  x
}

그럼

replace_missings(df, replacement = 0)

3

0

davsjob

10일 6월 2019 в 9:14

이는 쉽게 쓸 수 있는 '에서' if_na 아브라르 ':

library(dplyr)
library(hablar)

df <- tibble(a = c(1, 2, 3, NA, 5, 6, 8))

df %>% 
  mutate(a = if_na(a, 0))

반환하는:

1

0

Seyma Kalay

31일 10월 2019 в 8:05

할당하려는 경우 새 이름을 변경한 후 사용 할 수 있고, NAs, 이 경우 역시 이 같은 특정 열에 열 V3

my.data.frame$the.new.column.name <- ifelse(is.na(my.data.frame$V3),0,1)

0

질문 추가

카테고리

모두

기술

문화/레크리에이션

생활/예술

과학

직업

비즈니스

사용자

すべて

새로운

39 ',' s no 적용하십시오 there& 적용해야 합니다. =)

편집할지 *

'패키지' 노름 살펴보도록 할 수도 있습니다. 이 회사는 좋은 기능을 많이 부족한 데이터 분석. =)