根据模式提取R中的一个子串

Question

更多

问题

根据模式提取R中的一个子串

假设我有一个字符串的列表。string = c("G1:E001", "G2:E002", "G3:E003")。现在我希望得到一个只包含冒号":"之后部分的字符串向量，即substring = c(E001,E002,E003)。在R中是否有一个方便的方法来做到这一点？使用substr？谢谢!

sindri_baldur

已编辑的问题 2日十月 2018 в 12:50

编程

regex

r

substr

解决方案/答案

agstudy

20日六月 2013 в 2:10

更多

例如，使用gsub或sub。

    gsub('.*:(.*)','\\1',string)
    1] "E001" "E002" "E003"

23

0

user1981275

20日六月 2013 в 2:10

更多

这应该可以了。

gsub("[A-Z][1-9]:", "", string)

给予

[1] "E001" "E002" "E003"

5

0

添加问题

岚，巗峃，。

全部

技术

文化/娱乐

生活/艺术

科学

专业的

业务

用户

全部

新的

热门

1

2

3

4

5

您有问题吗？将问题添加到网站上并立即得到答复

zh.kzen.dev

G. Grothendieck · Accepted Answer · 2013-06-20T14:10:47+00:00

这里有几个方法。

1）分

sub(".*:", "", string)
## [1] "E001" "E002" "E003"

2）strsplit

sapply(strsplit(string, ":"), "[", 2)
## [1] "E001" "E002" "E003"

3) read.table

read.table(text = string, sep = ":", as.is = TRUE)$V2
## [1] "E001" "E002" "E003"

4) 子串

这假设第二部分总是从第4个字符开始（问题中的例子就是这种情况）。

substring(string, 4)
## [1] "E001" "E002" "E003"

4a) 子串/楔形文字

如果冒号不总是在已知的位置，我们可以通过搜索来修改（4）。

substring(string, regexpr(":", string) + 1)

5）strapplyc

strapplyc返回括号内的部分。

library(gsubfn)
strapplyc(string, ":(.*)", simplify = TRUE)
## [1] "E001" "E002" "E003"

6) read.dcf

这个方法只有在冒号之前的子串是唯一的（在问题中的例子中是唯一的）时才有效。此外，它还要求分隔符是冒号（问题中就是如此）。如果使用不同的分隔符，那么我们可以使用sub先用冒号替换它。例如，如果分隔符是_，那么string <- sub("_", ":", string)。

c(read.dcf(textConnection(string)))
## [1] "E001" "E002" "E003"

7) separate 使用tidyr::separate我们创建一个有两列的数据框，一列是冒号之前的部分，一列是冒号之后的部分，然后提取后者。

library(dplyr)
library(tidyr)
library(purrr)

DF <- data.frame(string)
DF %>% 
  separate(string, into = c("pre", "post")) %>% 
  pull("post")
## [1] "E001" "E002" "E003"

7a)也可以用separate来直接创建post列，然后将生成的数据框unlist和unname。

library(dplyr)
library(tidyr)

DF %>% 
  separate(string, into = c(NA, "post")) %>% 
  unlist %>%
  unname
## [1] "E001" "E002" "E003"

增加了。strapplyc, read.dcf和separate的解决方案。

注意。

输入的 "字符串 "被假定为。

string <- c("G1:E001", "G2:E002", "G3:E003")