여러 정규식에 대해 하나의 문자열을 효율적으로 쿼리하기

Question

Question

여러 정규식에 대해 하나의 문자열을 효율적으로 쿼리하기

10,000개의 정규식과 하나의 문자열이 있고 그 문자열이 정규식과 일치하는지 알아보고 일치하는 모든 문자열을 가져오고 싶다고 가정해 봅시다. 이를 수행하는 간단한 방법은 모든 정규식에 대해 문자열을 하나씩 쿼리하는 것입니다. 더 빠르고 효율적인 방법이 있을까요?

편집: 나는 그것을 DFA (lex)로 대체하려고 시도했다. 여기서 문제는 하나의 단일 패턴 만 제공한다는 것입니다. 문자열 &"hello&"와 패턴 &"[H|h]ello&"와 &".{0,20}ello&"가 있으면 DFA는 둘 중 하나만 일치하지만 둘 다 맞기를 원합니다.

Sridhar Iyer

편집된 질문10일 10월 2008 в 9:41

프로그래밍

regex

algorithm

pcre

Solution / Answer

Markus Jarderot

10일 10월 2008 в 8:58

어쩌면 20 그룹별로 결합할 수 있습니다.

(?=(regex1)?)(?=(regex2)?)(?=(regex3)?)...(?=(regex20)?)

Regex 는 각 deltamove 제로 (또는 최소한 같은 수의) 얼마인지 확인할 수 있습니다 어떤 캡처하기 그룹화합니다 여바바 캡처됩니다 패턴과 일치시킵니다.

39 의 it& 했을 경우, 1 조 regex1 매칭됨 캡처하기 정합된 사용한다. 그렇지 않으면 '/' 없음 '/' null '/' 정의되지 않은 될 것 "이라고 말했다.

4

0

Glen Thompson

16일 11월 2017 в 12:17

- 는 아호 코라식 오토메이티드 for me.

2000년 각 범주에 대한 내가 가진 것을 패턴 열거합니다 일치시키려면 했다. 문자열 길이를 평균 약 100,000 자입니다.

Regex 재잘 재잘 패턴 언어 등이 모두 이 주 Caveat:* 일치시키려면 # 39, & # 39, 예를 들어 '아닌' vs ',' # 39, cat& r& \w+& # 39.

그래서 내가 어렸을 때 사용한 파이썬 https://pypi.python.org/pypi/pyahocorasick/.

import ahocorasick
A = ahocorasick.Automaton()

patterns = [
  [['cat','dog'],'mammals'],
  [['bass','tuna','trout'],'fish'],
  [['toad','crocodile'],'amphibians'],
]

for row in patterns:
    vals = row[0]
    for val in vals:
        A.add_word(val, (row[1], val))

A.make_automaton()

_string = 'tom loves lions tigers cats and bass'

def test():
  vals = []
  for item in A.iter(_string):
      vals.append(item)
  return vals

테스트 () '에 대한 추적을 통해 내 2000년 범주입니다 %timeit 호스팅하면서' 카테고리와 '당' 몸 길이는 약 100,000 2-3 _string 'vs' 하고 '내가' ms 'ms' () '' 레이시치 2.09 631 순차인지 315x 빨리 .

2

0

EfForEffort

10일 10월 2008 в 9:09

39, re you& 사용하는 경우 실제 정규 표현식 (이 수준들과 해당하는 것이 아니라 일반 언어 형식 언어 이론에서, 의 일부 펄 (perl) 등 정규직) 한 후, # 39 에서 정규 언어가 있기 때문에, re in 운빨이야 you& 종료되었는지 했다. 대부분의 regex 언어, 파이프 () 는 했다. 그래서 chunghwa 문자열으로 있어야 합니다 (정규식이 나타내는 운영까지도) 다음과 같습니다.

(r1)|(r2)|(r3)|...|(r10000)

여기서, 괄호를 그룹화용으로 일치하지 않는. 이 중 적어도 한 기존 정규 표현식에 일치하는 것도 정규식이 일치시킵니다.

2

0

hroptatyr

19일 3월 2018 в 8:30

1 와 [라헬] 내가 사용하는 것가운데 작업:

action hello {...}
action ello {...}
action ello2 {...}
main := /[Hh]ello/  % hello |
        /.+ello/ % ello |
        any{0,20} "ello"  % ello2 ;

문자열 &quot hello"; 작업 후 '에서' 죽이려하겠어요 security. 코드의 누구없어요 '여보세요' 블록 '작업' 에 마지막으로 작업이든지 블록이어야 ello2 블록.

괄호는 그들의 정규식 상당히 제한적이고 machine language 를 사용하는 것이 좋습니다 대신 좀 더 일반적인 욕금지 uxfs 국한됨 작동합니까 얻을 수 있습니다.

0

RCIX

1일 9월 2009 в 9:00

가장 빠른 길일 (코드는 C #) 이 같은 일이 될 것 같다.

public static List<Regex> FindAllMatches(string s, List<Regex> regexes)
{
    List<Regex> matches = new List<Regex>();
    foreach (Regex r in regexes)
    {
        if (r.IsMatch(string))
        {
            matches.Add(r);
        }
    }
    return matches;
}

아, 당신 것이 가장 빠른 코드의? # 39, 내가 모르는 don& 어졌다면.

-1

0