Эффективный запрос одной строки по нескольким регексам

Question

Дополнительно

Вопрос

Эффективный запрос одной строки по нескольким регексам

Допустим, у меня есть 10 000 регексов и одна строка, и я хочу выяснить, соответствует ли эта строка какому-либо из них, и получить все совпадения. Тривиальный способ сделать это - просто запросить строку по очереди по всем регексам. Есть ли более быстрый и эффективный способ сделать это?

EDIT: Я попробовал заменить его на DFA's (lex). Проблема в том, что это даст только один единственный шаблон. Если у меня есть строка "hello" и шаблоны "[H|h]ello" и ".{0,20}ello", то DFA будет соответствовать только одному из них, но я хочу, чтобы они оба совпали.

Sridhar Iyer

Редактировал вопрос 10-го октября 2008 в 9:41

Программирование

regex

algorithm

pcre

Решение / Ответ

akdom

10-го октября 2008 в 9:00

Дополнительно

10,000 regexen а? Эрик Wendelin's предложение иерархии, кажется, хорошая идея. Задумывались ли вы о снижении чудовищность этих regexen что-то вроде древовидной структуры?

В качестве простого примера: все regexen требующих ряд может ответвление одного регулярного выражения для проверки такие, все regexen не требует один вниз другой ветке. В этом моде можно уменьшить количество фактических сравнений вниз по пути вдоль дерева вместо того, чтобы делать каждое сравнение в 10,000.

Для этого потребуется демонтаж regexen на жанры, в каждом жанре имеющие общий тест, который будет править их в случае неудачи. Таким образом, вы теоретически могли бы существенно сократить количество реальных сравнений.

Если бы вам пришлось делать это во время выполнения, вы могли бы разобрать ваш приведенный регулярные выражения и "файл" их в предварительно определенных жанров (проще всего сделать) или сравнительная жанров, составленные в тот момент (не так легко сделать).

Ваш пример сравнения "Привет", чтобы "[Ч|ч]превед" и ".Элло {0,20}на" выиграл'т действительно помогло это решение. Простой случай, где это может быть полезно будет: если у тебя 1000 тестов, которые будут возвращать только true, если на "превед", которая существует где-то в строке, а тестовая строка "прощай;" Вы только должны сделать один тест на "Привет" и знаю, что 1000 тестов, требующих его выиграл'т работу, и из-за этого, ты выиграл'т иметь, чтобы сделать их.

Community

Редактировал ответ 23-го мая 2017 в 11:54

7

0

Markus Jarderot

10-го октября 2008 в 8:58

Дополнительно

Вы могли бы объединить их в группы, может быть, 20.

(?=(regex1)?)(?=(regex2)?)(?=(regex3)?)...(?=(regex20)?)

До тех пор, пока выражение имеет нулевую (или как минимум такое же количество) групп захвата, вы можете посмотреть на то, что захватили, чтобы увидеть, какой рисунок(ы) соответствует.

Если regex1 совпал, группа захвата 1 было бы это'ы найденного текста. Если нет, это будет не определено/нет/нуль/...

4

0

Glen Thompson

16-го ноября 2017 в 12:17

Дополнительно

АХО-Корасик был ответ для меня.

Я имел категории 2000 вещей, которые каждый составил список моделей на матч против. Длина струн в среднем около 100 000 знаков.

Основная проблема: в скороговорки на матч были все языковые паттерны не шаблона regex, например, 'кошечка' против Р'\ш+'.

Я использовал питон и так привык https://pypi.python.org/pypi/pyahocorasick/.

import ahocorasick
A = ahocorasick.Automaton()

patterns = [
  [['cat','dog'],'mammals'],
  [['bass','tuna','trout'],'fish'],
  [['toad','crocodile'],'amphibians'],
]

for row in patterns:
    vals = row[0]
    for val in vals:
        A.add_word(val, (row[1], val))

A.make_automaton()

_string = 'tom loves lions tigers cats and bass'

def test():
  vals = []
  for item in A.iter(_string):
      vals.append(item)
  return vals

Запуск %раз все проверить () на мой категориях 2000 с 2-3 следами по категориям и _string длина примерно 100,000меня2.09 мспротив631 МСпоследовательнойповторно.поиск()` 315x быстрее!.

2

0

EfForEffort

10-го октября 2008 в 9:09

Дополнительно

Если вы're, используя настоящие регулярные выражения (те, которые соответствуют регулярные языки с формальной языковой теории, а не какой-Perl-подобные номера-обычное дело), то вы'вновь повезло, потому что регулярные языки замкнуты в рамках Союза. В большинстве регулярных выражений языка, труба ( | ) - это союз. Поэтому вы должны быть в состоянии построить строку (представляющую собой регулярное выражение, которое вы хотите) следующим образом:

(r1)|(r2)|(r3)|...|(r10000)

где круглые скобки используются для группировки значений, не совпадающих. Все, что соответствует этому регулярному выражению соответствует хотя бы одному из ваших оригинальных регулярные выражения.

2

0

hroptatyr

19-го марта 2018 в 8:30

Дополнительно

Я использую Рагель с отъездом действия:

action hello {...}
action ello {...}
action ello2 {...}
main := /[Hh]ello/  % hello |
        /.+ello/ % ello |
        any{0,20} "ello"  % ello2 ;

Строка "Привет" называете код в блоке действия привет, потом взаблокировать действие Элло` и, наконец, в блок ello2 действия.

Их регулярные выражения весьма ограничены, а язык машины предпочтительнее, брекеты из вашего примера только работать с более общими язык.

0

RCIX

1-го сентября 2009 в 9:00

Дополнительно

Самый быстрый способ сделать это, кажется, что-то вроде этого (код на C#):

public static List<Regex> FindAllMatches(string s, List<Regex> regexes)
{
    List<Regex> matches = new List<Regex>();
    foreach (Regex r in regexes)
    {
        if (r.IsMatch(string))
        {
            matches.Add(r);
        }
    }
    return matches;
}

Ах, вы имели в виду самый быстрый код? я не'т знаю тогда....

-1

0