Efisien query dalam satu string terhadap beberapa regexes

Question

Lebih

Question

Efisien query dalam satu string terhadap beberapa regexes

Mari kita mengatakan bahwa saya memiliki 10.000 regexes dan satu string dan saya ingin mengetahui apakah string pertandingan mereka dan mendapatkan semua pertandingan. Sepele cara untuk melakukannya akan hanya query string satu per satu terhadap semua regexes. Ada yang lebih cepat,lebih efisien cara untuk melakukannya?

EDIT: Saya telah mencoba mengganti dengan DFA's (lex) Masalahnya di sini adalah bahwa hal itu hanya akan memberikan satu pola tunggal. Jika aku punya string "hello" dan pola "[H|h]ello" dan ".{0,20}ello", DFA hanya akan cocok dengan salah satu dari mereka, tapi aku ingin mereka berdua untuk memukul.

Sridhar Iyer

Pertanyaan edit 10 Oktober 2008 в 9:41

Pemrograman

regex

algorithm

pcre

Solution / Answer

Markus Jarderot

10 Oktober 2008 в 8:58

Lebih

Anda bisa menggabungkan mereka dalam kelompok mungkin 20.

(?=(regex1)?)(?=(regex2)?)(?=(regex3)?)...(?=(regex20)?)

Asalkan masing-masing regex memiliki nol (atau setidaknya jumlah yang sama) menangkap kelompok, anda dapat melihat apa yang ditangkap untuk melihat pola(s) cocok.

Jika regex1 cocok, menangkap kelompok 1 akan memiliki itu's sesuai teks. Jika tidak, itu akan menjadi undefined/Tidak ada/null/...

4

0

Glen Thompson

16 November 2017 в 12:17

Lebih

Aho-Corasick adalah jawaban bagi saya.

Aku punya 2000 kategori hal-hal yang masing-masing memiliki daftar pola untuk pertandingan melawan. String suhu udara rata-rata sekitar 100.000 karakter.

Utama Peringatan: The patters untuk mencocokkan semua bahasa patters tidak pola regex misal 'kucing' vs r'\w+'.

Saya menggunakan python sehingga digunakan https://pypi.python.org/pypi/pyahocorasick/.

import ahocorasick
A = ahocorasick.Automaton()

patterns = [
  [['cat','dog'],'mammals'],
  [['bass','tuna','trout'],'fish'],
  [['toad','crocodile'],'amphibians'],
]

for row in patterns:
    vals = row[0]
    for val in vals:
        A.add_word(val, (row[1], val))

A.make_automaton()

_string = 'tom loves lions tigers cats and bass'

def test():
  vals = []
  for item in A.iter(_string):
      vals.append(item)
  return vals

Menjalankan %waktuhal test() pada tahun 2000 kategori dengan sekitar 2-3 jejak per kategori dan _string panjang sekitar 100,000 punya saya 2.09 ms vs 631 ms melakukan berurutan kembali.pencarian() 315x lebih cepat!.

2

0

EfForEffort

10 Oktober 2008 в 9:09

Lebih

Jika anda're menggunakan ekspresi reguler (orang-orang yang sesuai untuk bahasa regular dari teori bahasa formal, dan tidak beberapa Perl-seperti non-regular hal), kemudian anda're beruntung, karena biasa bahasa yang tertutup di bawah union. Dalam kebanyakan regex bahasa, pipa (|) adalah union. Jadi anda harus mampu untuk membangun sebuah string (mewakili ekspresi reguler anda inginkan) sebagai berikut:

(r1)|(r2)|(r3)|...|(r10000)

di mana tanda kurung untuk mengelompokkan, tidak cocok. Apa-apa yang sesuai dengan ekspresi reguler yang cocok dengan setidaknya salah satu dari anda asli ekspresi reguler.

2

0

hroptatyr

19 Maret 2018 в 8:30

Lebih

Saya menggunakan Rageldari dengan meninggalkan tindakan:

action hello {...}
action ello {...}
action ello2 {...}
main := /[Hh]ello/  % hello |
        /.+ello/ % ello |
        any{0,20} "ello"  % ello2 ;

String "hello" sebut kode dalam aksi halo block, maka dalam aksi ello blok dan terakhir di aksi ello2 blok.

Mereka ekspresi reguler sangat terbatas dan bahasa mesin lebih disukai sebaliknya, kawat gigi dari contoh anda hanya bekerja dengan bahasa yang lebih umum.

0

RCIX

1 September 2009 в 9:00

Lebih

Cara tercepat untuk melakukan itu tampaknya menjadi sesuatu seperti ini (kode C#):

public static List<Regex> FindAllMatches(string s, List<Regex> regexes)
{
    List<Regex> matches = new List<Regex>();
    foreach (Regex r in regexes)
    {
        if (r.IsMatch(string))
        {
            matches.Add(r);
        }
    }
    return matches;
}

Oh, anda berarti tercepat kode? saya don't tahu kemudian....

-1

0

Tambahkan pertanyaan

Kategori

Semua

Teknologi

Budaya / Rekreasi

Kehidupan / Seni

Ilmu Pengetahuan

Profesional

Bisnis

Pengguna

Semua

Baru

Populer

1

Ксения Комарова

Terdaftar 1 bulan yang lalu

2

Артур «Апер»

Terdaftar 2 bulan yang lalu

3

Viktor Malyutin

Terdaftar 2 bulan yang lalu

4

Viktor Malyutin

Terdaftar 2 bulan yang lalu

5

Syahputra Zhedenk

Terdaftar 3 bulan yang lalu

Anda punya pertanyaan? Tambahkan di situs dan dapatkan jawabannya secara instan

id.kzen.dev

ShuggyCoUk · Accepted Answer · 2009-08-28T11:21:44+00:00

Martin Sulzmann Telah melakukan cukup banyak pekerjaan di bidang ini. Ia memiliki a HackageDB proyek menjelaskan breifly di sini yang menggunakan turunan parsial tampaknya dibuat khusus untuk ini.

Bahasa yang digunakan adalah Haskell dan dengan demikian akan sangat sulit untuk menerjemahkan ke non fungsional bahasa jika itu adalah keinginan (saya akan berpikir terjemahan untuk banyak bahasa FP masih akan cukup sulit).

Kode ini tidak didasarkan pada konversi untuk serangkaian automata dan kemudian menggabungkan mereka, melainkan didasarkan pada manipulasi simbolis dari regexes diri mereka sendiri.

Juga kode ini sangat banyak eksperimen dan Martin tidak lagi seorang profesor tapi di 'pekerjaan yang menguntungkan'(1) jadi mungkin tidak tertarik/tidak mampu untuk menyediakan bantuan atau masukan.

ini adalah lelucon - aku seperti profesor, kurang pintar yang mencoba untuk bekerja lebih banyak kesempatan saya telah dibayar!