Чергування з вертикальним стовпчиком або символом труби

Я вже пояснював, як ви можете використовувати класи символів для збігу одного символу з кількох можливих символів. Чергування подібне. Ви можете використовувати чергування, щоб зіставити один регулярний вираз із кількох можливих регулярних виразів.

підручник

Якщо ви хочете знайти буквальний текст кішка чи собака, розділіть обидва варіанти вертикальною смужкою або символом труби: кішка | пес . Якщо ви хочете більше варіантів, просто розширіть список: cat | собака | миша | риба .

Оператор чергування має найнижчий пріоритет серед усіх операторів регулярних виразів. Тобто він повідомляє двигуну регулярних виразів, щоб він відповідав або усьому зліва від вертикальної смуги, або у всьому, що знаходиться справа від вертикальної смуги. Якщо ви хочете обмежити охоплення чергування, вам потрібно скористатися дужками для групування. Якщо ми хочемо вдосконалити перший приклад, щоб він відповідав лише цілим словам, нам потрібно було б використовувати \ b (cat | dog) \ b. Це підказує механізму регулярних виразів знайти межу слова, потім кішку чи собаку, а потім іншу межу слова. Якби ми опустили дужки, тоді механізм регулярного виразу шукав би межу слова, за якою слід кішка, або собака, за якою межа слова.

Пам'ятайте, що двигун Regex прагне

Я вже пояснював, що двигун регулярних виразів прагне. Він припиняє пошук, як тільки знаходить дійсний збіг. Наслідком є ​​те, що в певних ситуаціях порядок альтернатив має значення. Припустимо, ви хочете використовувати регулярний вираз для узгодження списку імен функцій мовою програмування: Get, GetValue, Set або SetValue. Очевидним рішенням є Get | GetValue | Встановити | SetValue. Давайте подивимося, як це працює, коли рядок SetValue .

Механізм регулярних виразів запускається з першого маркера в регулярному виразі, G, і з першого символу в рядку, S. Матч не вдається. Однак механізм регулярних виразів вивчив весь регулярний вираз перед запуском. Отже, він знає, що цей регулярний вираз використовує чергування, і що все регулярне вираження ще не вийшло з ладу. Отже, це продовжується з другим варіантом, будучи другим G у регулярному виразі. Матч знову не вдається. Наступний маркер - це перший S у регулярному виразі. Збіг вдався, і движок продовжується із наступним символом у рядку, а також наступним символом у регулярному виразі. Наступним маркером у регулярному виразі є e після S, який щойно вдало збігся. e відповідає e. Наступний маркер, t відповідає t .

На даний момент третій варіант у чергуванні успішно підібраний. Оскільки механізм регулярних виразів прагне, він вважає, що все чергування успішно підібрано, як тільки є один із варіантів. У цьому прикладі в регулярному виразі поза чергуванням відсутні інші маркери, тому весь регулярний вираз успішно відповідає Set у SetValue .

На відміну від того, що ми задумали, регулярний вираз не відповідає цілому рядку. Є кілька рішень. Одним із варіантів є врахування того, що механізм регулярних виразів прагне, та зміна порядку параметрів. Якщо ми використовуємо GetValue | Отримати | SetValue | Set, SetValue робиться спроба перед Set, і механізм відповідає цілому рядку. Ми також могли б об’єднати чотири варіанти у два та використати знак питання, щоб зробити частину з них необов’язковою: Отримати (значення)? | Встановити (значення)? . Оскільки знак запитання жадібний, перед Set встановлюється спроба SetValue .

Найкращий варіант - це, мабуть, висловити той факт, що ми хочемо відповідати лише повним словам. Ми не хочемо збігати Set або SetValue, якщо рядок SetValueFunction. Тож рішенням є \ b (Get | GetValue | Set | SetValue) \ b або \ b (Get (Value)? | Set (Value)?) \ B. Оскільки всі варіанти мають однаковий кінець, ми можемо оптимізувати це далі до \ b (Отримати | Встановити) (Значення)? \ b .

Текстовий механізм повертає найдовший збіг

Чергування - це те, де механізми, спрямовані на регулярні вирази та текст, відрізняються. Коли текстовий механізм намагається отримати | GetValue | Встановити | SetValue на SetValue, він пробує всі перестановки регулярного виразу на початку рядка. Це робить ефективно, без будь-якого відступу. Він бачить, що регулярний вираз може знайти відповідність на початку рядка, а відповідний текст може бути або Set, або SetValue. Оскільки механізм, орієнтований на текст, оцінює регулярний вираз у цілому, він не має поняття, що одна з альтернатив перерахована перед іншою. Але він повинен зробити вибір щодо того, який матч повернути. Він завжди повертає найдовший збіг, у цьому випадку SetValue .

POSIX вимагає найдовшого збігу

Стандарт POSIX залишає за собою можливість вибору механізму, спрямованого на текст або регулярний вираз. BRE, що включає зворотні посилання, потрібно оцінювати за допомогою механізму, спрямованого на регулярні вирази. Але BRE без зворотних посилань або ERE можна оцінити за допомогою механізму, спрямованого на текст. Але стандарт POSIX вимагає повернути найдовший збіг, навіть коли використовується механізм, спрямований на регулярні вирази. Такий двигун не може бути завзятим. Він повинен продовжувати пробувати всі альтернативи навіть після того, як знайдено збіг, щоб знайти найдовший. Це може призвести до дуже низької продуктивності, коли регулярний вираз містить кілька кванторів або комбінацію кванторів і чергування, оскільки всі комбінації потрібно намагатися знайти найдовший збіг.

Аромати Tcl та GNU також працюють таким чином.

Зробіть пожертву

Цей веб-сайт просто врятував вам поїздку до книгарні? Будь ласка, зробіть пожертву на підтримку цього веб-сайту, і ви отримаєте довічний безрекламний доступ до цього веб-сайту!