Чтение онлайн

на главную - закладки

Жанры

Создание электронных книг в формате FictionBook 2.1: практическое руководство (pre-release)
Шрифт:
Метасимволы

Метасимволы — это специальные символы, являющиеся важнейшим понятием в регулярных выражениях. Существует несколько групп метасимволов.

• Разделители строк (начало строки, конец строки и т.п.)

• Стандартные перечни символов (цифры, буквы и цифры и т.п.)

• Границы слов (показывают, что вхождение должно быть на границе слова)

• Повторения (указывает, сколько раз должна присутствовать последовательность)

• Варианты (позволяет указать набор масок, с любой из которых должен совпадать текст)

• Подвыражения (используются при замене)

Обратные ссылки (способ обратиться к подвыражениям при поиске)

Метасимволы — разделители строк и границы

Разделители и границы

^ — начало строки

$ — конец строки

\A — начало текста

\Z — конец текста

\b — Совпадает на границе слова

\B — Совпадает НЕ на границе слова

Оговорка. В FB Editor (и, скорее всего, в большинстве других программ) метасимволы \b и \B не реагируют на кириллицу.

Примеры:

^Все — Находит все строки в тексте, начинающиеся словом «Все»

\bмир — Находит все слова, начинающиеся буквосочетанием «мир». Слова будут найдены и в начале строк, и в середине.

^\x20$ — Находит все строки в тексте, состоящие из единственного пробела.

Метасимволы — стандартные перечни символов

. (точка) — Любой символ

\w — буквенно-цифровой символ или "_"

\W — не \w

\d — цифровой символ

\D — не \d

\s — любой «пробельный» символ: [\x20\t\n\r\f]

\S — не \s

Оговорка. В FB Editor (и, скорее всего, в большинстве других программ) метасимволы \w и \W не реагируют на кириллицу.

Метасимвол «.» по умолчанию совпадает с любым символом, однако, если выключить модификатор s ((?-s), синтаксис см. ниже), то «.» не будет совпадать с разделителями строк.

Стандартные перечни \w, \d и \s можно использовать и внутри перечней символов.

Примеры:

—foob[\w\s]r — —находит «foobar», «foob r», «foobbr» но не «foob1r», «foob=r»

—\+\d (\d\d\d) \d\d\d-\d\d-\d\d — —Находит телефон в формате «+7 (095) 555-55-55»

Метасимволы — повторения

После любого элемента регулярного выражения может следовать очень важный тип метасимвола — повторитель. Используя их Вы можете определить число допустимых повторений предшествующего символа, метасимвола или подвыражения.

Указание числа вхождений

* — ноль или более раз (может быть «жадным»), то же что {0,}

+ — один или более раз (может быть «жадным»), то же что {1,}

? — ноль или один раз (может быть «жадным»), то же что {0,1}

{n} — точно n раз (может быть «жадным»)

{n,} — не менее n раз (может быть «жадным»)

{n,m} — не менее n но не более m раз (может быть «жадным»)

*? — ноль или более раз («не жадный»), то же что {0,}?

+? — один или более раз («не жадный»), то же что {1,}?

?? — ноль или один раз («не жадный»), то же что {0,1}?

{n}? — точно n раз («не жадный»)

{n,}? — не менее n раз («не жадный»)

{n,m}? — не менее n

но не более m раз («не жадный»)

Т.о. {n,m} задает минимум n повторов и максимум — m. Повторитель {n} эквивалентен {n,n} и задает точно n повторов. Повторитель {n,} задает минимум n повторов. Теоретически величина параметров n и m не ограничена, но рекомендуется не задавать большие значения, поскольку в некоторых ситуациях это может потребовать существенных затрат времени и ОЗУ при обработке такого повторителя.

Небольшое пояснение по поводу «жадности». «Жадные» варианты повторителей пытаются захватить как можно большую часть входного текста, в то время как «не жадные» — как можно меньшую. Например, b+ как и b* примененные к входной строке «abbbbc» найдут «bbbb», в то время как b+? найдет только «b», а b*? — вообще — пустую строку; b{2,3}? найдет «bb», в то время как b{2,3} найдет «bbb».

По умолчанию, в FB Editor повторители могущие быть жадными, являются таковыми.

Примеры:

foob.*r — находит «foobar», «foobalkjdflkj9r» и «foobr»

foob.+r — находит «foobar», «foobalkjdflkj9r» но не «foobr»

foob.?r — находит «foobar», «foobbr» и «foobr» но не «foobalkj9r»

fooba{2}r — находит «foobaar»

fooba{2,}r — находит «foobaar», «foobaaar», «foobaaaar» и т.д.

fooba{2,3}r — находит «foobaar», или «foobaaar» но не «foobaaaar»

((\+\d )?\(\d{3}\) )?(\d{3}(-\d\d){2}) — Находит номера телефонов в форматах «+7 (095) 555-55-55», «(095) 555-55-55», «555-55-55». Это сложный пример, и в нем используется группировка скобками. Подробнее о применении скобок см. ниже.

(?g)([^-].{5,59}(\r\n)){4,} — Этот пример найдет нам стихи — цепочки (из 4-х и более) следующих друг за другом коротких (от шести до шестидесяти символов) параграфов. Такой вид (много коротких параграфов) характерен, например, для стихов. Первый знак не должен быть длинным тире, так как серии коротких параграфов характерны и для диалогов, а нам диалоги не нужны. Обратите внимание, что пришлось использовать модификатор жадности, так как в «не жадном» режиме мы бы нашли только четыре первых строфы.

Метасимволы — варианты

Вы можете определить перечень вариантов, используя метасимвол «|» для их разделения, например, fee|fie|foe найдет «fee» или «fie» или «foe», (так же как f(e|i|o)e). В качестве первого варианта воспринимается все от предыдущего метасимвола ( или [ или от начала выражения до первого метасимвола «|», в качестве последнего — все от последнего «|» до конца выражения или до ближайшего метасимвола). Обычно, чтобы не запутаться, набор вариантов всегда заключают в скобки, даже если без этого можно было бы обойтись.

Варианты пробуются начиная с первого и попытки завершаются сразу же как удастся подобрать такой, при котором совпадет вся последующая часть выражения. Это означает, что варианты не обязательно обеспечат «жадное» поведение. Например, если применить выражение foo|foot ко входной строке «barefoot», то будет найдено «foo» так это первый вариант, который позволил совпасть всему выражению.

Обратите внимание, что метасимвол | воспринимается как обычный символ внутри перечней символов, например, [fee|fie|foe] означает ровно то же самое что и [feio|].

Поделиться:
Популярные книги

Жена проклятого некроманта

Рахманова Диана
Фантастика:
фэнтези
6.60
рейтинг книги
Жена проклятого некроманта

Сын Тишайшего

Яманов Александр
1. Царь Федя
Фантастика:
попаданцы
альтернативная история
фэнтези
5.20
рейтинг книги
Сын Тишайшего

Демон

Парсиев Дмитрий
2. История одного эволюционера
Фантастика:
рпг
постапокалипсис
5.00
рейтинг книги
Демон

30 сребреников

Распопов Дмитрий Викторович
1. 30 сребреников
Фантастика:
попаданцы
альтернативная история
фэнтези
фантастика: прочее
5.00
рейтинг книги
30 сребреников

Небо в огне. Штурмовик из будущего

Политов Дмитрий Валерьевич
Военно-историческая фантастика
Фантастика:
боевая фантастика
7.42
рейтинг книги
Небо в огне. Штурмовик из будущего

Осознание. Пятый пояс

Игнатов Михаил Павлович
14. Путь
Фантастика:
героическая фантастика
5.00
рейтинг книги
Осознание. Пятый пояс

Камень

Минин Станислав
1. Камень
Фантастика:
боевая фантастика
6.80
рейтинг книги
Камень

Блокада. Знаменитый роман-эпопея в одном томе

Чаковский Александр Борисович
Проза:
военная проза
7.00
рейтинг книги
Блокада. Знаменитый роман-эпопея в одном томе

Цикл "Отмороженный". Компиляция. Книги 1-14

Гарцевич Евгений Александрович
Отмороженный
Фантастика:
боевая фантастика
рпг
постапокалипсис
5.00
рейтинг книги
Цикл Отмороженный. Компиляция. Книги 1-14

Книга 4. Игра Кота

Прокофьев Роман Юрьевич
4. ОДИН ИЗ СЕМИ
Фантастика:
фэнтези
боевая фантастика
рпг
6.68
рейтинг книги
Книга 4. Игра Кота

Мастер 2

Чащин Валерий
2. Мастер
Фантастика:
фэнтези
городское фэнтези
попаданцы
технофэнтези
4.50
рейтинг книги
Мастер 2

Новый Рал 2

Северный Лис
2. Рал!
Фантастика:
фэнтези
7.62
рейтинг книги
Новый Рал 2

Низший 2

Михайлов Дем Алексеевич
2. Низший!
Фантастика:
боевая фантастика
7.07
рейтинг книги
Низший 2

Под маской, или Страшилка в академии магии

Цвик Катерина Александровна
Фантастика:
юмористическая фантастика
7.78
рейтинг книги
Под маской, или Страшилка в академии магии