Чтение онлайн

на главную - закладки

Жанры

Интернет-журнал "Домашняя лаборатория", 2007 №9
Шрифт:

Определим класс языков, задаваемых регулярными множествами. Регулярное множество определяется рекурсивно следующими правилами:

• пустое множество, а также множество, содержащее пустое слово, и одноэлементные множества, содержащие символы алфавита, являются регулярными базисными множествами;

• если множества P и Q являются регулярными, то множества, построенные применением операций объединения, конкатенации и итерации — P>>Q, PQ, P*, Q* — тоже являются регулярными.

Регулярные выражения представляют удобный способ задания регулярных

множеств. Аналогично множествам, они определяются рекурсивно:

• регулярные базисные выражения задаются символами и определяют соответствующие регулярные базисные множества, например, выражение f задает одноэлементное множество {f} при условии, что f — символ алфавита T;

• если P и Q — регулярные выражения, то операции объединения, конкатенации и итерации — P+Q, PQ, P*, Q* — являются регулярными выражениями, определяющими соответствующие регулярные множества.

По сути, регулярные выражения — это более простой и удобный способ записи регулярных множеств в виде обычной строки. Каждое регулярное множество, а, следовательно, и каждое регулярное выражение задает некоторый язык L(T) в алфавите T. Этот класс языков — достаточно мощный, с его помощью можно описать интересные языки, но устроены они довольно просто — их можно определить также с помощью простых грамматик, например, правосторонних грамматик. Более важно, что для любого регулярного выражения можно построить конечный автомат, который распознает, принадлежит ли заданное слово языку, порожденному регулярным выражением. На этом основана практическая ценность регулярных выражений.

С точки зрения практика регулярное выражение задает образец поиска. После чего можно проверить, удовлетворяет ли заданная строка или ее подстрока данному образцу. В языках программирования синтаксис регулярного выражения существенно обогащается, что дает возможность более просто задавать сложные образцы поиска. Такие синтаксические надстройки, хотя и не меняют сути регулярных выражений, крайне полезны для практиков, избавляя программиста от ненужных сложностей. (В Net Framework эти усложнения, на мой взгляд, чрезмерны. Выигрывая в мощности языка, проигрываем в простоте записи его выражений.)

Синтаксис регулярных выражений

Регулярное выражение на C# задается строковой константой. Это может быть обычная или @-константа Чаще всего, следует использовать именно @– константу. Дело в том, что символ "\" широко применяется в регулярных выражениях как для записи escape-последовательностей, так и в других ситуациях. Обычные константы в таких случаях будут выдавать синтаксическую ошибку, а @– константы не выдают ошибок и корректно интерпретируют запись регулярного выражения.

Синтаксис регулярного выражения простой формулой не описать, здесь используются набор разнообразных средств:

• символы и escape-последовательности;

• символы операций и символы, обозначающие специальные классы множеств;

• имена групп и обратные ссылки;

• символы утверждений и другие средства.

Конечно, регулярное выражение может быть совсем простым, например,

строка "abc" задает образец поиска, так что при вызове соответствующего метода будут разыскиваться одно или все вхождения подстроки "abc" в искомую строку. Но могут существовать и очень сложно устроенные регулярные выражения. Приведу таблицу, (15.1) в которой дается интерпретация символов в соответствии с их делением на группы. Таблица не полна, в ней отражаются не все группы, а описание группы не содержит всех символов. Она позволяет дать общее представление о синтаксисе, которое будет дополнено большим числом примеров. За деталями придется обращаться к справочной системе, которая, к сожалению, далеко не идеальна для данного раздела.

Повторяю, данная таблица не полна. В ней не отражены, например, такие категории, как подстановки, обратные ссылки, утверждения.

Для приведенных категорий также не дан полный список возможных символов.

Таблица 15.1. Символы, используемые в регулярных выражениях

Символ • Интерпретация

Категория: escape-последовательности

\b • При использовании его в квадратных скобках соответствует символу "обратная косая черта" с кодом — \u0008

\t • Соответствует символу табуляции \u0009

\r • Соответствует символу возврата каретки \u000D

\n • Соответствует символу новой строки \u000A

• Соответствует символу escape \u001B

\40 • Cоответствует символу ASCII, заданному кодом до трех цифр в восьмеричной системе

\х20 • Cоответствует символу ASCII, заданному кодом из двух цифр в шестнадцатиричной системе

\u0020 • Cоответствует символу Unicode, заданному кодом из четырех цифр в шестнадцатиричной системе

Категория: подмножества (классы) символов

. • Соответствует любому символу, за исключением символа конца строки

[aeiou] • Соответствует любому символу из множества, заданного в квадратных скобках

[^аеiоu] • Отрицание. Соответствует любому символу, за исключением символов, заданных в квадратных скобках

[o-9a-fA-F] • Задание диапазона символов, упорядоченных по коду. Так, 0–9 задает любую цифру

\р{name} • Соответствует любому символу, заданному множеству с именем name, например, имя L1 задает множество букв латиницы в нижнем регистре. Поскольку все символы разбиты на подмножества, задаваемые категорией Unicode, то в качестве имени можно задавать имя категории

Поделиться:
Популярные книги

Крепость в Лихолесье

Ангина
Фантастика:
фэнтези
5.00
рейтинг книги
Крепость в Лихолесье

Вперед в прошлое 5

Ратманов Денис
5. Вперед в прошлое
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Вперед в прошлое 5

Клан Мамонта. Народ моржа. Люди Быка

Щепетов Сергей
Каменный век
Фантастика:
научная фантастика
6.60
рейтинг книги
Клан Мамонта. Народ моржа. Люди Быка

Газлайтер. Том 3

Володин Григорий
3. История Телепата
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Газлайтер. Том 3

Воевода

Ланцов Михаил Алексеевич
5. Помещик
Фантастика:
альтернативная история
5.00
рейтинг книги
Воевода

Ведьмак (большой сборник)

Сапковский Анджей
Ведьмак
Фантастика:
фэнтези
9.29
рейтинг книги
Ведьмак (большой сборник)

Сирота

Ланцов Михаил Алексеевич
1. Помещик
Фантастика:
альтернативная история
5.71
рейтинг книги
Сирота

Стеллар. Заклинатель

Прокофьев Роман Юрьевич
3. Стеллар
Фантастика:
боевая фантастика
8.40
рейтинг книги
Стеллар. Заклинатель

Аристократ из прошлого тысячелетия

Еслер Андрей
3. Соприкосновение миров
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Аристократ из прошлого тысячелетия

Барон играет по своим правилам

Ренгач Евгений
5. Закон сильного
Фантастика:
попаданцы
аниме
фэнтези
фантастика: прочее
5.00
рейтинг книги
Барон играет по своим правилам

Глинглокский лев. (Трилогия)

Степной Аркадий
90. В одном томе
Фантастика:
фэнтези
9.18
рейтинг книги
Глинглокский лев. (Трилогия)

Злыднев Мир. Дилогия

Чекрыгин Егор
Злыднев мир
Фантастика:
фэнтези
7.67
рейтинг книги
Злыднев Мир. Дилогия

Академия

Кондакова Анна
2. Клан Волка
Фантастика:
боевая фантастика
5.40
рейтинг книги
Академия

Полковник Империи

Ланцов Михаил Алексеевич
3. Безумный Макс
Фантастика:
альтернативная история
6.58
рейтинг книги
Полковник Империи