Меню выбора книг

Комментарии:

Михаил Белозеров 19.01.26

Солнце обреченных - Игорь Градов

Графомания. Характерно выражение "мертвое тело". Тело живым быть не может. То есть эта

Михаил Белозеров 12.01.26

Золотой шар - Михаил Белозеров

В романе нет ничего запретного, кроме ПСИХОДЕЛИКИ. А психоделика - это всего лишь авторский прием.

Ольга 22.12.25

Мы сгорим вместе. Сводные. - Маргарита Аланина

Спасибо за книгу.

Русские книги » Компьютеры и Интернет » Программирование » Программирование. Принципы и практика использования C++ Исправленное издание - Бьёрн Страуструп

Читать интересную книгу "Программирование. Принципы и практика использования C++ Исправленное издание - Бьёрн Страуструп"

Шрифт:

Интервал:

Закладка:

Сделать

<< На первую страницу

1 ... 244 245 246 247 248 249 250 251 252 ... 337

— функция regex_match() ищет полное соответствие шаблона и строки.

Одним из примеров является поиск почтовых индексов в разделе 23.6. Рассмотрим извлечение данных из следующей таблицы.

Эта совершенно типичная и не очень сложная таблица (количество учеников в 2007 году в средней школе, в которой учился Бьярне Страуструп) извлечена с веб страницы, на которой она выглядела именно так, как нам нужно.

• Содержит числовые поля.

• Содержит символьные поля в строках, понятных только людям, знающим контекст, из которого извлечена таблица. (В данном случае ее могут понять только люди, знающие датский язык.)

• Символьные строки содержат пробелы.

• Поля отделены друг от друга разделителем, роль которого в данном случае играет символ табуляции.

Мы назвали эту таблицу совершенно типичной и не очень сложной, но следует иметь в виду, что одна тонкость в ней все же скрывается: на самом деле мы не можем различить пробелы и знаки табуляции; эту проблему читателям придется устранить самостоятельно.

Проиллюстрируем использование регулярных выражения для решения следующих задач.

• Убедимся, что таблица сформирована правильно (т.е. каждая строка имеет правильное количество полей).

• Убедимся, что суммы подсчитаны правильно (в последней строке содержатся суммы чисел по столбцам).

Если мы сможем это сделать, то сможем сделать почти все! Например, мы смогли бы создать новую таблицу, в которой строки, имеющие одинаковые первые цифры (например, годы: первый класс должен иметь номер 1), объединены или проверить, увеличивается или уменьшается количество студентов с годами (см. упр. 10-11).

Для того чтобы проанализировать эту таблицу, нам нужны два шаблона: для заголовка и для остальных строк.

regex header( "^[\w ]+( [\w ]+)*$");

regex row( "^[\w ]+(\d+)(\d+)(\d+)$");

Помните, мы хвалили синтаксис регулярных выражений за лаконичность и полезность, а не за легкость освоения новичками? На самом деле регулярные выражения имеют заслуженную репутацию языка только для письма (write-only language). Начнем с заголовка. Поскольку он не содержит никаких числовых данных, мы могли бы просто отбросить первую строку, но — исключительно для приобретения опыта — попробуем провести ее структурный анализ. Она содержит четыре словарных поля (буквенно-цифровых поля”, разделенных знаками табуляции). Эти поля могут содержать пробелы, поэтому мы не можем просто использовать управляющий символ w, чтобы задать эти символы. Вместо этого мы используем выражение [w], т.е. словообразующий символ (букву, цифру или знак подчеркивания) или пробел. Один или несколько словообразующих символов задается выражением [w]+. Мы хотим найти тот из них, который стоит в начале строки, поэтому пишем выражение ^[w ]+. “Шапочка” (^) означает “начало строки”. Каждое из оставшихся полей можно выразить как знак табуляции, за которым следуют некие слова: ([w]+). До конца строки их может быть сколько угодно: ([w]+)*$. Знак доллара ($) означает “конец строки”. Теперь напишем строковый литерал на языке C++ и получим дополнительные обратные косые черты.

"^[\w ]+( [\w ]+)*$"

Мы не можем проверить, что знак табуляции действительно является таковым, но в данном случае он раскрывается в ходе набора текста и распознается сам.

Приступим к самой интересной части упражнения: к шаблону для строк, из которых мы хотим извлекать числовые данные. Первое поле вновь имеет шаблон ^[w]+. За ним следуют ровно три числовых поля, перед каждым из которых стоит знак табуляции: (d+), следовательно, получаем следующий шаблон:

^[w ]+( d+)(d+)(d+)$

После его вставки в строковый литерал он превращается в такую строку:

"^[\w ]+(\d+)(\d+)(\d+)$"

Теперь мы сделали все, что требовалось. Сначала проверим, правильно ли сформирована таблица.

int main()

{

ifstream in("table.txt"); // входной файл

if (!in) error("Нет входного файлаn");

string line; // буфер ввода

int lineno = 0;

regex header( "^[\w ]+( [\w ]+)*$"); // строка заголовка

regex row("^[\w]+(\d+)(\d+)(\d+)$"); // строка данных

if (getline(in,line)) { // проверяем строку заголовка

smatch matches;

if (!regex_match(line,matches,header))

error("Нет заголовка");

}

while (getline(in,line)) { // проверяем строку данных

++lineno;

smatch matches;

if (!regex_match(line,matches,row))

error("неправильная строка",to_string(lineno));

}

Для краткости мы не привели здесь директивы #include. Проверяем все символы в каждой строке, поэтому вызываем функцию regex_match(), а не regex_search(). Разница между ними заключается только в том, что функция regex_match() должна сопоставлять с шаблоном каждый символ из потока ввода, а функция regex_search() проверяет поток ввода, пытаясь найти соответствующую подстроку. Ошибочное использование функции regex_match(), когда подразумевалось использовании функции regex_search() (и наоборот), может оказаться самой трудно обнаруживаемой ошибкой. Однако обе эти функции используют свои совпадающие аргументы совершенно одинаково.

Теперь можем перейти к верификации данных в таблице. Мы подсчитаем количество мальчиков (“drenge”) и девочек (“piger”), учащихся в школе. Для каждой строки мы проверим, действительно ли в последнем поле (“ELEVER IALT”) записана сумму первых двух полей. Последняя строка (“Alle klasser”) содержит суммы по столбцам. Для проверки этого факта модифицируем выражение row, чтобы текстовое поле содержало частичное совпадение и можно было распознать строку “Alle klasser”.

int main()

{

ifstream in("table.txt"); // входной файл

if (!in) error("Нет входного файла");

string line; // буфер ввода

int lineno = 0;

regex header( "^[\w ]+( [\w ]+)*$");

regex row("^([\w ]+)(\d+)(\d+)( d+)$");

if (getline(in,line)) { // проверяем строку заголовка

boost::smatch matches;

if (!boost::regex_match(line, matches, header)) {

error("Нет заголовка");

}

// суммы по столбцам:

int boys = 0;

int girls = 0;

while (getline(in,line)) {

++lineno;

smatch matches;

if (!regex_match(line, matches, row))

cerr << "Неправильная строка: " << lineno << 'n';

if (in.eof()) cout << "Конец файлаn";

// проверяем строку:

int curr_boy = from_string<int>(matches[2]);

int curr_girl = from_string<int>(matches[3]);

int curr_total = from_string<int>(matches[4]);

if (curr_boy+curr_girl != curr_total)

error("Неправильная суммаn");

if (matches[1]=="Alle klasser") { // последняя строка

if (curr_boy

1 ... 244 245 246 247 248 249 250 251 252 ... 337

Прочитали эту книгу? Оставьте комментарий - нам важно ваше мнение! Поделитесь впечатлениями и помогите другим читателям сделать выбор.

Книги, аналогичгные "Программирование. Принципы и практика использования C++ Исправленное издание - Бьёрн Страуструп"

C++ - Страустрап Бьярн - Программирование
Программирование на Python с нуля - Максим Кононенко - Программирование
Энциклопедия разработчика модулей ядра Linux - Ори Померанц - Программирование

Оставить комментарий