настоящая путаница, как это произошло в данном примере.
15.6. Графические данные
Изображение данных требует большой подготовки и опыта. Хорошо представленные данные сочетают технические и художественные факторы и могут существенно облегчить анализ сложных явлений. В то же время эти обстоятельства делают графическое представление данных необъятной областью приложений, в которой применяется множество никак не связанных друг с другом приемов программирования. Здесь мы ограничимся простым примером изображения данных, считанных из файла. Эти данные характеризуют состав возрастных групп населения Японии на протяжении почти столетия. Данные справа от вертикальной линии 2008 являются результатом экстраполяции.
С помощью этого примера мы обсудим следующие проблемы программирования, связанные с представлением данных:
• чтение файла;
• масштабирование данных для подгонки к окну;
• отображение данных;
• разметка графика.
Мы не будем вдаваться в художественные аспекты этой проблемы. В принципе мы строим “график для идиотов”, а не для художественной галереи. Очевидно, что вы сможете построить его намного более красиво, чем это нужно.
Имея набор данных, мы должны подумать о том, как их получше изобразить на экране. Для простоты ограничимся только данными, которые легко изобразить на плоскости, ведь именно такие данные образуют огромный массив приложений, с которыми работают большинство людей. Обратите внимание на то, что гистограммы, секторные диаграммы и другие популярные виды диаграмм на самом деле просто причудливо отображают двумерные данные. Трехмерные данные часто возникают при обработке серии двумерных изображений, при наложении нескольких двумерных графиков в одном окне (как в примере “Возраст населения Японии”) или при разметке отдельных точек. Если бы мы хотели реализовать такие приложения, то должны были бы написать новые графические классы или адаптировать другую графическую библиотеку.
Итак, наши данные представляют собой пары точек, такие как (year,number of children). Если у нас есть больше данных, например (year,number of children,number of adults,number of elderly), то мы должны просто решить, какую пару или пары чисел хотим изобразить. В нашем примере мы рисуем пары (year,number of children), (year,number of adults) и (year,number of elderly).
Существует много способов интерпретации пар (x,y). Решая, как изобразить эти данные, важно понять, можно ли их представить в виде функции. Например, для пары (year,steel production) разумно предположить, что производство стали (steel_production) является функцией, зависящей от года (year), и изобразить данные в виде непрерывной линии. Для изображения таких данных хорошо подходит класс Open_polyline (см. раздел 13.6). Если переменная y не является функцией, зависящей от переменной x, например в паре (gross domestic product per person,population of country), то для их изображения в виде разрозненных точек можно использовать класс Marks (см. раздел 13.15).
Вернемся теперь к нашему примеру, посвященному распределению населения Японии по возрастным группам.
15.6.1. Чтение файла
Файл с возрастным распределением состоит из следующих записей:
(1960 : 30 64 6)
(1970 : 24 69 7)
(1980 : 23 68 9)
Первое число после двоеточия — это процент детей (возраст 0–15) среди населения, второе — процент взрослых (возраст 15–64), а третье — процент пожилых людей (возраст 65+). Наша задача — прочитать эти данные из файла. Обратите внимание на то, что форматирование этих данных носит довольно нерегулярный характер. Как обычно, мы должны уделить внимание таким деталям.
Для того чтобы упростить задачу, сначала определим тип Distribution, в котором будем хранить данные и оператор ввода этих данных.
struct Distribution {
int year, young, middle, old;
};
istream& operator>>(istream& is, Distribution& d)
// предполагаемый формат: (год: дети взрослые старики)
{
char ch1 = 0;
char ch2 = 0;
char ch3 = 0;
Distribution dd;
if (is >> ch1 >> dd.year
>> ch2 >> dd.young >> dd.middle >> dd.old
>> ch3) {
if (ch1!= '(' || ch2!=':' || ch3!=')') {
is.clear(ios_base::failbit);
return is;
}
}
else
return is;
d = dd;
return is;
}
Этот код является результатом непосредственного воплощения идей, изложенных в главе 10. Если какие-то места этого кода вам не ясны, пожалуйста, перечитайте эту главу. Мы не обязаны определять тип Distribution и оператор >>. Однако он упрощает код по сравнению с методом грубой силы, основанным на принципе “просто прочитать данные и построить график”. Наше использование класса Distribution разделяет код на логические части, что облегчает его анализ и отладку. Не бойтесь вводить типы просто для того, чтобы упростить код. Мы определяем классы, чтобы программа точнее соответствовала нашему представлению об основных понятиях предметной области. В этом случае даже “небольшие” понятия, использованные локально, например линия, представляющая распределение возрастов по годам, могут оказаться полезными. Имея тип Distribution, можем записать цикл чтения данных следующим образом.
string file_name = "japanese-age-data.txt";
ifstream ifs(file_name.c_str());
if (!ifs) error("Невозможно открыть файл ",file_name);
// ...
Distribution d;
while (ifs>>d) {
if (d.year<base_year || end_year<d.year)
error("год не попадает в диапазон");
if (d.young+d.middle+d.old != 100)
error("Проценты не согласованы");
// ...
}
Иначе говоря, мы пытаемся открыть файл japanese-age-data.txt и выйти из программы, если его нет. Идея не указывать явно имя файла в программе часто оказывается удачной, но в данном случае мы пишем простой пример и не хотим прилагать лишние усилия. С другой стороны, мы присваиваем имя файла japanese-age-data.txt именованной переменной типа string, поэтому при необходимости его легко изменить.
Цикл чтения проверяет диапазон чисел и согласованность данных. Это основные правила проверки таких данных. Поскольку оператор >> сам проверяет формат каждого элемента данных, в цикле чтения больше нет никаких проверок.
15.6.2. Общая схема
Что мы хотим увидеть на экране? Этот ответ можно найти в начале раздела 15.6. На первый взгляд, для изображения данных нужны три объекта класса Open_polyline — по одному на каждую возрастную группу. Каждый график должен быть помечен. Для этого мы решили в левой части окна записать “название” каждой линии. Этот