Шрифт:
Интервал:
Закладка:
Полученные опытным путем характеристики распределения называются оценками параметров, и, естественно, они будут соответствовать «настоящим» значениям с некоторой долей вероятности — наша задача и состоит в том, чтобы определить интервал, в котором могут находиться отклонения оценок от «истинного» значения, и соответствующую ему вероятность. Но настало время все же пояснить — что же это за параметры?
В формуле на рис. 13.6 таких параметра два: величины μ и σ. Они называются моментами нормального распределения (аналогично моментам распределения масс в механике). Параметр μ называется математическим ожиданием (или моментом распределения первого порядка), а величина σ — средним квадратическим отклонением. Нередко употребляют его квадрат, обозначаемый как D или просто σ2, и носящий название дисперсии (или центрального момента второго порядка).
Математическое ожидание есть абсцисса максимума кривой нормального распределения (в нашем примере с автобусом — это время 10:15), а дисперсия, как видно из рис. 13.6, характеризует «размытие» кривой относительно этого максимума — чем больше дисперсия, тем положе кривая. Эти моменты имеют прозрачный физический смысл (вспомните аналогию с физическим распределением плотностей): математическое ожидание есть аналогия центра масс некоего тела, а дисперсия характеризует распределение масс относительно этого центра (хотя распределение плотности материи в физическом теле далеко от нормального распределения плотности вероятности).
Оценкой mх математического ожидания μ служит хорошо знакомое нам со школы среднее арифметическое:
(2)
Здесь n — число измерений; i — текущий номер измерения (i = 1….,n); xi — значение измеряемой величины в i-м случае.
Оценка s2 дисперсии σ2 вычисляется по формуле:
(3)
Оценка среднего квадратического отклонения, соответственно, будет:
(4)
Здесь (xi — mх) — отклонения конкретных измерений от ранее вычисленного среднего.
Следует особо обратить внимание, что сумму квадратов отклонений делить нужно именно на n — 1, а не на n, как может показаться на первый взгляд, иначе оценка получится неверной. Второе, на что следует обратить внимание, — разброс относительно среднего характеризует именно среднее квадратическое отклонение, вычисленное по формулам (3) и (4), а не среднее арифметическое отклонение, как рекомендуют в некоторых школьных справочниках, — последнее дает заниженную и смещенную оценку (не напоминает ли вам это аналогию со средним арифметическим и действующим значениями переменного напряжения из главы 4?).
* * *
Заметки на полях
Кроме математического ожидания, средние значения распределения вероятностей характеризуют еще величинами, называемыми модой и медианой. В случае нормального распределения все три величины совпадают, но в других случаях они могут оказаться полезными: мода есть абсцисса наивероятнейшего значения (т. е. максимума на кривой распределения, что полностью отвечает бытовому понятию о моде), а медиана выборки есть такая точка, что половина выборки лежит левее ее, а вторая половина — правее.
* * *
Этими формулами для расчета случайных погрешностей можно было бы ограничиться, если бы не один важный вопрос: оценки-то мы получили, а вот в какой степени они отвечают действительности? Правильно сформулированный вопрос будет звучать так: какова вероятность того, что среднее арифметическое отклоняется от «истинного» значения (т. е. математического ожидания) не более чем на некоторою величину δ (например, на величину оценки среднего квадратического отклонения s)?
Величина δ носит название доверительного интервала, а соответствующая вероятность — доверительной вероятности (или надежности). Обычно решают задачу, противоположную сформулированной, — задаются величиной надежности и вычисляют доверительный интервал δ. В технике принято задаваться величиной надежности 95 %, в очень уж серьезных случаях — 99 %. Простейшее правило для обычных измерений в этом случае таково: при условии достаточно большого числа измерений (практически, более 15–20) доверительной вероятности в 95 % соответствует доверительный интервал в 2s, а доверительной вероятности в 99 % — доверительный интервал в 3s. Это известное правило трех сигм, согласно которому за пределы утроенного квадратического отклонения не выйдет ни один результат измерения, но на практике это слишком жесткое требование. Если мы не поленимся провести не менее полутора десятков отдельных измерений величины х, то с чистой совестью можем записать, что результат будет равен:
х = m ± 2s.
Регрессия и метод наименьших квадратовВсе сказанное относилось к случаю, когда мы измеряем одну величину, имеющую некоторую случайную погрешность. Однако на практике нам часто требуется по экспериментальным данным получить оценку некоторой функции у(х) — фактически это задача построения кривой по результатам опытных данных, которую вам, несомненно, приходилось не раз решать, если вы обучались в техническом вузе.
Процесс проведения кривой через какие-либо точки (расчетные или экспериментальные) в общем случае называется аппроксимацией. Аппроксимацию следует отличать от интерполяции (когда по совокупности имеющихся значений функции и переменных рассчитывают значение функции в некоторой точке между ними) и экстраполяции (когда рассчитывают значения функции вне области, охваченной имеющимися значениями, в предположении, что там кривая ведет себя так же). Насчет последней операции следует отметить, что полиномы, полученные регрессионным способом (см. далее), за исключением разве что прямой линии, обычно для проведения экстраполяции не годятся — т. к. не несут в себе физического смысла и вне экспериментальной области могут очень сильно расходиться с реальной картиной.
Провести кривую, аппроксимирующую опытные данные, можно от руки на миллиметровке, но как решать такую задачу «правильно»? Причем, как и в предыдущем случае, желательно бы иметь возможность оценить погрешности измерений.
Принцип такого построения при наличии случайных ошибок измерения иллюстрирует рис. 13.7.
Рис. 13.7. Проведение аппроксимирующей прямой по экспериментальным данным
Разумно было бы проводить кривую (в данном случае — прямую) так, чтобы отклонения Δуi,- были бы минимальными в каждой точке. Однако просто минимизировать сумму отклонений не получится — они имеют разный знак, и минимум получился бы при очень больших отрицательных отклонениях. Можно минимизировать сумму абсолютных значений отклонений, однако это неудобно по ряду чисто математических причин, потому используют уже знакомую нам сумму квадратов отклонений, — только ранее это было отклонение от среднего арифметического одной величины х, а теперь это отклонение опытных данных от кривой у(х):
Такой метод называется методом наименьших квадратов.
Кстати, а какую именно кривую выбрать? Ведь кривые бывают разные: прямая, парабола, экспонента, синусоида… Опыт показывает, что на практике можно ограничиться полиномом, соответствующим разложению функции в ряд Тейлора (в математике доказывается, что любую другую непрерывную функцию всегда можно представить в виде такого ряда):
(5)
Это уравнение называется уравнением регрессии. Отметим, что здесь мы рассматриваем наипростейший случай — зависимость у от одного параметра x. В общем случае независимых переменных может быть несколько, но для наших целей простейшего случая достаточно. Еще отметим, что величины xi считаются неслучайными — если в каждой i-й точке проводится несколько измерений, то надо брать среднее. Случайными считаются только величины y.
Итак, в качестве исходных данных у нас имеется некий набор значений xi в количестве n штук. Надо провести кривую, соответствующую уравнению (5), так, чтобы сумма квадратов отклонений была минимальна:
(6)
- Твой друг электроника - Ю. Верхало - Радиотехника
- В помощь радиолюбителю. Выпуск 13 - Михаил Адаменко - Радиотехника
- В помощь радиолюбителю. Выпуск 7 - Вильямс Никитин - Радиотехника