Обработка результатов учебного эксперимента 2 Элементы теории ошибок 4 Рекомендации по выполнению и представлению результатов работы

Глава 3 Оценка параметров

Цель любого физического эксперимента — проверить, выполняется ли некоторая теоретическая закономерность (модель), а также получить или уточнить её параметры. Поскольку набор экспериментальных данных неизбежно ограничен, а каждое отдельное измерение имеет погрешность, можно говорить лишь об оценке этих параметров. В большинстве случаев измеряется не одна величина, а некоторая функциональная зависимость величин друг от друга. В таком случае возникает необходимость построить оценку параметров этой зависимости.

Пример. Рассмотрим процедуру измерения сопротивления некоторого резистора. Простейшая теоретическая модель для резистора — закон Ома $U=RI$ , где сопротивление $R$ — единственный параметр модели. Часто при измерениях возможно возникновение систематической ошибки — смещение нуля напряжения или тока. Тогда для получения более корректной оценки сопротивления стоит использовать модель с двумя параметрами: $U=RI+U_{0}$ .

Для построения оценки нужны следующие компоненты

•

данные — результаты измерений $\{x_{i},y_{i}\}$ и их погрешности $\{\sigma_{i}\}$ (экспериментальная погрешность является неотъемлемой частью набора данных!);
•

модель $y=f(x|{\theta_{1},\theta_{2},\ldots})$ — параметрическое описание исследуемой зависимости ( $\theta$ — набор параметров модели, например, коэффициенты $\{k,\,b\}$ прямой $f(x)=kx+b$ );
•

процедура построения оценки параметров по измеренным данным («оценщик»):

$\theta\approx\hat{\theta}(\{x_{i},\,y_{i},\,\sigma_{i}\}).$

Рассмотрим самые распространенные способы построения оценки.

3.1 Метод минимума хи-квадрат

Обозначим отклонения результатов некоторой серии измерений от теоретической модели $y=f(x|\theta)$ как

\Delta y_{i}=y_{i}-f(x_{i}|\theta),\qquad i=1\ldots n,

где $\theta$ — некоторый параметр (или набор параметров), для которого требуется построить наилучшую оценку. Нормируем $\Delta y_{i}$ на стандартные отклонения $\sigma_{i}$ и построим сумму

\chi^{2}=\sum_{i}{\left(\frac{\Delta y_{i}}{\sigma_{i}}\right)^{2}},

(3.1)

которую принято называть суммой хи-квадрат.

Метод минимума хи-квадрат (метод Пирсона) заключается в подборе такого $\theta$ , при котором сумма квадратов отклонений от теоретической модели, нормированных на ошибки измерений, достигает минимума:

\chi^{2}(\theta)\to\mathrm{min}.

Замечание. Подразумевается, что погрешность измерений $\sigma_{i}$ указана только для вертикальной оси $y$ . Поэтому, при использовании метода следует выбирать оcи таким образом, чтобы относительная ошибка по оси абсцисс была значительно меньше, чем по оси ординат.

Данный метод вполне соответствует нашему интуитивному представлению о том, как теоретическая зависимость должна проходить через экспериментальные точки. Ясно, что чем ближе данные к модельной кривой, тем меньше будет сумма $\chi^{2}$ . При этом, чем больше погрешность точки, тем в большей степени дозволено результатам измерений отклоняться от модели. Метода минимума $\chi^{2}$ является частным случаем более общего метода максимума правдоподобия (см. ниже), реализующийся при нормальном (гауссовом) распределении ошибок.

Можно показать (см. [5]), что оценка по методу хи-квадрат является состоятельной, несмещенной и, если данные распределены нормально, имеет максимальную эффективность (см. приложение 5.2).

Замечание. Простые аналитические выражения для оценки методом хи-квадрат существуют (см. п. 3.6.1, 3.6.4) только в случае линейной зависимости $f(x)=kx+b$ (впрочем, нелинейную зависимость часто можно заменой переменных свести к линейной). В общем случае задача поиска минимума $\chi^{2}(\theta)$ решается численно, а соответствующая процедура реализована в большинстве специализированных программных пакетов по обработке данных.

3.2 Метод максимального правдоподобия.

Рассмотрим кратко один из наиболее общих методов оценки параметров зависимостей — метод максимума правдоподобия.

Сделаем два ключевых предположения:

•

зависимость между измеряемыми величинами действительно может быть описана функцией $y=f(x|\theta)$ при некотором $\theta$ ;
•

все отклонения $\Delta y_{i}$ результатов измерений от теоретической модели являются независимыми и имеют случайный (не систематический!) характер.

Пусть $P(\Delta y_{i})$ — вероятность обнаружить отклонение $\Delta y_{i}$ при фиксированных $\{x_{i}\}$ , погрешностях $\{\sigma_{i}\}$ и параметрах модели $\theta$ . Построим функцию, равную вероятности обнаружить весь набор отклонений $\{\Delta y_{1},\ldots,\Delta y_{n}\}$ . Ввиду независимости измерений она равна произведению вероятностей:

L=\prod_{i=1}^{n}P(\Delta y_{i}).

(3.2)

Функцию $L$ называют функцией правдоподобия.

Метод максимума правдоподобия заключается в поиске такого $\theta$ , при котором наблюдаемое отклонение от модели будет иметь наибольшую вероятность, то есть

L(\theta)\to\mathrm{max}.

Замечание. Поскольку с суммой работать удобнее, чем с произведениями, чаще используют не саму функцию

L

, а её логарифм:

\ln L=\sum_{i}\ln P(\Delta y_{i}).

Пусть теперь ошибки измерений имеют нормальное распределение (напомним, что согласно центральной предельной теореме нормальное распределение применимо, если отклонения возникают из-за большого числа независимых факторов, что на практике реализуется довольно часто). Согласно (2.5), вероятность обнаружить в $i$ -м измерении отклонение $\Delta y_{i}$ пропорциональна величине

P(\Delta y_{i})\propto e^{-\frac{\Delta y_{i}^{2}}{2\sigma_{i}^{2}}},

где $\sigma_{i}$ — стандартная ошибка измерения величины $y_{i}$ . Тогда логарифм функции правдоподобия (3.2) будет равен (с точностью до константы)

\ln L=-\sum_{i}\frac{\Delta y_{i}^{2}}{2\sigma_{i}^{2}}=-\frac{1}{2}\chi^{2}.

Таким образом, максимум правдоподобия действительно будет соответствовать минимуму $\chi^{2}$ .

3.3 Метод наименьших квадратов (МНК).

Рассмотрим случай, когда все погрешности измерений одинаковы, $\sigma_{i}=\mathrm{const}$ . Тогда множитель $1/\sigma^{2}$ в сумме $\chi^{2}$ выносится за скобки, и оценка параметра сводится к нахождению минимума суммы квадратов отклонений:

S(\theta)=\sum_{i=1}^{n}\left(y_{i}-f(x_{i}|\theta)\right)^{2}\to\mathrm{min}.

(3.3)

Оценка по методу наименьших квадратов (МНК) удобна в том случае, когда не известны погрешности отдельных измерений. Однако тот факт, что метод МНК игнорирует информацию о погрешностях, является и его основным недостатком. В частности, это не позволяет определить точность оценки (например, погрешности коэффициентов прямой $\sigma_{k}$ и $\sigma_{b}$ ) без привлечения дополнительных предположений (см. п. 3.6.2 и 3.6.3).

3.4 Проверка качества аппроксимации

Значение суммы $\chi^{2}$ позволяет оценить, насколько хорошо данные описываются предлагаемой моделью $y=f(x|\theta)$ .

Предположим, что распределение ошибок при измерениях нормальное. Тогда можно ожидать, что большая часть отклонений данных от модели будет порядка одной среднеквадратичной ошибки: $\Delta y_{i}\sim\sigma_{i}$ . Следовательно, сумма хи-квадрат (3.1) окажется по порядку величины равна числу входящих в неё слагаемых: $\chi^{2}\sim n$ .

Замечание. Точнее, если функция $f\!\left(x|\theta_{1},\,\ldots,\,\theta_{p}\right)$ содержит $p$ подгоночных параметров (например, $p=2$ для линейной зависимости $f\!\left(x\right)=kx+b$ ), то при заданных $\theta$ лишь $n-p$ слагаемых в сумме хи-квадрат будут независимы. Иными словами, когда параметры $\theta$ определены из условия минимума хи-квадрат, сумму $\chi^{2}$ можно рассматривать как функцию $n-p$ переменных. Величину $n-p$ называют числом степеней свободы задачи.

В теории вероятностей доказывается (см. [4] или [5]), что ожидаемое среднее значение (математическое ожидание) суммы $\chi^{2}$ в точности равно числу степеней свободы:

\overline{\chi^{2}}=n-p.

Таким образом, при хорошем соответствии модели и данных, величина $\chi^{2}/(n-p)$ должна в среднем быть равна единице. Значения существенно большие (2 и выше) свидетельствуют либо о плохом соответствии теории и результатов измерений, либо о заниженных погрешностях. Значения меньше 0,5 как правило свидетельствуют о завышенных погрешностях.

Замечание. Чтобы дать строгий количественный критерий, с какой долей вероятности гипотезу $y=f\!\left(x\right)$ можно считать подтверждённой или опровергнутой, нужно знать вероятностный закон, которому подчиняется функция $\chi^{2}$ . Если ошибки измерений распределены нормально, величина хи-квадрат подчинятся одноимённому распределению (с $n-p$ степенями свободы). В элементарных функциях распределение хи-квадрат не выражается, но может быть легко найдено численно: функция встроена во все основные статистические пакеты, либо может быть вычислена по таблицам.

3.5 Оценка погрешности параметров

Важным свойством метода хи-квадрат является «встроенная» возможность нахождения погрешности вычисленных параметров $\sigma_{\theta}$ .

Пусть функция $L(\theta)$ имеет максимум при $\theta=\hat{\theta}$ , то есть $\hat{\theta}$ — решение задачи о максимуме правдоподобия. Согласно центральной предельной теореме мы ожидаем, что функция правдоподобия будем близка к нормальному распределению: $L(\theta)\propto\exp\left(-\frac{(\theta-\hat{\theta})^{2}}{2\sigma_{\theta}^{% 2}}\right)$ , где $\sigma_{\theta}$ — искомая погрешность параметра. Тогда в окрестности $\hat{\theta}$ функция $\chi^{2}(\theta)=-2\ln(L(\theta))$ имеет вид параболы:

\chi^{2}(\theta)=\frac{(\theta-\hat{\theta})^{2}}{\sigma_{\theta}^{2}}+\mathrm% {const}.

Легко убедиться, что:

\chi^{2}(\hat{\theta}\pm\sigma_{\theta})-\chi^{2}(\hat{\theta})=1.

Иными словами, при отклонении параметра $\theta$ на одну ошибку $\sigma_{\theta}$ от значения $\hat{\theta}$ , минимизирующего $\chi^{2}$ , функция $\chi^{2}(\theta)$ изменится на единицу. Таким образом для нахождения интервальной оценки для искомого параметра достаточно графическим или численным образом решить уравнение

\Delta\chi^{2}(\theta)=1.

(3.4)

Вероятностное содержание этого интервала будет равно 68% (его еще называют 1– $\sigma$ интервалом). Отклонение $\chi^{2}$ на 2 будет соответствовать уже 95% доверительному интервалу.

Замечание. Приведенное решение просто использовать только в случае одного параметра. Впрочем, все приведенные рассуждения верны и в много-параметрическом случае. Просто решением уравнения 3.4 будет не отрезок, а некоторая многомерная фигура (эллипс в двумерном случае и гипер-эллипс при больших размерностях пространства параметров). Вероятностное содержание области, ограниченной такой фигурой будет уже не равно 68%, но может быть вычислено по соответствующим таблицам. Подробнее о многомерном случае в разделе 5.5.

3.6 Методы построения наилучшей прямой

Применим перечисленные выше методы к задаче о построении наилучшей прямой $y=kx+b$ по экспериментальным точкам $\{x_{i},\,y_{i}\}$ . Линейность функции позволяет записать решение в относительно простом аналитическом виде.

Обозначим расстояние от $i$ -й экспериментальной точки до искомой прямой, измеренное по вертикали, как

\Delta y_{i}=y_{i}-\left(kx_{i}+b\right),

и найдём такие параметры $\{k,b\}$ , чтобы «совокупное» отклонение результатов от линейной зависимости было в некотором смысле минимально.

3.6.1 Метод наименьших квадратов

Пусть сумма квадратов расстояний от точек до прямой минимальна:

S\!\left(k,b\right)=\sum\limits_{i=1}^{n}(y_{i}-(kx_{i}+b))^{2}\to\mathrm{min}.

(3.5)

Данный метод построения наилучшей прямой называют методом наименьших квадратов (МНК).

Рассмотрим сперва более простой частный случай, когда искомая прямая заведомо проходит через «ноль», то есть $b=0$ и $y=kx$ . Необходимое условие минимума функции $S\left(k\right)$ , как известно, есть равенство нулю её производной. Дифференцируя сумму (3.5) по $k$ , считая все величины $\left\{x_{i},\,y_{i}\right\}$ константами, найдём

\frac{dS}{dk}=-\sum\limits_{i=1}^{n}2x_{i}\left(y_{i}-kx_{i}\right)=0.

Решая относительно $k$ , находим

k=\frac{\sum\limits_{i=1}^{n}x_{i}y_{i}}{\sum\limits_{i=1}^{n}x_{i}^{2}}.

Поделив числитель и знаменатель на $n$ , этот результат можно записать более компактно:

k=\frac{\left\langle xy\right\rangle}{\left\langle x^{2}\right\rangle}.

(3.6)

Напомним, что угловые скобки означают усреднение по всем экспериментальным точкам:

\left\langle\ldots\right\rangle\equiv\frac{1}{n}\sum\limits_{i=1}^{n}\left(% \ldots\right)_{i}

В общем случае при $b\neq 0$ функция $S\left(k,b\right)$ должна иметь минимум как по $k$ , так и по $b$ . Поэтому имеем систему из двух уравнений $\partial S/\partial k=0$ , $\partial S/\partial b=0$ , решая которую, можно получить (получите самостоятельно):

k=\frac{\left<xy\right>-\left<x\right>\left<y\right>}{\left<x^{2}\right>-\left% <x\right>^{2}},\qquad b=\left<y\right>-k\left<x\right>.

(3.7)

Эти соотношения и есть решение задачи о построении наилучшей прямой методом наименьших квадратов.

Замечание. Совсем кратко формулу (3.7) можно записать, если ввести обозначение

D_{xy}\equiv\left<xy\right>-\left<x\right>\left<y\right>=\left<x-\left<x\right% >\right>\cdot\left<y-\left<y\right>\right>.

(3.8) В математической статистике величину

D_{xy}

называют ковариацией. При

x\equiv y

имеем дисперсию

D_{xx}=\left<(x-\left<x\right>)^{2}\right>

. Тогда

k=\frac{D_{xy}}{D_{xx}},\qquad b=\left\langle y\right\rangle-k\left\langle x% \right\rangle.

(3.9)

3.6.2 Погрешность МНК в линейной модели

Погрешности $\sigma_{k}$ и $\sigma_{b}$ коэффициентов, вычисленных по формуле (3.7) (или (3.6)), можно оценить в следующих предположениях. Пусть погрешность измерений величины $x$ пренебрежимо мала: $\sigma_{x}\approx 0$ , а погрешности по $y$ одинаковы для всех экспериментальных точек $\sigma_{y}=\mathrm{const}$ , независимы и имеют случайный характер (систематическая погрешность отсутствует).

Пользуясь в этих предположениях формулами для погрешностей косвенных измерений (см. раздел (2.6)) можно получить следующие соотношения:

\sigma_{k}=\sqrt{\frac{1}{n-2}\left(\frac{D_{yy}}{D_{xx}}-k^{2}\right)},

(3.10)

\sigma_{b}=\sigma_{k}\sqrt{\left\langle x^{2}\right\rangle},

(3.11)

где использованы введённые выше сокращённые обозначения (3.8). Коэффициент $n-2$ отражает число независимых <<степеней свободы>>: $n$ экспериментальных точек за вычетом двух условий связи (3.7).

В частном случае $y=kx$ :

\sigma_{k}=\sqrt{\frac{1}{n-1}\left(\frac{\left\langle y^{2}\right\rangle}{% \left\langle x^{2}\right\rangle}-k^{2}\right)}.

(3.12)

3.6.3 Недостатки и условия применимости МНК

Формулы (3.7) (или (3.6)) позволяют провести прямую по любому набору экспериментальных данных, а полученные выше соотношения — вычислить соответствующую среднеквадратичную ошибку для её коэффициентов. Однако далеко не всегда результат будет иметь физический смысл. Перечислим ограничения применимости данного метода.

В первую очередь метод наименьших квадратов — статистический, и поэтому он предполагает использование достаточно большого количества экспериментальных точек (желательно $n>10$ ).

Поскольку метод предполагает наличие погрешностей только по $y$ , оси следует выбирать так, чтобы погрешность $\sigma_{x}$ откладываемой по оси абсцисс величины была минимальна.

Кроме того, метод предполагает, что все погрешности в опыте — случайны. Соответственно, формулы (3.10)–(3.12) применимы только для оценки случайной составляющей ошибки $k$ или $b$ . Если в опыте предполагаются достаточно большие систематические ошибки, они должны быть оценены отдельно. Отметим, что для оценки систематических ошибок не существует строгих математических методов, поэтому в таком случае проще и разумнее всего воспользоваться графическим методом.

Одна из основных проблем, связанных с определением погрешностей методом наименьших квадратов заключается в том, что он дает разумные погрешности даже в том случае, когда данные вообще не соответствуют модели. Если погрешности измерений известны, предпочтительно использовать метод минимума $\chi^{2}$ .

Наконец, стоит предостеречь от использования любых аналитических методов «вслепую», без построения графиков. В частности, МНК не способен выявить такие «аномалии», как отклонения от линейной зависимости, немонотонность, случайные всплески и т.п. Все эти случаи требуют особого рассмотрения и могут быть легко обнаружены визуально при построении графика.

3.6.4 Метод хи-квадрат построения прямой

Пусть справедливы те же предположения, что и для метода наименьших квадратов, но погрешности $\sigma_{i}$ экспериментальных точек различны. Метод минимума хи-квадрат сводится к минимизации суммы квадратов отклонений, где каждое слагаемое взято с весом $w_{i}=1/\sigma_{i}^{2}$ :

\chi^{2}(k,b)=\sum\limits_{i=1}^{n}w_{i}\left(y_{i}-(kx_{i}+b)\right)^{2}\to% \mathrm{min}.

Этот метод также называют взвешенным методом наименьших квадратов.

Определим взвешенное среднее от некоторого набора значений $\left\{x_{i}\right\}$ как

\left\langle x\right\rangle^{\prime}=\frac{1}{W}\sum_{i}w_{i}x_{i},

где $W=\sum\limits_{i}w_{i}$ — нормировочная константа.

Повторяя процедуру, использованную при выводе (3.7), нетрудно получить (получите) совершенно аналогичные формулы для искомых коэффициентов:

k=\frac{\left<xy\right>^{\prime}-\left<x\right>^{\prime}\left<y\right>^{\prime% }}{\left<x^{2}\right>^{\prime}-\left<x\right>^{\prime 2}},\qquad b=\left<y% \right>^{\prime}-k\left<x\right>^{\prime},

(3.13)

с тем отличием от (3.7), что под угловыми скобками $\left\langle\ldots\right\rangle^{\prime}$ теперь надо понимать усреднение с весами $w_{i}=1/\sigma_{i}^{2}$ .

Записанные формулы позволяют вычислить коэффициенты прямой, если известны погрешности $\sigma_{y_{i}}$ . Значения $\sigma_{y_{i}}$ могут быть получены либо из некоторой теории, либо измерены непосредственно (многократным повторением измерений при каждом $x_{i}$ ), либо оценены из каких-то дополнительных соображений (например, как инструментальная погрешность).