Обработка результатов учебного эксперимента

Глава 3 Оценка параметров

Цель любого физического эксперимента — проверить, выполняется ли некоторая теоретическая закономерность (модель), а также получить или уточнить её параметры. Поскольку набор экспериментальных данных неизбежно ограничен, а каждое отдельное измерение имеет погрешность, можно говорить лишь об оценке этих параметров. В большинстве случаев измеряется не одна величина, а некоторая функциональная зависимость величин друг от друга. В таком случае возникает необходимость построить оценку параметров этой зависимости.

Пример. Рассмотрим процедуру измерения сопротивления некоторого резистора. Простейшая теоретическая модель для резистора — закон Ома U=RI, где сопротивление R — единственный параметр модели. Часто при измерениях возможно возникновение систематической ошибки — смещение нуля напряжения или тока. Тогда для получения более корректной оценки сопротивления стоит использовать модель с двумя параметрами: U=RI+U0.

Для построения оценки нужны следующие компоненты

  • данные — результаты измерений {xi,yi} и их погрешности {σi} (экспериментальная погрешность является неотъемлемой частью набора данных!);

  • модель y=f(x|θ1,θ2,) — параметрическое описание исследуемой зависимости (θ — набор параметров модели, например, коэффициенты {k,b} прямой f(x)=kx+b);

  • процедура построения оценки параметров по измеренным данным («оценщик»):

    θθ^({xi,yi,σi}).

Рассмотрим самые распространенные способы построения оценки.

3.1 Метод минимума хи-квадрат

Обозначим отклонения результатов некоторой серии измерений от теоретической модели y=f(x|θ) как

Δyi=yi-f(xi|θ),i=1n,

где θ — некоторый параметр (или набор параметров), для которого требуется построить наилучшую оценку. Нормируем Δyi на стандартные отклонения σi и построим сумму

χ2=i(Δyiσi)2, (3.1)

которую принято называть суммой хи-квадрат.

Метод минимума хи-квадрат (метод Пирсона) заключается в подборе такого θ, при котором сумма квадратов отклонений от теоретической модели, нормированных на ошибки измерений, достигает минимума:

χ2(θ)min.

Замечание. Подразумевается, что погрешность измерений σi указана только для вертикальной оси y. Поэтому, при использовании метода следует выбирать оcи таким образом, чтобы относительная ошибка по оси абсцисс была значительно меньше, чем по оси ординат.

Данный метод вполне соответствует нашему интуитивному представлению о том, как теоретическая зависимость должна проходить через экспериментальные точки. Ясно, что чем ближе данные к модельной кривой, тем меньше будет сумма χ2. При этом, чем больше погрешность точки, тем в большей степени дозволено результатам измерений отклоняться от модели. Метода минимума χ2 является частным случаем более общего метода максимума правдоподобия (см. ниже), реализующийся при нормальном (гауссовом) распределении ошибок.

Можно показать (см. [5]), что оценка по методу хи-квадрат является состоятельной, несмещенной и, если данные распределены нормально, имеет максимальную эффективность (см. приложение 5.2).

Замечание. Простые аналитические выражения для оценки методом хи-квадрат существуют (см. п. 3.6.1, 3.6.4) только в случае линейной зависимости f(x)=kx+b (впрочем, нелинейную зависимость часто можно заменой переменных свести к линейной). В общем случае задача поиска минимума χ2(θ) решается численно, а соответствующая процедура реализована в большинстве специализированных программных пакетов по обработке данных.

3.2 Метод максимального правдоподобия.

Рассмотрим кратко один из наиболее общих методов оценки параметров зависимостей — метод максимума правдоподобия.

Сделаем два ключевых предположения:

  • зависимость между измеряемыми величинами действительно может быть описана функцией y=f(x|θ) при некотором θ;

  • все отклонения Δyi результатов измерений от теоретической модели являются независимыми и имеют случайный (не систематический!) характер.

Пусть P(Δyi) — вероятность обнаружить отклонение Δyi при фиксированных {xi}, погрешностях {σi} и параметрах модели θ. Построим функцию, равную вероятности обнаружить весь набор отклонений {Δy1,,Δyn}. Ввиду независимости измерений она равна произведению вероятностей:

L=i=1nP(Δyi). (3.2)

Функцию L называют функцией правдоподобия.

Метод максимума правдоподобия заключается в поиске такого θ, при котором наблюдаемое отклонение от модели будет иметь наибольшую вероятность, то есть

L(θ)max.
Замечание. Поскольку с суммой работать удобнее, чем с произведениями, чаще используют не саму функцию L, а её логарифм: lnL=ilnP(Δyi).

Пусть теперь ошибки измерений имеют нормальное распределение (напомним, что согласно центральной предельной теореме нормальное распределение применимо, если отклонения возникают из-за большого числа независимых факторов, что на практике реализуется довольно часто). Согласно (2.5), вероятность обнаружить в i-м измерении отклонение Δyi пропорциональна величине

P(Δyi)e-Δyi22σi2,

где σi — стандартная ошибка измерения величины yi. Тогда логарифм функции правдоподобия (3.2) будет равен (с точностью до константы)

lnL=-iΔyi22σi2=-12χ2.

Таким образом, максимум правдоподобия действительно будет соответствовать минимуму χ2.

3.3 Метод наименьших квадратов (МНК).

Рассмотрим случай, когда все погрешности измерений одинаковы, σi=const. Тогда множитель 1/σ2 в сумме χ2 выносится за скобки, и оценка параметра сводится к нахождению минимума суммы квадратов отклонений:

S(θ)=i=1n(yi-f(xi|θ))2min. (3.3)

Оценка по методу наименьших квадратов (МНК) удобна в том случае, когда не известны погрешности отдельных измерений. Однако тот факт, что метод МНК игнорирует информацию о погрешностях, является и его основным недостатком. В частности, это не позволяет определить точность оценки (например, погрешности коэффициентов прямой σk и σb) без привлечения дополнительных предположений (см. п. 3.6.2 и 3.6.3).

3.4 Проверка качества аппроксимации

Значение суммы χ2 позволяет оценить, насколько хорошо данные описываются предлагаемой моделью y=f(x|θ).

Предположим, что распределение ошибок при измерениях нормальное. Тогда можно ожидать, что большая часть отклонений данных от модели будет порядка одной среднеквадратичной ошибки: Δyiσi. Следовательно, сумма хи-квадрат (3.1) окажется по порядку величины равна числу входящих в неё слагаемых: χ2n.

Замечание. Точнее, если функция f(x|θ1,,θp) содержит p подгоночных параметров (например, p=2 для линейной зависимости f(x)=kx+b), то при заданных θ лишь n-p слагаемых в сумме хи-квадрат будут независимы. Иными словами, когда параметры θ определены из условия минимума хи-квадрат, сумму χ2 можно рассматривать как функцию n-p переменных. Величину n-p называют числом степеней свободы задачи.

В теории вероятностей доказывается (см. [4] или [5]), что ожидаемое среднее значение (математическое ожидание) суммы χ2 в точности равно числу степеней свободы:

χ2¯=n-p.

Таким образом, при хорошем соответствии модели и данных, величина χ2/(n-p) должна в среднем быть равна единице. Значения существенно большие (2 и выше) свидетельствуют либо о плохом соответствии теории и результатов измерений, либо о заниженных погрешностях. Значения меньше 0,5 как правило свидетельствуют о завышенных погрешностях.

Замечание. Чтобы дать строгий количественный критерий, с какой долей вероятности гипотезу y=f(x) можно считать подтверждённой или опровергнутой, нужно знать вероятностный закон, которому подчиняется функция χ2. Если ошибки измерений распределены нормально, величина хи-квадрат подчинятся одноимённому распределению (с n-p степенями свободы). В элементарных функциях распределение хи-квадрат не выражается, но может быть легко найдено численно: функция встроена во все основные статистические пакеты, либо может быть вычислена по таблицам.

3.5 Оценка погрешности параметров

Важным свойством метода хи-квадрат является «встроенная» возможность нахождения погрешности вычисленных параметров σθ.

Пусть функция L(θ) имеет максимум при θ=θ^, то есть θ^ — решение задачи о максимуме правдоподобия. Согласно центральной предельной теореме мы ожидаем, что функция правдоподобия будем близка к нормальному распределению: L(θ)exp(-(θ-θ^)22σθ2), где σθ — искомая погрешность параметра. Тогда в окрестности θ^ функция χ2(θ)=-2ln(L(θ)) имеет вид параболы:

χ2(θ)=(θ-θ^)2σθ2+const.

Легко убедиться, что:

χ2(θ^±σθ)-χ2(θ^)=1.

Иными словами, при отклонении параметра θ на одну ошибку σθ от значения θ^, минимизирующего χ2, функция χ2(θ) изменится на единицу. Таким образом для нахождения интервальной оценки для искомого параметра достаточно графическим или численным образом решить уравнение

Δχ2(θ)=1. (3.4)

Вероятностное содержание этого интервала будет равно 68% (его еще называют 1–σ интервалом). Отклонение χ2 на 2 будет соответствовать уже 95% доверительному интервалу.

Замечание.  Приведенное решение просто использовать только в случае одного параметра. Впрочем, все приведенные рассуждения верны и в много-параметрическом случае. Просто решением уравнения 3.4 будет не отрезок, а некоторая многомерная фигура (эллипс в двумерном случае и гипер-эллипс при больших размерностях пространства параметров). Вероятностное содержание области, ограниченной такой фигурой будет уже не равно 68%, но может быть вычислено по соответствующим таблицам. Подробнее о многомерном случае в разделе 5.5.

3.6 Методы построения наилучшей прямой

Применим перечисленные выше методы к задаче о построении наилучшей прямой y=kx+b по экспериментальным точкам {xi,yi}. Линейность функции позволяет записать решение в относительно простом аналитическом виде.

Обозначим расстояние от i-й экспериментальной точки до искомой прямой, измеренное по вертикали, как

Δyi=yi-(kxi+b),

и найдём такие параметры {k,b}, чтобы «совокупное» отклонение результатов от линейной зависимости было в некотором смысле минимально.

3.6.1 Метод наименьших квадратов

Пусть сумма квадратов расстояний от точек до прямой минимальна:

S(k,b)=i=1n(yi-(kxi+b))2min. (3.5)

Данный метод построения наилучшей прямой называют методом наименьших квадратов (МНК).

Рассмотрим сперва более простой частный случай, когда искомая прямая заведомо проходит через «ноль», то есть b=0 и y=kx. Необходимое условие минимума функции S(k), как известно, есть равенство нулю её производной. Дифференцируя сумму (3.5) по k, считая все величины {xi,yi} константами, найдём

dSdk=-i=1n2xi(yi-kxi)=0.

Решая относительно k, находим

k=i=1nxiyii=1nxi2.

Поделив числитель и знаменатель на n, этот результат можно записать более компактно:

k=xyx2. (3.6)

Напомним, что угловые скобки означают усреднение по всем экспериментальным точкам:

1ni=1n()i

В общем случае при b0 функция S(k,b) должна иметь минимум как по k, так и по b. Поэтому имеем систему из двух уравнений S/k=0, S/b=0, решая которую, можно получить (получите самостоятельно):

k=xy-xyx2-x2,b=y-kx. (3.7)

Эти соотношения и есть решение задачи о построении наилучшей прямой методом наименьших квадратов.

Замечание. Совсем кратко формулу (3.7) можно записать, если ввести обозначение Dxyxy-xy=x-xy-y. (3.8) В математической статистике величину Dxy называют ковариацией. При xy имеем дисперсию Dxx=(x-x)2. Тогда k=DxyDxx,b=y-kx. (3.9)

3.6.2 Погрешность МНК в линейной модели

Погрешности σk и σb коэффициентов, вычисленных по формуле (3.7) (или (3.6)), можно оценить в следующих предположениях. Пусть погрешность измерений величины x пренебрежимо мала: σx0, а погрешности по y одинаковы для всех экспериментальных точек σy=const, независимы и имеют случайный характер (систематическая погрешность отсутствует).

Пользуясь в этих предположениях формулами для погрешностей косвенных измерений (см. раздел (2.6)) можно получить следующие соотношения:

σk=1n-2(DyyDxx-k2), (3.10)
σb=σkx2, (3.11)

где использованы введённые выше сокращённые обозначения (3.8). Коэффициент n-2 отражает число независимых <<степеней свободы>>: n экспериментальных точек за вычетом двух условий связи (3.7).

В частном случае y=kx:

σk=1n-1(y2x2-k2). (3.12)

3.6.3 Недостатки и условия применимости МНК

Формулы (3.7) (или (3.6)) позволяют провести прямую по любому набору экспериментальных данных, а полученные выше соотношения — вычислить соответствующую среднеквадратичную ошибку для её коэффициентов. Однако далеко не всегда результат будет иметь физический смысл. Перечислим ограничения применимости данного метода.

В первую очередь метод наименьших квадратов — статистический, и поэтому он предполагает использование достаточно большого количества экспериментальных точек (желательно n>10).

Поскольку метод предполагает наличие погрешностей только по y, оси следует выбирать так, чтобы погрешность σx откладываемой по оси абсцисс величины была минимальна.

Кроме того, метод предполагает, что все погрешности в опыте — случайны. Соответственно, формулы (3.10)–(3.12) применимы только для оценки случайной составляющей ошибки k или b. Если в опыте предполагаются достаточно большие систематические ошибки, они должны быть оценены отдельно. Отметим, что для оценки систематических ошибок не существует строгих математических методов, поэтому в таком случае проще и разумнее всего воспользоваться графическим методом.

Одна из основных проблем, связанных с определением погрешностей методом наименьших квадратов заключается в том, что он дает разумные погрешности даже в том случае, когда данные вообще не соответствуют модели. Если погрешности измерений известны, предпочтительно использовать метод минимума χ2.

Наконец, стоит предостеречь от использования любых аналитических методов «вслепую», без построения графиков. В частности, МНК не способен выявить такие «аномалии», как отклонения от линейной зависимости, немонотонность, случайные всплески и т.п. Все эти случаи требуют особого рассмотрения и могут быть легко обнаружены визуально при построении графика.

3.6.4 Метод хи-квадрат построения прямой

Пусть справедливы те же предположения, что и для метода наименьших квадратов, но погрешности σi экспериментальных точек различны. Метод минимума хи-квадрат сводится к минимизации суммы квадратов отклонений, где каждое слагаемое взято с весом wi=1/σi2:

χ2(k,b)=i=1nwi(yi-(kxi+b))2min.

Этот метод также называют взвешенным методом наименьших квадратов.

Определим взвешенное среднее от некоторого набора значений {xi} как

x=1Wiwixi,

где W=iwi — нормировочная константа.

Повторяя процедуру, использованную при выводе (3.7), нетрудно получить (получите) совершенно аналогичные формулы для искомых коэффициентов:

k=xy-xyx2-x2,b=y-kx, (3.13)

с тем отличием от (3.7), что под угловыми скобками теперь надо понимать усреднение с весами wi=1/σi2.

Записанные формулы позволяют вычислить коэффициенты прямой, если известны погрешности σyi. Значения σyi могут быть получены либо из некоторой теории, либо измерены непосредственно (многократным повторением измерений при каждом xi), либо оценены из каких-то дополнительных соображений (например, как инструментальная погрешность).