Линейные регрессии против алгебры и усреднения при решении по константе - физиков.нет
1 голос
/

Я в настоящее время изучаю физику AP, и в обеих лабораториях, выполненных до сих пор (Закон Снелла / Рефракция и Наклонная плоскость Галилея), я пытался вычислить некоторую константу из линейной зависимости между двумя переменными, с некоторой формой$y = mx$, где $y$ и $x$ - две переменные, измеренные в лаборатории, а $m$ - желаемое количество.

Обе лаборатории использовали линейную регрессию, что, кажется, имеет смысл в этой ситуации.Однако, принимая химию в прошлом году, мы никогда не использовали регрессионные линии и всегда усредняли наши данные для $x$ и $y$, прежде чем использовать уравнение отношений для решения неизвестного.

Какая техника обычно дает более точные ответы?Почему это так?

Ответы [ 2 ]

1 голос
/

Постановка задачи

Предположим, что у вас есть набор $N$ значений из измеренных данных $(y_j,x_j)$, которые известны из первых принципов для следования функции $y = mx$.Точки в наборе данных могут иметь свои собственные значения неопределенности (ошибки) $\delta x_j$ и $\delta y_j$

У вас есть два подхода для получения $m$ из этого набора данных.

Метод1 - Точечные средние значения

  • Используйте каждую пару $y_j, x_j$, чтобы получить $m_j$ по алгебре из фундаментального уравнения.
  • Определите среднее значение $\langle m \rangle = \sum m_j/N$ и стандартную неопределенность$S = \ldots$ из $N$ значений.

Метод 2 - Линейная регрессия

  • Используйте процедуру линейной регрессии, аппроксимации кривой (например, Левенберг-Метод Марквардта ) для получения $\langle m \rangle$ и $\delta m$, стандартной неопределенности параметра соответствия регрессии.

Когда следует применять метод 1 или метод 2?

Ответ

Вы должны всегда предпочитать применять метод 2 вместо метода 1 по нескольким причинам, фундаментальным и практическим.

  • Метод 2 включает дополнительныйточка данных (0,0), которая не может быть каким-либо образом определена способом 1. Без gВ соответствии с математическим доказательством, результат заключается в том, что доверие к результатам для значений $\langle m \rangle$ и $\delta m$ может быть увеличено с использованием метода 2 по сравнению с методом 1 для того же числа точек данных $N$.

  • В обоих методах были разработаны надежные, в первую очередь, аналитические подходы, которые позволяют включать неопределенности $\delta y_j$ в качестве весовых параметров при регрессионном подборе.Однако и здесь подход в методе 2 позволяет вам зафиксировать точку в $(0, 0)$, чтобы быть бесконечно точной (без экспериментальной неопределенности) или быть измеренным значением само по себе.Например, вы не можете включить точку данных MEASURED в $x_0 = 0$, $y_0 = 0.10 \pm 0.01$ в процедуры взвешенного подбора для метода 1, но вы можете включить его в метод 2.

  • Аналитические подходы были разработаны для включения неопределенностей $\delta x_j$ в качестве весовых параметров при регрессионном подборе для метода 2. Они практически отсутствуют или громоздки для применения в методе 1.

  • Инструменты, которые позволяют выполнять базовую (не взвешенную) линейную регрессионную подгонку набора данных, широко распространены и свободно / недорого доступны.Они существуют даже на смартфонах и умных портативных калькуляторах.Инструменты, позволяющие выполнять взвешенную линейную регрессию, одинаково широко распространены и бесплатны / недороги на настольных компьютерах.

Резюме

Во всех случаях метод 2 даст ответы, которыеболее надежныйВ большинстве случаев инструменты для применения метода 2 настолько же доступны и просты в использовании (если не проще в использовании), что и для метода 1. В некоторых случаях (точки данных с индивидуальными неопределенностями) будут доступны инструменты, которые используютсяприменять метод 2.

Tangential Insights

В США в первом курсе бакалавриата по химии часто преподают с презумпцией, что учащиеся в них могут не понимать математику за пределами алгебры и / илине умеют пользоваться компьютерными инструментами, кроме того, что нужно делать с помощью ручного калькулятора.Использование метода 1 само по себе не является ошибочным.Что неправильно, так это распространение мнения о том, что метод 1 является приемлемым подходом во всех случаях.Ошибка может быть такой же простой, как то, что инструктор не делает заявления о том, что простое усреднение является только первым приближением (линейная регрессия является действительно надежным подходом), или настолько явно неуважительно, как явно или неявно заявлять, что линейная регрессия не стоит затраченных усилий (посколькупростое усреднение в любом случае дает примерно одинаковое значение).

0 голосов
/

Обычно линейная регрессия не предполагает неопределенности в независимой переменной (например, x).Если это предположение является верным, а отношение на самом деле является линейным, линейная регрессия ведет линию через данные так, что ошибки в зависимой переменной обычно распределяются вокруг линии регрессии.С точки зрения статистики, это лучший способ оценить наклон линии, которую вы подходите, чем брать какое-то прямое среднее, особенно если у вас много точек данных (например, 30 или более).

...