Линейная регрессия для абсолютных новичков

Линейная регрессия предсказывает значение на основе независимой переменной. Предполагается, что между входными данными (X) и выходными данными (Y) существует линейная зависимость. Линейная регрессия — это алгоритм контролируемого машинного обучения, который лучше всего работает с непрерывными переменными. Контролируемое машинное обучение означает, что оно имеет маркированные обучающие данные.

В линейной регрессии есть два типа переменных:

  • Зависимая или итоговая переменная, которая является переменной, которую мы хотим предсказать.
  • Независимая или предикторная переменная — переменная, используемая для прогнозирования.

Применение моделей линейной регрессии

  1. Она устанавливает взаимосвязь между величинами. Например, продавец мороженого может захотеть узнать взаимосвязь между температурой дня и выручкой. Они могут выяснить, что в жаркие дни продажи выше, чем в холодные.
  2. Это используется в предиктивной аналитике или прогнозировании. Страховая компания может обнаружить мошеннические претензии на основе предыдущих данных.
  3. Он используется для оптимизации бизнес-процессов путем анализа факторов, влияющих на продажи. Это могут быть такие факторы, как ценообразование и маркетинговые стратегии.
  4. Он используется для поддержки бизнес-решений путем оценки тенденций.

Существует два основных типа линейной регрессии:

  • Простая линейная регрессия — имеет одну независимую переменную.
  • Множественная линейная регрессия — имеет две или более независимых переменных.

Линия регрессии — это линия, которая минимизирует ошибку между предсказанными и фактическими значениями.

Уравнение регрессии представляется в виде:

Y = mX + c

Где:
Y : является зависимой переменной
m : является размахом
X : независимая переменная
c : перехват

m и c получены путем минимизации суммы квадратов разности расстояний между точками данных и линией регрессии. Цель уравнения — уменьшить разницу между ya (фактическим) и yp (прогнозируемым).

Как обновить m и c, чтобы получить линию наилучшего соответствия

  • Обычные наименьшие квадраты

Метод обыкновенных наименьших квадратов или метод наименьших квадратов рассматривает данные как матрицу. Он использует линейную алгебру для оценки оптимальных значений коэффициентов m и c. Для использования этого метода все данные должны быть доступны и помещаться в памяти.

  • Градиентный спуск

Для оптимизации значений коэффициентов градиентный спуск минимизирует ошибку вашей модели на обучающих данных. Он начинается со случайных коэффициентов, а затем вычисляет сумму ошибок для каждого входного и выходного значения. Используя скорость обучения, коэффициенты обновляются в направлении минимизации ошибки.

Скорость обучения — это параметр, определяющий размер шага улучшения на каждой итерации. Этот метод полезен, когда у вас есть большой набор данных, который не помещается в памяти.

  • Функция стоимости

Она также известна как среднеквадратичная ошибка. Она представляет собой квадрат разницы между ya (фактическим) и yp (прогнозируемым), деленный на N (количество наблюдений).

  • Регуляризация
    Методы регуляризации направлены на минимизацию квадратичной ошибки при использовании метода обыкновенных наименьших квадратов и на уменьшение сложности модели. Есть два популярных примера:

    • Регрессия Лассо или L1. Обычный наименьший квадрат модифицируется для минимизации абсолютной суммы коэффициентов.
    • Регрессия по гребню или L2. Обычный наименьший квадрат модифицируется для минимизации квадрата абсолютной суммы коэффициентов.

Допущения, принимаемые при построении линейной регрессионной модели.

Для того чтобы модель линейной регрессии достигла своей цели и высокой точности, она делает некоторые предположения о данных. Вот некоторые из этих предположений:

  • Линейное предположение
    Модель предполагает, что Зависимая переменная и Независимая переменная должны иметь линейную зависимость. Эта связь лучше всего видна с помощью диаграммы рассеяния между зависимой и независимой переменными.

  • Бесшумные данные
    Шумом в данных могут быть выбросы. Для обнаружения выбросов мы используем диаграммы в квадрате или алгоритмы обнаружения выбросов. Вы можете либо отбросить выброс, либо заменить его медианой или средним значением. Наиболее важно удалить выбросы из выходной переменной.

  • Отсутствие мультиколлинеарности
    Мультиколлинеарность возникает, когда вы можете вывести независимую переменную из других независимых переменных. Используйте тепловую карту для обнаружения коррелирующих переменных, если набор данных невелик. Используйте VIF (коэффициент инфляции дисперсии), если набор данных большой.

    Если VIF=1, очень слабая мультиколлинеарность
    VIF<5, умеренная мультиколлинеарность
    VIF>5, экстремальная мультиколлинеарность

Удаление столбца с наибольшим VIF устраняет мультиколлинеарность.

  • Перемасштабированные входные данные
    Перемасштабируйте данные на этапе подготовки данных путем стандартизации или нормализации. Это гарантирует, что модель делает более надежные прогнозы.

  • Гауссово распределение
    Гауссово распределение — это другой термин для нормального распределения. Убедитесь, что все входные и выходные переменные имеют гауссово распределение. Если переменная не имеет такого распределения, вы можете использовать Log Transformation или BoxCox, чтобы исправить это.

  • Отсутствие автокорреляции в остатках
    Остаток — это отклонение подогнанной линии от наблюдаемых значений. Используйте тест Дурбина-Уотсона для проверки автокорреляции.

DW = 2 показывает отсутствие автокорреляции
0 < DW < 2 показывает положительную автокорреляцию
2 < DW < 4 показывает отрицательную автокорреляцию

Сводка линейной регрессии Statsmodels дает нам значение Дурбина-Уотсона среди других полезных данных.

Заключение

В этой статье мы кратко объяснили, что такое линейная регрессия. Мы также рассмотрели ее применение и различные методы, которые мы можем использовать для улучшения производительности моделей линейной регрессии. Надеюсь, это было полезно. Оставляйте свои комментарии и вопросы ниже.

Оцените статью
Procodings.ru
Добавить комментарий