Вопросы, ответы на которые стоит знать в машинном обучении для начинающих!

Некоторые понятия и ответы, которые стоит знать в машинном обучении, прежде чем двигаться дальше. Написал их в свой выходной, потому что мне было скучно и я решил погрузиться в науку о данных, машинное обучение и статистику.

1. Объясните, что такое регрессия?

Регрессия — это метод контролируемого обучения, который помогает нам найти корреляцию между зависимой целевой переменной и одной или несколькими независимыми прогнозирующими переменными.
Она в основном используется для прогнозирования, предсказания погоды или определения причинно-следственных связей между переменными.

В регрессии мы строим график между переменными, который наилучшим образом соответствует заданным точкам данных или набору данных, используя этот график, модель машинного обучения может делать прогнозы относительно данных.

Факт: Метод, с помощью которого мы анализируем такой тип регрессии, называется регрессионным анализом, который действительно является статистическим анализом для моделирования связи между зависимой (целевой) и независимой (предикторной) переменными с помощью одной или нескольких независимых переменных.

2. Что такое геометрическая модель машинного обучения?

Прежде чем мы узнаем фактический смысл Геометрической модели машинного обучения, нам нужно знать, что такое евклидовы данные и неевклидовы данные.
Итак, в основном большинство данных и информации, которые мы узнаем или имеем, являются евклидовыми данными (большая их часть).
Евклидовы данные — это просто типы данных, которые существуют в одномерной или двумерной области.
Евклидовы данные состоят из аудио, изображений, видео, чисел, некоторых текстов и других подобных типов данных.

Неевклидовы данные — это то, что мы не можем объяснить простыми способами и что требует трехмерного объяснения, например, молекулярная структура, иерархия или древовидная структура.
Здесь молекулярная структура или сетевая структура — это трехмерная структура, которая попадает в неевклидовы данные.

После всего вышесказанного, Геометрическая модель машинного обучения или Геометрическое глубокое обучение (GDL) — это модель, которая направлена на работу с неевклидовыми данными, или Геометрическая модель машинного обучения или Геометрическое глубокое обучение (GDL) — это нишевая область под зонтиком глубокого обучения, которая направлена на создание нейронных сетей, способных обучаться на неевклидовых данных.

3. Что такое дисперсионный анализ (ANOVA)?

Дисперсионный анализ — это тест, который аналитик может провести для проверки разницы между средними значениями совокупности путем изучения величины вариации внутри каждой выборки. ANOVA — это статистический подход к тестированию или сравнению двух наборов данных, это один из лучших применяемых тестов, когда у нас есть более двух популяций или выборок, которые необходимо сравнить.

Но для сравнения средних двух или более популяций или наборов данных, ANOVA будет полезен, если выборки наборов данных удовлетворяют следующим требованиям:-

— Независимость случая -> это предположение означает, что случай или выборка зависимой переменной должны быть независимыми или выбранными случайным образом, не должно быть никакой последовательности или закономерности, которой необходимо следовать при выборе наборов данных.

— Нормальность -&gt-; это означает, что распределение каждой группы должно быть нормальным.

— Однородность -> это означает, что дисперсия между каждой группой должна быть одинаковой.

4. Каковы типы дисперсионного анализа (ANOVA)

ANOVA в основном имеет 3 типа.

— Односторонний анализ: когда мы сравниваем 3 или более 3 групп на основе 1 факторной переменной, то говорят, что это односторонний анализ данной группы.
Пример: если мы хотим сравнить, является ли средняя выработка трех сотрудников одинаковой или нет, основываясь на продолжительности рабочего дня этих трех сотрудников.

— Двусторонний анализ: когда в сравнении участвуют две или более факторных переменных, говорят о двустороннем анализе этих групп.
Пример: если мы сравниваем, одинакова или нет средняя выработка трех сотрудников в зависимости от их рабочего времени и места работы.

— К-сторонний анализ: Если факторных переменных k, то говорят о k-way дисперсионном анализе (ANOVA).

5. Объясните вкратце, что такое T-тест и Z-тест.

Прежде чем мы погрузимся в оба этих теста, нам нужно знать, что такое проверка гипотез. Более подробную статью об этом можно найти здесь.

Итак, проверка гипотез — это метод, позволяющий нам проверить, верна или ложна наша гипотеза о популяции, используя выборочный набор данных. С помощью проверки гипотез мы можем узнать, достаточно ли у нас данных о населении, и сделать вывод о том, верна или ложна наша гипотеза.

Что же такое Z-тест и T-тест? Оба они являются параметрическими тестами, то есть опираются на статистическое распределение набора данных. Чтобы узнать больше о параметрических тестах, загляните сюда!

1. Z-тест:
Z-тест — это тест на гипотезу, который проверяет, отличаются ли средние значения двух наборов данных друг от друга, если дано стандартное отклонение или дисперсия. Z-тест обычно предпочтительнее T-теста, когда в наборе данных размер выборки > 30. Он основан на нормальном распределении, и все точки данных являются независимыми.

2. T-тест:
T-тест — это также тест на гипотезу, который используется, когда неизвестно стандартное отклонение или дисперсия, или размер выборки < 30, в наборе данных. Это позволяет определить, насколько средние значения двух наборов данных отличаются друг от друга.
Этот тест основан на t-распределении, а точки данных не являются зависимыми.

Надеюсь, это было информативно для вас! Возможно, я опубликую еще несколько вопросов с кратким объяснением на подобные темы.
Спасибо за чтение!

Оцените статью
Procodings.ru
Добавить комментарий