Понимание данных для аналитики данных, науки о данных и машинного обучения — часть-3


[3] Тип данных в статистике (случайная переменная)

При наличии в данных различных типов случайных переменных статистические методы, используемые в анализе, и алгоритмы, применяемые для обучения, будут отличаться.
Этот тип данных может иметь нечисловые данные.

[a] Категориальные данные

Категориальная переменная (также называемая качественной переменной) — это переменная, которая может принимать одно из ограниченного и обычно фиксированного числа возможных значений, причисляя каждого индивидуума или другую единицу наблюдения к определенной группе или номинальной категории на основе некоторого качественного свойства.
Примерами категориальных переменных являются раса, пол, возрастная группа и уровень образования.

В этом примере изображение «Вид» является категориальной переменной, а «Длина чашелистика» — числовой переменной.

Чтобы преобразовать любые данные в категориальные данные в R

as.factor(data$col)
Войдите в полноэкранный режим Выйти из полноэкранного режима

[1] Номинальные данные

Этот тип переменных не имеет определенного порядка, или порядок не имеет значения.
Примером номинальных данных являются пол, раса, группа и т.д.

[2] Порядковые данные

Этот тип переменных имеет определенный порядок, или порядок имеет значение.
Примером номинальных данных являются оценки, возраст, размер, рост и т.д.

[b] Числовые данные

К этому типу данных относятся данные, которые содержат только числа.

В этом примере данные по осям X и Y являются числовыми.

Как правило, нет необходимости преобразовывать данные в числовые, поскольку по умолчанию они являются числовыми.

[1] Дискретные данные

В дискретном типе данных данные могут иметь любое значение, но это должно быть целое число.
Например, количество человек в комнате и т.д.

[2] Продолжающиеся данные

Этот тип данных может принимать любые значения, т.е. целые и дробные числа.
Например, текущая температура, расстояние и т.д.

[4] Моменты

Моменты функции — это количественные показатели, связанные с формой графика функции. Если функция представляет собой массу, то первый момент — это центр массы, а второй момент — вращательная инерция. Если функция представляет собой распределение вероятностей, то первый момент — это ожидаемое значение, второй центральный момент — дисперсия, третий стандартизированный момент — перекос, а четвертый стандартизированный момент — эксцесс. Математическое понятие тесно связано с понятием момента в физике.

Сырые моменты:

Сырые моменты могут быть определены как среднее арифметическое различных мощностей отклонений, взятых от начала координат. r-й сырой момент обозначается μr’, r=1,2,3….. Тогда первые сырые моменты даются следующим образом

Центральные моменты:

Центральные моменты могут быть определены как среднее арифметическое различных мощностей отклонений, взятых от среднего значения распределения. r-й центральный момент обозначается μr, r=1,2,3…..

В общем случае для n наблюдений x1, x2, ……., xn сырые моменты r-го порядка (r=0,1,2,…) определяются следующим образом:

Связь между сырыми моментами и центральными моментами

[5] Куртозис и перекос

Kurtosis и Skewness — это 2 величины, которые показывают, как выглядит распределение, т.е. насколько оно тонкое и высокое, и где у него есть хвост или нет соответственно.

Чтобы рассчитать эксцесс:

Kurt=μ4σ4Kurt = frac{mu_{4}}{sigma^4}

Kurt=σ4μ4

μ4 — 4-й центральный момент
σ — стандартное отклонение

kurtosis(data)
# Kurtosis for above graph 2.422853
Войти в полноэкранный режим Выйти из полноэкранного режима

Для расчета перекоса:

Skew=μ3~=ΣiN(XiX)3(N1)σ3Перекос = tilde{mu_{3}} = frac{Sigma_{i}^{N}(X_{i} — overline{X})^3}{(N -1 )* sigma^3}

Skew=μ3~=(N1)σ3ΣiN(XiX)3

skewness(data)
# Skewness for above graph is 0.7824835
Вход в полноэкранный режим Выйти из полноэкранного режима

Для части 4 перейдите сюда

Оцените статью
Procodings.ru
Добавить комментарий