- [3] Тип данных в статистике (случайная переменная)
- [a] Категориальные данные
- [1] Номинальные данные
- [2] Порядковые данные
- [b] Числовые данные
- [1] Дискретные данные
- [2] Продолжающиеся данные
- [4] Моменты
- Сырые моменты:
- Центральные моменты:
- Связь между сырыми моментами и центральными моментами
- [5] Куртозис и перекос
[3] Тип данных в статистике (случайная переменная)
При наличии в данных различных типов случайных переменных статистические методы, используемые в анализе, и алгоритмы, применяемые для обучения, будут отличаться.
Этот тип данных может иметь нечисловые данные.
[a] Категориальные данные
Категориальная переменная (также называемая качественной переменной) — это переменная, которая может принимать одно из ограниченного и обычно фиксированного числа возможных значений, причисляя каждого индивидуума или другую единицу наблюдения к определенной группе или номинальной категории на основе некоторого качественного свойства.
Примерами категориальных переменных являются раса, пол, возрастная группа и уровень образования.
В этом примере изображение «Вид» является категориальной переменной, а «Длина чашелистика» — числовой переменной.
Чтобы преобразовать любые данные в категориальные данные в R
as.factor(data$col)
[1] Номинальные данные
Этот тип переменных не имеет определенного порядка, или порядок не имеет значения.
Примером номинальных данных являются пол, раса, группа и т.д.
[2] Порядковые данные
Этот тип переменных имеет определенный порядок, или порядок имеет значение.
Примером номинальных данных являются оценки, возраст, размер, рост и т.д.
[b] Числовые данные
К этому типу данных относятся данные, которые содержат только числа.
В этом примере данные по осям X и Y являются числовыми.
Как правило, нет необходимости преобразовывать данные в числовые, поскольку по умолчанию они являются числовыми.
[1] Дискретные данные
В дискретном типе данных данные могут иметь любое значение, но это должно быть целое число.
Например, количество человек в комнате и т.д.
[2] Продолжающиеся данные
Этот тип данных может принимать любые значения, т.е. целые и дробные числа.
Например, текущая температура, расстояние и т.д.
[4] Моменты
Моменты функции — это количественные показатели, связанные с формой графика функции. Если функция представляет собой массу, то первый момент — это центр массы, а второй момент — вращательная инерция. Если функция представляет собой распределение вероятностей, то первый момент — это ожидаемое значение, второй центральный момент — дисперсия, третий стандартизированный момент — перекос, а четвертый стандартизированный момент — эксцесс. Математическое понятие тесно связано с понятием момента в физике.
Сырые моменты:
Сырые моменты могут быть определены как среднее арифметическое различных мощностей отклонений, взятых от начала координат. r-й сырой момент обозначается μr’, r=1,2,3….. Тогда первые сырые моменты даются следующим образом
Центральные моменты:
Центральные моменты могут быть определены как среднее арифметическое различных мощностей отклонений, взятых от среднего значения распределения. r-й центральный момент обозначается μr, r=1,2,3…..
В общем случае для n наблюдений x1, x2, ……., xn сырые моменты r-го порядка (r=0,1,2,…) определяются следующим образом:
Связь между сырыми моментами и центральными моментами
[5] Куртозис и перекос
Kurtosis и Skewness — это 2 величины, которые показывают, как выглядит распределение, т.е. насколько оно тонкое и высокое, и где у него есть хвост или нет соответственно.
Чтобы рассчитать эксцесс:
μ4 — 4-й центральный момент
σ — стандартное отклонение
kurtosis(data)
# Kurtosis for above graph 2.422853
Для расчета перекоса:
skewness(data)
# Skewness for above graph is 0.7824835
Для части 4 перейдите сюда