[МУЗЫКА] [МУЗЫКА] Здравствуйте. До сих пор мы с вами моделировали зависимости для таких величин, которые могли принимать значения из какого-то непрерывного диапазона. Мы с вами построили модель для содержания сухого вещества в икре. Вы попытались отбирать возможные лучшие варианты моделей для веса младенцев, для предсказания веса младенцев у курящих и некурящих матерей. И все это величины были непрерывные или, как мы можем еще их назвать, мерные. А что будет, если мы захотим исследовать результат подсчета чего-нибудь? Ведь на самом деле мы считаем довольно часто. Счетные данные очень распространены вокруг нас. Мы можем посчитать количество детей в семье, можем посчитать, сколько человек выздоровело после лечения или не выздоровело, и посчитать, например, покупателей, которые прошли в течение часа через определенную кассу в супермаркете. Все эти величины будут зависеть от какого-то набора предикторов, и мы можем захотеть их смоделировать. Но мы должны обращать внимание, обязательно, на особенности этих данных. На первый взгляд счетные величины кажутся похожими на мерные, ну числа они и есть числа, кажется, что тут сложного? Можно попробовать моделировать их, как мы обычно это делали, при помощи обычных линейных моделей. Но у счетных величин есть ряд важных отличий. Во-первых, возможны только целочисленные значения. Мы не можем насчитать пол человека. Это совершенно противоестественно. Во-вторых, возможны нулевые значения и положительные значения, но отрицательные значения невозможны. Когда мы что-то считаем, — это какая-то положительная величина, или когда мы ничего не насчитали, — это ноль. Более того, разброс значений возможных, которые мы можем получить у случайных величин, которые подчиняются распределениям, которые характерны для счетных данных, у них есть специальные свойства. Разброс значений будет зависеть от величины среднего значения. Это совсем не так для мерных, хорошо знакомых нам, величин. И эти свойства, эти три особенности, они нам очень часто мешают применять обычные методы для моделирования величин счетных. Иногда нам удастся применить обычную линейную регрессию, но это редкий случай, и хотелось бы, чтобы вы понимали, с чем связаны такие ограничения. Давайте посмотрим, еще раз вспомним, мы на самом деле уже об этом говорили в первом модуле, но сейчас кратко вспомним основные свойства распределений, которые используются для моделирования счетных величин, потому что нам это сегодня понадобится для обобщенных линейных моделей. Итак, первое распределение, которое приходит нам в голову, когда мы говорим о счетных величинах — это распределение Пуассона. У распределения Пуассона один-единственный параметр, он называется μ (мю), и он задает одновременно и положение среднего и дисперсию. В зависимости от этого параметра мы можем получить самые разные формы распределений. Когда μ маленькое, то у нас в основном получаются небольшие значения. Они получаются часто, а большие значения у нас практически вообще не получаются, они очень редки. И наоборот, когда μ большое, мы часто получаем большие значения и редко получаем маленькие или совсем очень большие. То есть, средние дисперсии жестко связаны друг с другом, и это очень важное свойство, с ним будут связаны особенности обобщенных линейных моделей, с ним будут связаны условия их применимости. Естественно, распределение Пуассона может продуцировать только такие числа, которые находятся в промежутке от нуля до плюс бесконечности, потому что счет не может быть отрицательным. Другое распределение, которое тоже подходит для счетных данных, — это отрицательное биномиальное распределение. И в отрицательном биномиальном распределении тоже есть связь дисперсии среднего, но она выглядит немножко по-другому, потому что у этого распределения есть два параметра: μ по-прежнему среднее и k, которое будет определять степень избыточности дисперсии. То есть у дисперсии уже среднее значение по-прежнему μ, но дисперсии не равна среднему, она будет больше. И насколько она будет больше, будет определяться параметром k. Соответственно, мы можем получить еще более разнообразные формы распределений, там в предельном случае, когда k у нас довольно большое, а μ у нас довольно маленькое, у нас будет очень большое количество нулевых значений, и очень редко могут получаться очень большие значения. Но они возможны в принципе. Другой вариант контрастный, когда у нас k очень-очень большое, и μ очень большое, у нас это распределение будет практически колоколообразным. Оно будет очень похоже на распределение Пуассона и, в принципе, немножко похоже на нормальное распределение. То есть, вы видите у нас есть целый спектр. То есть, в принципе, даже у отрицательной биномиальной величины при некоторых условиях могут быть свойства, почти как у величины, которая подчиняется нормальному распределению. Но отрицательное биномиальное распределение может продуцировать только величины, которые имеют положительные целочисленные значения. И это нам важно, когда мы моделируем счет. Можно себе представить, как линейная регрессия идет в туннеле распределений, потому что на самом деле то, как распределена переменная отклика, оно будет задавать разброс данных вокруг точки, определяющей линейную регрессию. Перед вами два графика. На одном графике показаны данные, которые подчиняются распределению Пуассона, и через них проведена линейная модель зависимости, переменной-отклика от единственного предиктора, у нас такая линейная регрессия получилась. На другом графике исходные данные подчиняются отрицательному биномиальному распределению, и вы видите, что разброс точек вокруг прямых немножечко по-разному выглядит. В распределении Пуассона у нас дисперсия возрастает вместе со средним и точно так же, как и среднее значение. В отрицательном биномиальном распределении мы видим, что дисперсия тоже будет возрастать при увеличении среднего значения, но она будет это делать быстрее в данном случае, потому что такие у этого распределения параметры. И каждый раз, когда мы моделируем определенные данные, нам нужно понять, какому распределению они лучше соответствует, какое больше подойдет, чтобы описать их свойства. Если мы будем применять неправильные распределения, то мы можем недооценить ту закономерность, которая связывает дисперсию и среднее в таких данных. Поэтому сейчас давайте мы попробуем научиться моделировать счетные данные. Но мы пойдем непрямым путем. Сначала мы покажем ограничения простых линейных моделей для моделирования счетных величин, чтобы вы воочию могли убедиться, насколько важно, чтобы мы учитывали распределение переменной-отклика и его свойства. [БЕЗ_ЗВУКА]