[МУЗЫКА] [МУЗЫКА] [ЗВУК] Добрый день. Сегодня мы начинаем третий модуль, посвященный графическим методам анализа данных. И начнем мы его с первого инструмента графического анализа данных — это с эмпирической функции распределения. Но для начала давайте рассмотрим небольшой пример с данными, этот пример называется квартетом Энскомба. Он состоит из четырех наборов данных, и особенность этого квартета состоит в том, что все четыре набора данных обладают схожими статистическими характеристиками, тогда как если представить данные графически, то мы увидим, что они имеют кардинально разный вид. Этот квартет был предложен английским математиком Фрэнсисом Энскомбом, и он как раз таки ставил своей целью показать, как важно всегда графически посмотреть на свои данные и не полагаться на методы описательной статистики. Ну например, в рамках предыдущего модуля мы рассмотрели много различных методов описательной статистики. Давайте что-нибудь из этого посчитаем на данных из квартета. Ну например, мы посчитали выборочное среднее и выборочную дисперсию. И как мы видим, для всех четырех наборов выборочное среднее и выборочная дисперсия у нас получились одинаковые, но при этом если мы посмотрим на данные графически, мы увидим, что выглядят они совершенно по-разному. У нас есть набор с явной линейной зависимостью, у нас есть набор с явной нелинейной зависимостью, и есть наборы, явно содержащие какие-то выбросы. Собственно, этого и добивался Фрэнсис Энскомб, он пытался показать, что всегда нужно посмотреть на то, как ваши данные выглядят. Ну и давайте перейдем к первому методу графического анализа данных, это к эмпирической функции распределения. Что такое эмпирическая функция распределения? По сути своей — это просто выборочный аналог обычной функции распределения. Напомню, что функция распределения показывает нам вероятность того, что случайная величина попадет в интервал от −∞ до интересующего нас значения, то есть будет меньше либо равна, чем некоторое интересующее нас значение. Ну и чтобы посчитать эмпирическую функцию распределения в точке, все, что нам нужно сделать — это просто посчитать количество таких наблюдений в выборке, которые меньше либо равны, чем текущее значение, и разделить это на общий объем выборки. Иными словами, если у нас выборка состоит из различных значений, то есть значения выборки не повторяются, то эмпирическая функция распределения будет представлять собой ступенчатую функцию со скачками в точках наблюдений. Ну и стоит сказать, что при больших объемах выборки, то есть при n, стремящемся к бесконечности, эмпирическая функция распределения будет сходиться к истинной функции распределения, которую мы в общем случае не знаем. Ну и давайте рассмотрим построение эмпирической функции распределения на небольшом примере. Допустим, у нас есть выборка, небольшая, она состоит всего из 22 элементов. Выборка представляет собой наблюдения количества кликов в день по некоторой фирме. И мы хотим построить эмпирическую функцию распределения по этой выборке и посмотреть, как у нас выглядит распределение нашей случайной величины. Что нам для этого нужно сделать? Первое, что нам нужно сделать — это построить вариационный ряд, то есть упорядочить значения выборки по возрастанию. Ну и в таблице у нас уже представлены упорядоченные и не повторяющиеся наблюдения в выборке. Далее нам нужно для каждого наблюдения посчитать количество таких наблюдений в выборке, для которых у нас выполняется условие «меньше либо равно». Ну например, для минимального значения выборки 208 у нас такое наблюдение только одно, то есть это само наблюдение 208. Поэтому мы ставим 1. Для значения 214 таких наблюдений у нас уже два — это 208 и 214. Ну и так далее. Ну и видим, что в точке 251 у нас функция будет делать большой скачок, потому что у нас в выборке были повторяющиеся наблюдения со значением 251. Затем все это мы должны разделить на объем выборки, то есть на 22, и можем уже построить эмпирическую функцию распределения. Как мы видим, она выглядит следующим образом, ну и здесь мы уже можем делать какие-то выводы о том, как распределена наша случайная величина. В принципе, можем сказать, что она явно распределена неравномерна, ну и т.д. Ну и если мы построим эмпирические функции распределения для данных из квартета Энскомба, то есть основное, что мы увидим — это то, что они очень сильно различаются между собой. То есть несмотря на то, что статистические характеристики, например, средняя дисперсия, получились у нас одинаковые, по эмпирическим функциям распределения можно сказать, что данные кардинально различаются. Ну и в целом к квартету Энскомба мы будем много возвращаться в рамках данного модуля, когда будем рассматривать различные графические методы анализа данных. Ну и на сегодня с эмпирической функцией распределения все, и в следующий раз мы поговорим про построение гистограмм.