Данные — это нефть XXI века. У интернет-магазинов есть огромное количество записей о совершенных пользователями покупках и о предшествовавших им действиях. У лечебных учреждений есть много данных о диагнозах, которые поставили врачи, и об историях болезней. У «Яндекса» есть петабайты данных о том, как люди ищут что-то в Интернете. Все эти данные могут приносить нам какую-то пользу, но как же ее извлечь? Наука про извлечение закономерностей из данных так и называется — наука о данных, или data science. Она пытается понять, как можно из данных самой разной природы получить ответы на некоторые вопросы. Разделы науки о данных, которые освещают разные методы получения таких ответов, называются машинное обучение и анализ данных. >> Одна из самых древних задач, в которых применимы методы анализа данных, — это задача прогнозирования. Прогнозировать можно что угодно: продажи товаров в магазинах, рейтинги телесериалов, пробки, погоду, землетрясения. В Древнем Вавилоне для построения прогнозов использовали информацию о расположении червей в гнилой печени овцы. В III веке до нашей эры Дельфийский оракул строил свои предсказания, вдыхая галлюциногенные пары этилена. Более современный подход заключается в использовании исторических данных. Например, для магазинов мы, как правило, знаем историю продаж всех товаров за все время существования магазина. Наблюдения за погодой ведутся уже сотни лет. Методы машинного обучения и анализа данных могут проанализировать такую историческую информацию, найти в ней какие-то закономерности и на основании этих закономерностей научиться предсказывать будущее. Простейшие из таких методов в XX веке появились даже в пакетах офисных программ. С тех пор модели и средства прогнозирования продолжали развиваться. Современные методы позволяют находить существенно более сложные закономерности и строить намного более точные прогнозы. >> А вот еще одна задача. В популярных социальных сетях, например, в «Твиттере» в день появляются сотни миллионов записей. Люди пишут обо всем: о чем они думают, что происходит в их жизни, что их беспокоит. Если у вашей компании есть клиенты, то наверняка вам интересно узнать, что думают о вас эти клиенты, особенно если это мнение негативное. Но вряд ли вы сможете нанять человека, который сможет читать хотя бы миллион записей в день. Даже если он сможет фильтровать записи, смотреть только те, где упоминается ваша компания, их все равно будет слишком много. А вот машинное обучение позволяет построить модель, которая будет отделять негативные отзывы о вашей компании от всего остального. Этой модели не нужно будет платить зарплату, и при этом вы сможете быстро реагировать на любые негативные записи, которые пишут о вас в Интернете. >> Имея большое количество данных, можно попытаться понять их скрытую структуру. Например, зная, какие товары нравятся пользователям, можно попытаться понять их интересы и на этой основе предложить им что-то еще. Приблизительно так работают рекомендательные системы. Кстати, впервые они появились на сайтах интернет-магазинов около 20-ти лет назад, а сейчас распространились даже в такие далекие от электронной коммерции области, как банковское дело или сотовая связь. Имея персональные рекомендации, можно не только порадовать пользователей, но и принести пользу бизнесу. Например, существенная часть покупок онлайн-магазина Amazon обеспечивается за счет рекомендательных систем, работающих на основе методов машинного обучения. >> Еще методы анализа данных могут позволить выявлять аномальные состояния системы. Например, наблюдая за показаниями многочисленных датчиков в самолете, можно заметить, что одна из деталей нуждается в ремонте. В этом случае мы можем избежать аварии или снизить расход топлива. Или, например, наблюдая за транзакциями по банковским картам, можно заметить нетипичную транзакцию и приостановить действие карты. Банк сможет позвонить клиенту и уточнить, все ли у него в порядке. >> Данных с каждым годом становится все больше, поэтому растет спрос на специалистов по их анализу. Так, по данным профессиональной социальной сети LinkedIn, умение анализировать данные — навык, на который работодатели чаще всего обращали внимание при поиске сотрудников в прошлом году. Специалист по анализу данных должен уметь сформулировать задачу в терминах машинного обучения, найти подходящие для ее решения данные, а также построить прогнозную модель, имеющую хорошее качество и способную приносить пользу бизнесу. Анализ данных — наука, в которой работают хорошо обоснованные теоретические методы, а также эвристики, но лишь их грамотное сочетание позволяет успешно решать практические задачи. [МУЗЫКА]