Привет! В этом курсе мы узнаем про обработку больших данных. Сегодня про большие данные говорят на каждом углу. Big Data — что же это такое? Мы, собственно, разберемся, как отличить большие данные от маленьких и как их использовать. Зачем они могут понадобиться? Представьте, что вы занимаетесь машинным обучением и, вообще говоря, вы хотите улучшить какую-то задачу. Вроде бы, на маленьких данных все работает: у вас есть Scikit-Learn, вы запускаете "fit-predict" и всё хорошо. На больших данных это не работает, потому что у вас не хватает оперативной памяти, не хватает диска, а Scikit-Learn не умеет работать с огромными массивами информации. И они, практически, утекают у вас сквозь пальцы. Нужно научиться работать с этими большими объемами информации. Конечно же, в этом курсе мы разберемся, чем отличаются большие данные от маленьких, мы разберемся какие есть подходы для обработки этих самых больших данных. На этом курсе мы с вами познакомимся с различными пакетами, которые сегодня используются в индустрии, мы разберемся, что такое Apache Hadoop, как хранить данные в Mongo DB, мы научимся работать в Bash, то есть в командной строке — это очень важное знание, оно вам пригодится и вы это увидите в течение курса. Также, конечно же, мы узнаем про Spark. Как он соотносится с Hadoop, какой из них лучше, какой хуже для некоторых задач, как с этим всем работать и с Python. Я желаю вам удачи! Это будет интересное приключение!