Введение в Big Data. Обзор возможностей экосистемы Apache Hadoop на примерах задач хранения, обработки и анализа больших объёмов данных
- Data Science, Big Data
- Принят
14 ноября, 12:00
Room V|V зал
Добавить в gCal Добавить в iCal/Outlook
Введение в Big Data. Обзор источников данных, подходы к интеграции данных, проблемы качества данных, виды обработки и масштабирования, аналитические методы и средства. Организационно-методические проблемы создания корпоративного хранилища данных. Концепция и архитектура Apache Hadoop. Управление кластером Hadoop. Знакомство с основными компонентами Hadoop: Cloudera Manager, HDFS, YARN, Oozie, HUE, Pig, HCatalog, Hive, Impala. Разработка и запуск аналитических приложений с использованием фреймворков MapReduce и Spark с применением IDE Eclipse, pyspark, spark-shell, Cloudera Workbench Manager и языков программирования Java, Python, Scala.
Слушатели могут заранее установить ПО и следовать за ведущим:
- Cloudera Hadoop https://www.cloudera.com/downloads/quickstart_vms/5-13.html (образы для Virtual Box, VMWare, KVM и Docker Image)
- Пример программного проекта в фреймворке MapReduce (Java, Eclipse, Maven) https://bitbucket.org/belovmal/mapreduce/
- Пример приложения для доступа и обработки данных в кластере Hadoop (Hive, Thrift, C#, .NET Core 3, Visual Studio 2019/ Visual Studio Code https://bitbucket.org/belovmal/hiveclient/
Михаил Белов
кандидат наук, Государственный университет «Дубна»
Научный руководитель магистерской программы «Бизнес-аналитика и системы больших данных», ИТ-преподаватель
Михаил Белов является экспертом и учёным-практиком в области информационных технологий, руководит и успешно развивает направление «Бизнес-аналитика и системы больших данных», выпускники которого высоко востребованы не только в ИТ компаниях, но и в ведущих научно-исследовательских организациях, в число которых входит Объединенный Институт ядерных исследований (JINR), Европейская организация по ядерным исследованиям (CERN) и др. Более 18 лет занимается преподавательской работой в магистратуре и MBA в Государственном университете «Дубна», НИУ ВШЭ, МЭИ; под его руководством написано более 200 бакалаврских и магистерских работ. В качестве директора Центра Телекоммуникаций развивал ИТ-инфраструктуру РЭА им. Г.В. Плеханова. Первым в России создал и внедрил виртуальную компьютерную лабораторию, основанную на принципах энтропии и самоорганизации. Сыграл ведущую роль в становлении и развитии научной школы по практической подготовке ИТ-специалистов с предоставлением возможности удалённого развёртывания и использования мультикомпонентных информационных систем и интегрированных сред разработки программного обеспечения с применением облачных технологий.
Основатель и разработчик Dictutor, некоммерческого проекта, целью которого является повышение продуктивности изучения иностранных языков и частичное снижение уровня цифрового неравенства в образовательных технологиях более чем в 100 странах мира.