Курс

Революция больших данных – это, прежде всего, – новые подходы и технологии, обеспечившие разворот данных лицом к пользователю. От технологий сбора и анализа данных, позволяющих без предварительной затратной обработки использовать данные практически любых форматов, объёма, степени структурированности, до новых способов визуализации и представления результатов обеспечивающих полноту и наглядность ответов на любые вопросы, касающиеся настоящего и будущего компании, товара, рынка, - сегодня данные начинают говорить на языке пользователя, а не машин.

Мы поможем вам сделать первые шаги в мире аналитики больших данных, начать этот путь уверенно и в нужном направлении. А потом…

…вас и самих перестанет удивлять то, С КАКОЙ ЛЁГКОСТЬЮ МОЖЕТ ЛЕТАТЬ МАМОНТ.

Кому

Ведущим сотрудникам компании, отвечающим за сбор, хранение и использование данных, а также за применение результатов аналитики для решения текущих задач и развития бизнеса.

Мы формируем комплексный подход к работе с данными в компании на основе общего понимания возможностей использования данных ключевыми управленцами, инженерами, аналитиками, программистами.

Поэтому места на нашем курсе, оплаченные компанией, могут быть использованы любыми сотрудниками.

В зависимости от содержания лекций, задач, интересов и уровня знаний специалистов, которых требуется обучить, мы порекомендуем оптимальное количество мест и состав команды на различные этапы обучения.

Программа

  • 1.1 Обучение с учителем. Ставятся задачи классификации и регрессии. Показывается общая часть и различия в задачах. Модель, алгоритм и процесс обучения. Проблема переобучения и регуляризация. Критерии качества.
  • 1.2 Линейная регрессия, как пример решения задачи регрессии. Метод минимизации эмпирического риска.
  • 1.3 Разбор алгоритма kNN, как пример решения задачи классификации.
  • 1.4 Вероятностная постановка задачи классификации.
  • 1.5 Принцип наибольшего правдоподобия.
  • 1.6 Логистическая регрессия.
  • 1.7 Разбор алгоритма Наивный Байесовский Классификатор.
  • 1.8 Обучение без учителя. Ставится задача кластеризации. Отличия задачи кластеризации от задачи классификации. Критерии качества.
  • 1.9 Метрики.
  • 1.10 Разбор алгоритма k-means.
  • 1.11 Разбор алгоритма подсчета кол-ва слов в документе в парадигме Map Reduce.
  • 1.12 Разбор алгоритма подсчета TF-IDF в парадигме Map Reduce.
  • 1.13 Разбор алгоритма k-means в парадигме Map Reduce.
  • 1.14 Разбор принципов работы нейронных сетей. Метод обратного распространения ошибки.
  • 1.15 Deep Learning.
  • 1.16 Разбор алгоритма SVM.
  • 1.17 Разбор алгоритма Decision Tree.
  • 1.18 Boosting.
  • 1.19 Bagging.
  • 1.20 Разбор алгоритма Random Forest.
  • 1.21 Разбор алгоритма EM.
  • 1.22 Разбор алгоритма иерархической кластеризации.
  • 1.23 Обучение с подкреплением. Постановка задачи. Методы решения. Критерии качества.
  • 1.24 Ассоциативные правила. Постановка задачи. Поддержка и достоверность правил.
  • 1.25 Методы поиска ассоциативных правил.
  • 1.26 Ранжирование и Learning to Rank.
  • 1.27 Прогнозирование временных рядов.
  • 1.28 Offtop: куда двигаться и что учить, чтобы зарабатывать $300k в год?
  • 2.1 Готовые решения анализа данных. Orange. Преимущества и недостатки.
  • 2.2 Технологии хранения больших данных. Сравнение RDBMS, NoSQL. CAP-теорема. Выбор СУБД под проект больших данных. Аналитические СУБД. Массово-параллельные СУБД. Hadoop, SAP HANA, EMC GreenPlum.
  • 2.3 Hadoop. HDFS. Map Reduce. Отличия от SQL-запросов.
  • 2.4 Mahout. Spark.
  • 2.5 Визуализация. Tableau. Mathplotlib.
  • 2.6 Обзор фреймворков для визуализации на JS.
  • 2.7 Особенности анализа неструктурированных данных
  • 2.8 Анализ текстов, анализ тональности
  • 2.9 Анализ мнений.
  • 2.10 Особенности обработки русского языка
  • 2.11 Онтологическое моделирование. OWL.
  • 2.12 Работа с онтологиями в Protégé.
  • 2.13 Обработка текстов с использованием онтологий.
  • 3.1 Введение в большие данные. Общее понятие о больших данных. Основные вызовы больших данных. Отличия BI от Data Science.
  • 3.2 Примеры реальных кейсов.
  • 3.3 Цикл аналитики данных. Роль ученого по данным, другие роли в типичных проектах. Управление проектом аналитики данных.
  • 3.4 Кейс из области финансовых моделей. Кредитный скоринг.
  • 3.5 Кейс из области маркетинга. Движки рекомендаций, модели рекомендательных сервисов.
  • 3.6 Кейс из области прогнозирования. Прогнозирование нагрузки.
  • 3.7 Собственный кейс. Возможности больших данных в вашей компании.
  • 3.8 Юридические аспекты доступа к данным.
  • 3.9 Безопасность данных. Соглашения о неразглашении.
  • 3.10 Технические средства обеспечения безопасности данных.
  • 3.11 Представление результатов анализа данных. Перевод с языка аналитики на язык управленческих решений, просчитывание последствий непринятия решений.
  • 4.1 Введение в Python. Экскурс в историю. Особенности языка. Приоритетные задачи. Дзен Python.
  • 4.2 Операторы и выражения. Файлы. Списки. Словари. Строки.
  • 4.3 Объектно-ориентированное программирование.
  • 4.4 Обработка ошибок. Кодировки. Работа с CSS, JSON.
  • 4.5 Итераторы. Генераторы. Продвинутая работа со списками и словарями.
  • 4.6 Python для анализа данных. IPython Notebook. NumPy. Pandas.
  • 4.7 Python для анализа данных. Scikit-learn.
  • 4.8 Функциональное программирование.
  • 4.9 Еще раз про итераторы и генераторы.

Результат

Удостоверение НГУ о повышении квалификации и сертификат Экспасофта

Самостоятельно решите кейс вашей компании.

Научитесь делать:

  • Ставить задачи в области больших данных.
  • Понимать и самостоятельно писать программы на языке Python.
  • Работать в студии анализа данных Orange.
  • Работать с Tableau (визуализация, представление данных).
  • Представлять результаты анализа внутренним и внешним заказчикам.

Принесёте в компанию:

  • Новое понимание ролей всех участников процесса работы с большими данными в компании, завязанное на общие цели.
  • Ясное видение конкретных возможностей использования больших данных для решения задач собственной компании.
  • Предметные знания всех основных направлений машинного обучения.
  • Понимание областей применения «джентельменского набора» алгоритмов анализа данных.

Преподаватели


Евгений
Павловский

бизнес-анализ

к.ф.-м.н., сертифицированный EMC Data Science Associate

Александр
Зырянов

дата-аналитика

Data Scientist в Экспасофт
ассистент НГУ

Владимир
Дюбанов

наука о данных

Ведущий сибирский Data Scientist

Юрий
Аникин

технологии больших данных

к.т.н., генеральный директор ООО "Футуролаб"




Вливайтесь в команду сибирских Data Scientists!

Стоимость

89 900 р.

Обучение + практика

Скидка 10%

За приведённого друга

Скидка 15%

При оплате за трёх человек

Всё ещё сомневаетесь?

Прослушайте бесплатно вводную лекцию, где мы разберем несколько кейсов, и вы познакомитесь с нашими специалистами, зададите любые вопросы, и, таким образом, убедитесь в необходимости и полезности будущего курса для своего бизнеса и определитесь с профилем и составом сотрудников, которых требуется обучить.

Подайте заявку на презентацию курса по аналитике больших данных.


Дата уточняется

Академгородок

в Академпарке (ул. Николаева, 12, 2 этаж) с 18 до 21 часа

Запись по телефону +7913 399 8128 или
Форма




Контакты

Экспасофт
630090, Россия, НСО, Новосибирск,
ул. Николаева, 11 - 706
Тел: +7 (913) 399-8128
evgeniy [] expasoft.ru