Машинное обучение

Неделя 1

В этом курсе представлен инструментарий для исследования данных:

  • Ноутбук Jupyter* для интерактивного программирования
  • NumPy, SciPy и pandas для числовых вычислений
  • Matplotlib и seaborn для визуализации данных
  • Scikit-learn* для библиотек машинного обучения

Вы будете использовать эти инструменты в упражнениях каждую неделю.

Загрузка

Неделя 2

В этом курсе представлены основные концепции и терминология машинного обучения:

  • Обучение под руководством инструктора с дальнейшим применением навыков для исследования и классификации проблем
  • Алгоритм K-Nearest Neighbor (KNN) для классификации

Загрузка

Неделя 3

В этом классе рассматриваются основные принципы обобщения моделей:

  • Различие между надстройкой и основой модели
  • Обмен комбинированными переменными
  • Выбор оптимального обучения, разделение тестовых наборов данных, перекрестные проверки и сложность моделирования по отношению к числу возникающих ошибок
  • Введение в модель линейной регрессии для управляемого обучения

Загрузка

Неделя 4

Класс сформирован на основе материала, представленного в предыдущие недели. Кроме того, вы выполните следующее:

  • Познакомьтесь с функциями стоимости, регуляции, выбора характеристик и гиперпараметров
  • Узнайте подробнее о сложных алгоритмах статистической оптимизации, таких как градиентное понижение и его применение для линейной регрессии

Загрузка

Неделя 5

В этом классе познакомитесь со следующим:

  • Логистическая регрессия и чем она отличается от линейной регрессии
  • Показатели ошибок классификации и сценарии их использования

Загрузка

Неделя 6

В этом классе рассматривается:

  • Основы теории вероятностей и ее применение в приложении-классификаторе Naïve Bayes
  • Типы классификаторов Naïve Bayes и как выполнить обучение модели с помощью данного алгоритма

Загрузка

Неделя 7

На этой неделе будет представлено:

  • Поддержка машин SVMs (Support Vector Machines) — популярный алгоритм, используемый для классификации проблем
  • Примеры для изучения подобия SVM для логистической регрессии
  • Функции оценки оценки затрат SVMs
  • Регуляция в машинах SVMs и некоторые советы для получения нелинейных классификаций с помощью SVMs

Загрузка

Неделя 8

В данном классе представлено продолжение темы углубленного изучения для алгоритмов обучения:

  • Деревья принятия решений и то, как их использовать для классификации проблем
  • Определение наилучших методов разделения и их факторов
  • Сильные и слабые стороны деревьев принятия решений
  • Регрессия деревьев для классификации последовательностей значений

Загрузка

Неделя 9

Продолжение изучения материала 8-й недели:

  • Концепции бутстрапинга и объединения процессов (обычно называется "комбинированием") для уменьшения различий
  • Алгоритм Random Forest, дополнительно уменьшающий корреляцию в моделях комбинирования

Загрузка

Неделя 10

На этой неделе изучается развитие алгоритма, который призван уменьшить разнообразие и разброс результатов.

Загрузка

Неделя 11

Данный курс, в значительной степени, ориентирован на управляемые алгоритмы обучения. На этой неделе вы узнаете о неуправляемых алгоритмах обучения и о том, как они могут применяться для решения проблем кластеризации и сокращения размерности.

Загрузка

Неделя 12

Размерность соотносится с числом функций в наборе данных. Теоретически, большее число функций должно означать появление лучших моделей, но на практике это не так. Слишком большое число функций может привести к ложным корреляциям, большим помехам и снижению производительности. На этой неделе будут представлены алгоритмы, которые можно использовать для снижения размерности, например:

  • Анализ PCA (Principal Component Analysis)
  • Многоразмерное масштабирование (MDS)

Загрузка