Aprendizado de máquina
Resumo
Este curso fornece uma visão geral dos fundamentos de aprendizado da máquina da moderna arquitetura Intel®. Os tópicos abordados incluem:
- Revisando os tipos de problemas que podem ser solucionados
- Compreendendo os blocos componentes
- Aprendendo os fundamentos da construção de modelos na aprendizagem de máquinas
- Explorando os algoritmos chaves
Ao final deste curso, os estudantes terão adquirido conhecimento prático sobre:
- Algoritmos de aprendizagem supervisionada
- Conceitos chaves como under- e over-fitting, regularização e validação cruzada
- Como identificar o tipo de problema a ser resolvido, escolher o algoritmo certo, ajustar parâmetros e validar um modelo
O curso é estruturado para aproximadamente 12 semanas de apresentações e exercícios. Três horas serão necessárias para completar cada semana. Os exercícios são implementados em Python*, por isso uma familiaridade com a linguagem é recomendável (também é possível aprender ao longo do caminho).
Pré-requisitos
Programação em Python*
Cálculo
Álgebra linear
Estatísticas
Semana 1
Essa aula apresenta o conjunto de ferramentas básicas de ciência dos dados:
- Jupyter Notebook* para codificação interativa
- NumPy, SciPy, e pandas para computação numérica
- Matplotlib e seaborn para visualização de dados
- Scikit-learn* para bibliotecas de aprendizado de máquinas.
Você utilizará essas ferramentas para trabalhar nos exercícios todas as semanas.
Semana 2
Essa aula apresenta os conceitos básicos e o vocabulário do aprendizado de máquinas:
- Aprendizagem supervisionada e como ela pode ser aplicada a problemas de regressão e classificação
- Algoritmo K vizinhos mais próximos (KNN) para classificação
Semana 3
Esta classe revisa os princípios da generalização do modelo central:
- A diferença entre um modelo sobre-ajustado e um modelo sub-ajustado.
- Compensações de variância de bias
- Encontrando o treinamento e testes ideais para as divisões de dados, validação cruzada e complexidade do modelo versus erro
- Introdução ao modelo de regressão linear para aprendizado supervisionado.
Semana 4
Essa aula baseia-se em conceitos ensinados nas semanas anteriores. Além disso, você irá:
- Saiba mais sobre funções de custo, regularização, seleção de recursos e hiper-parâmetros
- Compreender algoritmos de otimização estatística mais complexos, como o método do gradiente e sua aplicação à regressão linear
Semana 5
Essa classe discute o seguinte:
- Regressão logística e como ela difere da regressão linear
- Métricas para a classificação de erros e cenários nos quais elas podem ser usadas
Semana 6
Durante essa sessão nós analisaremos:
- O básico da teoria da probabilidade e sua aplicação ao classificador Naïve Bayes
- Os diferentes tipos de classificadores Naïve Bayes e como treinar um modelo usando este algoritmo
Semana 7
Essa semana aborda:
- Máquinas de vetores de suporte (SVMs)—um algoritmo popular usado em problemas de classificação
- Exemplos para aprender a semelhança das SVMs com a regressão logística
- Como calcular a função de custo das SVMs
- Regularização em SVMs e algumas dicas para obter classificações não-lineares com SVMs
Semana 8
Continuando com o tópico de algoritmos avançados de aprendizagem supervisionada, esta classe abrange:
- Árvores de decisão e como usá-las para problemas de classificação
- Como identificar a melhor divisão e os fatores de divisão
- Pontos fortes e fracos das árvores de decisão
- Árvores de regressão que ajudam na classificação de valores contínuos
Semana 9
Dando sequência ao que foi aprendido na Semana 8, esta aula ensina:
- Os conceitos de bootstrapping e agregação (comumente conhecido como "bagging") para reduzir a variância
- O algoritmo Random Forest que reduz ainda mais a correlação observada nos modelos de bagging.
Semana 10
Esta semana, aprenda sobre o algoritmo de reforço que ajuda a reduzir variância e viés.
Semana 11
Até agora, o curso tem sido fortemente focado em algoritmos de aprendizagem supervisionados. Essa semana, aprenda sobre algoritmos de aprendizagem não supervisionados e como eles podem ser aplicados a problemas de agrupamento e redução de dimensionalidade.
Semana 12
Dimensionalidade refere-se à quantidade de recursos no conjunto de dados. Teoricamente, mais características deveriam significar melhores modelos, mas isso não é verdade na prática. Muitas características podem resultar em correlações espúrias, mais ruído e desempenho mais lento. Nessa semana, conheça algoritmos que podem ser usados para alcançar uma redução na dimensionalidade, tais como:
- Análise de Componentes Principais (ACP)
- Escalonamento Multidimensional (MDS)