自然语言处理

第 1 周

本周课程介绍自然语言处理的用途和历史。主题包括: 

  • 自然语言处理的历史及其如何用于今日的产业
  • 如何使用 Python 中强大的正则表达式工具来解析字符串

下载

第 2 周

本周课程讲授如何使用自然语言处理工具套件和预处理技术。主题包括:

  • 探讨标记化、停止词删除和标点操作等技术
  • 使用 Python 库(如 NLTK、TextBlob、spaCy 和 Gensim)实现上述技术

下载

第 3 周

本周课程介绍如何测定词之间的相似度。学习有关以下内容的更多知识:

  • 用于比较两个词之间的相似度的莱文斯坦距离 (Levenshtein Distance)。
  • 计算机如何将文本片段编码为文档-检索词矩阵,以及词袋假设 是什么

下载

第 4 周

本周课程显示机器学习如何用于基本文本分类。主题包括:

  • 机器学习基础知识和术语复习
  • 一个典型的机器学习工作流程,用于两种不同的机器学习途径来将电子邮件分类为垃圾非垃圾

下载

第 5 周

本周课程讲授用于自然语言理解和主题建模的一种算法。学习有关以下内容的更多知识:

  • 如何使用隐狄利克雷分配 (Latent Dirichlet Allocation) 算法从文档-检索词矩阵中提取主题

下载

第 6 周

本周课程继续讲授如何建模和提取文本的主题。学习有关以下内容的更多知识:

  • 发现嵌入在文本中的主题的替代算法

下载

第 7 周

本周课程讲授用于自然语言处理的机器学习算法。主题包括:

  • 如何使用神经网络将词转换为矢量
  • 这些矢量(如文本分类和信息检索)的潜在应用

下载

第 8 周

本周课程继续机器学习主题,讲授应用神经网络的更多内容。主题包括:

  • 使用马尔科夫链 (Markov Chain) 和循环神经网络的文本生成
  • 自然语言处理的高级主题,如 seq2seq

下载