自然语言处理
第 2 周
本周课程讲授如何使用自然语言处理工具套件和预处理技术。主题包括:
- 探讨标记化、停止词删除和标点操作等技术
- 使用 Python 库(如 NLTK、TextBlob、spaCy 和 Gensim)实现上述技术
第 3 周
本周课程介绍如何测定词之间的相似度。学习有关以下内容的更多知识:
- 用于比较两个词之间的相似度的莱文斯坦距离 (Levenshtein Distance)。
- 计算机如何将文本片段编码为文档-检索词矩阵,以及词袋假设 是什么
第 5 周
本周课程讲授用于自然语言理解和主题建模的一种算法。学习有关以下内容的更多知识:
- 如何使用隐狄利克雷分配 (Latent Dirichlet Allocation) 算法从文档-检索词矩阵中提取主题