课程大纲:

一:导论:基础知识与中英文文本操作
开课时间: 11月22日10:00 – 12月8日20:00课程主页

第1章 自然语言处理基础

• 1.1 本章概述
• 1.2文本数据、字、词、term
• 1.3 字符串处理
• 1.4 模式匹配与正则表达式
• 1.5 【实战】字符串基本处理与正则表达式文本匹配与替换
• 1.6 本章小结

第2章 英文文本处理与解析

• 2.1 本章概述
• 2.2 英文文本解析任务介绍:分词、去停用词、提取词干等
• 2.3 【实战】NLTK工具库英文文本处理案例
• 2.4 【实战】spaCy工具库英文文本处理案例
• 2.5 【实战】基于python的英文文本相似度比对
• 2.6 【实战】简易文本情感分析器构建
• 2.7 本章小结

第3章 中文文本处理与解析

• 3.1 本章概述
• 3.2 中文文本处理任务介绍:分词、去停用词、N-gram
• 3.3英文文本解析任务介绍:词性分析、依赖分析、命名实体识别、关键词抽取
• 3.4 jieba工具库介绍
• 3.5 【实战】python中文文本清洗、处理与可视化
• 3.6 【实战】python新闻网站关键词抽取
• 3.7 本章小结

二:语言模型:通顺度模型与智能纠错

开课时间: 11月22日10:00 – 12月22日20:00课程主页
第1章 语言模型与应用
• 1.1本章概述
• 1.2 假设性独立与联合概率链规则
• 1.3 N-gram语言模型
• 1.4 N-gram应用:词性标注、中文分词、机器翻译与语音识别
• 1.5 本章小结
第2章 统计语言模型与神经语言模型构建
• 2.1 本章概述
• 2.2 基于统计的语言模型构建
• 2.3【实战】KenLM工具库使用及语言模型生成
• 2.3 基于RNN的神经语言模型
• 2.4【实战】基于KenLM的简易拼写纠错
• 2.5【实战】基于RNN的神经语言模型
• 2.6【实战】基于pytorch的语言模型训练
• 2.7 本章小结

三:文本表示:词向量构建与分布表示
开课时间: 12月23日10:00 – 12月29日20:00课程主页

第1章 文本词与句的表示
• 第1章文本词与句的表示
• 1.1 本章概述
• 1.2 文本表示概述
• 1.3 文本离散表示:词袋模型与TF-IDF
• 1.4 文本分布式表示:word2vec
• 1.5 【实战】python中文文本向量化表示
• 1.6 【实战】基于gensim的中文文本词向量训练与相似度匹配
• 1.7 本章小结
第2章文本表示进阶
• 2.1本章概述
• 2.2 预训练在图像领域的应用
• 2.3 ELMO:基于上下文的word-embedding
• 2.4 GPT:Transformer建模句子信息
• 2.5 BERT:预训练双向Transformer
• 2.6 基于BERT进行fine-tuning
• 2.7本章小结

四:文本分类:情感分析与内容分类

开课时间: 12月23日10:00 – 1月5日20:00课程主页
第1章文本分类机器学习模型与实战
• 1.1 本章概述
• 1.2 朴素贝叶斯模型与中文文本分类
• 1.3 逻辑回归/SVM与文本分类
• 1.4 facebook fasttext原理与操作
• 1.5 【实战】python中文新闻分类
• 1.6 【实战】基于fasttext的文本情感分析
• 1.7 本章小结
第2章文本分类深度学习模型与实战
• 2.1 本章概述
• 2.2 词嵌入与fine-tuning
• 2.3 基于卷积神经网络的文本分类
• 2.4 基于LSTM的文本分类
• 2.5 Transformer/self-attention介绍
• 2.6【实战】使用tensorflow构建卷积神经网络完成新闻分类
• 2.7【实战】使用tensorflow构建LSTM完成影评褒贬分析模型
• 2.8 本章小结

五:主题模型:文本主题抽取与表示

开课时间: 12月23日10:00 – 1月12日20:00课程主页
第1章文本主题抽取与表示
• 1.1 本章概述
• 1.2 基于tf-idf与text-rank的主题词抽取
• 1.3 监督学习与文本打标签
• 1.4 无监督学习与LDA主题模型
• 1.5【实战】基于python的中文关键词抽取与可视化
• 1.6【实战】基于LDA的新闻主题分析与可视化呈现
• 1.7 本章小结

六:seq2seq模型:文本序列映射学习

开课时间: 12月23日10:00 – 1月19日20:00课程主页
第1章序列到序列模型与应用
• 1.1 本章概述
• 1.2 从RNN到seq2seq模型
• 1.3 编码解码模型
• 1.4 seq2seq模型详解
• 1.5 注意力(attention)机制
• 1.6 【实战】tensorflow seq2seq模型使用方法详解
• 1.7 【实战】基于seq2seq的文本摘要生成实现
• 1.8 本章小结

七:文本生成:写诗作词对对联

开课时间: 1月20日10:00 – 1月26日20:00课程主页
第1章文本生成与自动创作
• 1.1 本章概述
• 1.2 基于RNN/LSTM的语言模型回顾
• 1.3 基于语言模型的文本生成原理
• 1.4 【实战】基于LSTM的唐诗生成器
• 1.5 基于seq2seq的文本序列生成原理
• 1.6 【实战】基于seq2seq的对联生成器
• 1.7 本章小结

八:机器翻译:双语翻译

开课时间: 1月20日10:00 – 2月9日20:00课程主页
第1章 统计机器翻译
• 第1章统计机器翻译
• 1.1 本章概述
• 1.2 词、句子和语料与基本概率论知识
• 1.3 翻译模型与语言模型
• 1.4 解码与beam-search
• 1.5 翻译系统评估
• 1.6【实战】moses统计翻译系统实战
• 1.7 本章小结
第2章基于seq2seq的机器翻译模型
• 2.1 本章概述
• 2.2 基础seq2seq编解码模型机器翻译应用
• 2.3 基于注意力机制的seq2seq机器翻译优化
• 2.4【实战】基于keras完成的基础seq2seq机器翻译模型
• 2.5【实战】基于tensorflow的google版seq2seq机器翻译模型
• 2.6 本章小结
第3章facebook基于CNN的机器翻译模型
• 3.1 本章概述
• 3.2 基于CNN的翻译系统模型结构
• 3.3 使用CNN完成神经翻译系统的tricks
• 3.4【实战】facebook CNN机器翻译系统代码解析
• 3.5 本章小结
第4章来自Google的Transformer模型
• 4.1 本章概述
• 4.2 来自Google的Transformer模型
• 4.3 Transformer模型的训练细节
• 4.4【实战】Transformer源码解析
• 4.5 本章小结

九:聊天机器人:机器客服与语音助手
开课时间: 1月20日10:00 – 2月16日20:00课程主页

第1章 基于内容匹配的聊天机器人
• 1.1 本章概述
• 1.2 聊天机器人基本知识综述
• 1.3 基于内容匹配的聊天机器人
• 1.4 【实战】基于深度学习匹配的聊天机器人tensorflow实现
• 1.5 基于深度学习匹配的聊天机器人pytorch实现
• 1.6 本章小结
第2章 基于seq2seq的聊天机器人
• 2.1 本章概述
• 2.2 聊天机器人场景与seq2seq模型回顾
• 2.3 数据处理与准备
• 2.4 基于tensorflow seq2seq的chatbot完整实现
• 2.5 拓展:基于transformer的chatbot实现
• 2.6 本章小结

十:视觉文本任务:看图说话
开课时间: 2月17日10:00 – 2月23日20:00课程主页

第1章 看图说话问题与实现
• 1.1 本章概述
• 1.2“看图说话”问题介绍
• 1.3 简易CNN+RNN编码解码模型完成图片短文本描述原理
• 1.4 注意力模型与“看图说话”优化
• 1.5【实战】基于CNN+RNN的编解码“看图说话”与beam-search优化
• 1.6【实战】基于attention model的“看图说话”实现
• 1.7 本章小结
第2章 视觉问答机器人(VQA)原理与实现
• 2.1 本章概述
• 2.2 视觉问答机器人问题介绍
• 2.3 基于图像信息和文本信息抽取匹配的VQA实现方案
• 2.4 基于注意力(attention)的深度学习VQA实现方案
• 2.5【实战】使用keras完成CNN+RNN基础VQA模型
• 2.6【实战】基于attention的深度学习VQA模型实现
• 2.7 本章小结

十一:文本相似度计算与文本匹配问题
开课时间: 2月17日10:00 – 3月1日20:00课程主页

第1章 文本相似度问题与应用场景
• 1.1 本章概述
• 1.2 文本相似度问题
• 1.3 传统文本相似度计算方式:编辑距离、simhash、word2vec
• 1.4 【实战】编辑距离计算python实现
• 1.5 【实战】基于simhash的相似文本判断
• 1.6 【实战】词向量Word Averaging
• 1.7 本章小结
第2章基于深度学习的文本语义匹配
• 2.1 本章概述
• 2.2 基于深度学习的句子相似度模型
• 2.3 DSSM(Deep Structured Semantic Models)模型详解
• 2.4 DRMM(Deep Relevance Matching Model)模型详解
• 2.5【实战】基于LSTM的监督学习语义表达抽取
• 2.6【实战】基于DSSM的问题语义相似度匹配案例
• 2.7【实战】基于DRMM的问答匹配案例
• 2.8 本章小结