第一阶段 机器学习原理及推荐系统实现
1:机器学习简介
(1)理论
机器学习定义;机器学习行业应用举例;机器学习任务:监督学习(分类、回归)、非监督学习(聚类、降维)、半监督学习、迁移学习、强化学习;机器学习算法的组成部分:目标函数(损失函数+正则)、优化方法;模型评估和模型选择:模型复杂度、过拟合、交叉验证、超参数空间、网格搜索…
(2)实战
房价预测案例
数据集探索:单特征分布模拟及可视化、离群点检测、多特征相关性分析及可视化(NumPy、Pandas、Matplotlib, seaborn)
实现模型评估和模型选择:交叉验证、网格搜索(scikit-learn)
(3)目标
熟悉机器学习领域的常用术语,了解机器学习在AI中的地位 学习环境配置:常用软件、环境配置及机器学习库anaconda:Python、科 学 计 算 包 (
NumPy, SciPy, Pandas)、数据可视化工具包(Matplotlib, seaborn)、机器学习库(scikit-learn)
学会用机器学习工具包从头到尾用线性回归解决一个实际问题
2:Logistic回归分析、神经网络、SVM
(1)理论
分类算法的损失函数:logistic 损失、Hingloss损失、
优化算法:IRLS(梯度下降、牛顿法)、BP算法、SMO(序列最小最优化算法)正则化:L1/ L2 复习模型评估其他:最小间隔、核方法、支持向量回归
(2)实战
电商商品分类案例 用 Logistic 回归、神经网络和SVM等分类器实现商品分类 比较不同模型以及不同参数下
SVM(不同正则参数和核函数)的性能,体会各模型的特点
(3)目标
理解分类任算法(Logistic 回归、神经网络、SVM)原理,复习数据集探索,并学会在scikit-learn框架下采用各分类算法分类具体任务。
3:决策树模型(CART)、基于树的集成学习算法(随机森林、GBDT)
(1)理论
* 损失函数:信息增益、Gini系数
* 划分:穷举搜索、近似搜索
* 正则:L2/L1
* 预防过拟合:预剪枝及后剪枝
* Bagging原理 Boosting原理流行的GBDT工具:XGBoost和LightGBM
(2)实战
* 电商商品分类案例
* XGBoost 在实际案例上的参数调优
(3)目标
学习Boosting集成思想及基于树的集成算法 v
4:聚类、降维、矩阵分解
(1)理论
* 主成分分析(PCA)独立成分分析(ICA)
* 非负矩阵分解(NFM)隐因子模型(LFM)
* KMeans聚类和混合高斯模型GMM(EM算法)吸 引 子 传 播 聚 类 算 法 ( Affinity
Propagation聚类算法)
(2)实战
* 人脸图像特征提取:PCA、ICA、NFM
* 电商用户聚类案例
(3)目标
学习用降维技术对高维特征进行降维
5:特征工程、模型融合& 推荐系统实现
(1)理论
* 数据预处理:缺失值处理
* 特征编码:标签编码、Dummy (One hot) 编码、后验均值编码文本特征提取特征组合
* 特征选择协同过滤
* 基于内容的过滤
* FFM & LFM 排序学习
* 模型融合:Blending、Stacking
(2)实战
* 商品推荐案例
* 复习数据探索、数据离群点检测和处理数据预处理:缺失值处理特征编码组合各种特征工程技术和机器学习算法实现推荐系统
(3)目标
* 学会常用数据预处理方法及特征编码方法
* 学习特征工程的一般处理原则
* 实现一个实际的推荐系统 -
热门工具 换一换