sklearn 机器学习开发流程

分类: 算法&模型训练

机器学习的开发流程

明确解决什么业务问题,以及如何用机器学习来解决

目标:获取并清洗数据,将其转换为适合模型训练的格式常被成为数据工程

1.数据收集 - 从数据库数据仓库 API 日志文件公开数据集中收集所有相关数据

2.数据探索与清洗:

处理缺失值(删除或填充使用均值和中位数等),

处理异常值(分析决定是删除修正还是保留),

处理错误数据(修正不一致的格式或输入错误)

3.特征工程 - 创建新的,对模型预测有帮助的特征

4.数据分割 - 将数据集分割成训练集(用于模型训练) 验证集(用于调参和模型选择)和测试集(最终评估模型性能)

产出:干净的可用于建模的数据集(训练验证测试)

目标:选择合适的算法使用训练数据来构建训练模型

1.模型选择:根据问题类型(分类/回归等)和数据特征选择一个或多个候选算法,(例如线性回归逻辑回归随机森林神经网络等)

2.模型训练:将训练集输入到模型中让算法学习模型中的模式

3.超参数调优:人为设定超参数(学习率,树的最大深度等) 使用验证集评估不哟个参数的组合的性能找到最佳配置 (常用网格搜索随机搜索贝叶斯优化)

目标:评估模型在未知数据上的表现

1.使用测试集: 使用模型没见过的测试集进行最终评估

2.分析评估指标: 根据第一阶段定义的指标例如准确率均方误差等进行评估

3.深入分析: 查看混淆矩阵,学习曲线等了解模型在哪些地方表现好哪些地方表现不佳