sklearn 机器学习开发流程

分类: 算法&模型训练

机器学习的开发流程

阶段一: 问题定义

明确解决什么业务问题,以及如何用机器学习来解决

阶段二:数据准备

目标:获取并清洗数据,将其转换为适合模型训练的格式 常被成为数据工程

1.数据收集 - 从数据库 数据仓库 API 日志文件 公开数据集中收集所有相关数据

2.数据探索与清洗:

​ 处理缺失值(删除或填充 使用均值和中位数等),

​ 处理异常值(分析决定是删除 修正还是保留),

​ 处理错误数据(修正不一致的格式或输入错误)

3.特征工程 - 创建新的,对模型预测有帮助的特征

4.数据分割 - 将数据集分割成 训练集(用于模型训练) 验证集(用于调参和模型选择)和测试集(最终评估模型性能)

产出:干净的 可用于建模的数据集(训练 验证 测试)

阶段三:模型训练

目标:选择合适的算法 使用训练数据来构建训练模型

1.模型选择:根据问题类型(分类/回归等)和数据特征 选择一个或多个候选算法,(例如线性回归 逻辑回归 随机森林 神经网络等)

2.模型训练:将训练集输入到模型中 让算法学习模型中的模式

3.超参数调优:人为设定超参数(学习率,树的最大深度等) 使用验证集评估不哟个参数的组合的性能 找到最佳配置 (常用网格搜索 随机搜索 贝叶斯优化)

阶段四:模型评估

目标:评估模型在未知数据上的表现

1.使用测试集: 使用模型没见过的测试集进行最终评估

2.分析评估指标: 根据第一阶段定义的指标 例如准确率 均方误差等 进行评估

3.深入分析: 查看混淆矩阵,学习曲线等 了解模型在哪些地方表现好 哪些地方表现不佳

阶段五:模型部署

阶段六:监控维护