明确解决什么业务问题,以及如何用机器学习来解决
目标:获取并清洗数据,将其转换为适合模型训练的格式 常被成为数据工程
1.数据收集 - 从数据库 数据仓库 API 日志文件 公开数据集中收集所有相关数据
2.数据探索与清洗:
处理缺失值(删除或填充 使用均值和中位数等),
处理异常值(分析决定是删除 修正还是保留),
处理错误数据(修正不一致的格式或输入错误)
3.特征工程 - 创建新的,对模型预测有帮助的特征
4.数据分割 - 将数据集分割成 训练集(用于模型训练) 验证集(用于调参和模型选择)和测试集(最终评估模型性能)
产出:干净的 可用于建模的数据集(训练 验证 测试)
目标:选择合适的算法 使用训练数据来构建训练模型
1.模型选择:根据问题类型(分类/回归等)和数据特征 选择一个或多个候选算法,(例如线性回归 逻辑回归 随机森林 神经网络等)
2.模型训练:将训练集输入到模型中 让算法学习模型中的模式
3.超参数调优:人为设定超参数(学习率,树的最大深度等) 使用验证集评估不哟个参数的组合的性能 找到最佳配置 (常用网格搜索 随机搜索 贝叶斯优化)
目标:评估模型在未知数据上的表现
1.使用测试集: 使用模型没见过的测试集进行最终评估
2.分析评估指标: 根据第一阶段定义的指标 例如准确率 均方误差等 进行评估
3.深入分析: 查看混淆矩阵,学习曲线等 了解模型在哪些地方表现好 哪些地方表现不佳