资源库_MindSea | AI思维导图官网

数据分析与机器学习项目流程

2024-12-04 22:01 335

免费使用

画布

大纲

为你推荐

# 数据分析与机器学习项目流程 ## 数据加载 ### �载训练集 (train_df) 和测试集 (test_df) ## �步探索 ### 查看数据头部 (head()) ### �查数据类型和非空计数 (info()) ### �认缺失值情况 (isnull().any(), count_null()) ## 数据清洗 ### �理缺失值 #### 使用中位数填充年龄 (Age) 的缺失值 #### 使用最常见的登船港口 (Embarked) �充缺失值 ### �码分类变量 #### �别 (Sex)：男 → 0, � → 1 #### 登船港口 (Embarked)：S → 0, C → 1, Q → 2 ### �理异常值 #### 对票价 (Fare) �行上限编码 (encode_Fare) ## �征工程 ### 创建新特征 #### �龄分段 (Age2)：少年 < 18, 中年 18-48, �年 > 48 #### �一化/标准化数值特征（如年龄） ## 数据预处理 ### �建最终训练集 (train_df2) 和测试集 (test_df2) ### 删除不必要的列（如 PassengerId, Name, Ticket, Cabin） ### �除含有缺失值的行 (dropna()) ## �型训练与评估 ### 分离特征 (X_train) 和标签 (Y_train) ### �练多个模型： #### 逻辑回归 (LogisticRegression) #### �策树 (DecisionTreeClassifier) #### K近邻 (KNeighborsClassifier) ### 输出模型在训练集上的准确率 (score()) ## �测 ### 使用训练好的模型对测试集进行预测 (predict()) ### 获取预测概率 (predict_proba()) ## 结果比较 ### �较不同模型之间的预测结果 (knn_outputs == logreg_outputs)

数据分析机器学习数据清洗

作者其他创作

AI脑图#405891

去主页

数据分析与机器学习项目流程

战略概与战略管理概述

未命名文件

金属化合物核心性能特点及Fe₃C渗碳体实例解析

中华人民共和国宪法·国家机构

中移国耘农业智能科技（哈尔滨）有限公司（示例用名）靶向服务规划

南邵项目工作计划

云南地州全维度二甲/三甲普通话实用教学体系

1.心理咨询师理论-心理学导论

寿险行业合规管控

寿险行业合规管理

《稻草人》

热力学第一定律

AI脑图#405891