You cannot select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.
2023年6月12日
完成label转换, 得到26111项数据标签
2023年6月14日
学习对于标签缺失,和数据不完整时的处理方法
2023年6月25日
在师兄的指导下,简化处理思路;对于部分特征数据缺失的情况
删除缺失值: 将包含缺失值的样本从数据集中删除。这种方法适用于缺失值较少且对整体数据影响较小的情况。可以使用pandas库中的dropna()函数来删除含有缺失值的行。
填充缺失值: 对缺失值进行填充, 使其具有某种特定的值。常用的填充方法包括用均值、中位数或众数填充数值型特征, 用最常见的类别填充分类特征。可以使用pandas库中的fillna()函数进行缺失值填充。
插值法: 通过已知数据的插值来估计缺失值。常用的插值方法包括线性插值、多项式插值、样条插值等。可以使用pandas库中的interpolate()函数进行插值操作。
特殊值标记: 将缺失值视为一种特殊的取值, 为其分配一个独特的标记。这样模型可以学习到缺失值可能对预测有一定的影响。可以使用pandas库中的fillna()函数将缺失值填充为特殊值。
可以直接删掉
2023年7月2日
完成请销假统计,去除错误数据,有一个错误
姓名重合:莫琰,莫䶮
2023年7月3日
完成学业预警统计统计,去除错误数据,一个错误
姓名重合:扎西尼玛, 扎西尼马
2023年7月8日
完成特征值缩放和选择工作( 选择17个特征, 包括幺爸给的加权值, 相关性不管, 没想到好方法) , 完成数据清洗, 和缺失值处理前面已经完成
2023年7月12日
最后筛选出需要的特征
2023年7月13日
按照特征数字量化表的要求, 完成了除学业和考勤外所有特征的量化, 在Feature_Processed_2.py这个文件中处理, 进一步统计特征, 学业和出勤特征没有进一步统计进去