2023年6月12日 完成label转换,得到26111项数据标签 2023年6月14日 学习对于标签缺失,和数据不完整时的处理方法 2023年6月25日 在师兄的指导下,简化处理思路;对于部分特征数据缺失的情况 删除缺失值:将包含缺失值的样本从数据集中删除。这种方法适用于缺失值较少且对整体数据影响较小的情况。可以使用pandas库中的dropna()函数来删除含有缺失值的行。 填充缺失值:对缺失值进行填充,使其具有某种特定的值。常用的填充方法包括用均值、中位数或众数填充数值型特征,用最常见的类别填充分类特征。可以使用pandas库中的fillna()函数进行缺失值填充。 插值法:通过已知数据的插值来估计缺失值。常用的插值方法包括线性插值、多项式插值、样条插值等。可以使用pandas库中的interpolate()函数进行插值操作。 特殊值标记:将缺失值视为一种特殊的取值,为其分配一个独特的标记。这样模型可以学习到缺失值可能对预测有一定的影响。可以使用pandas库中的fillna()函数将缺失值填充为特殊值。 可以直接删掉 2023年7月2日 完成请销假统计,去除错误数据,有一个错误 姓名重合:莫琰,莫䶮 2023年7月3日 完成学业预警统计统计,去除错误数据,一个错误 姓名重合:扎西尼玛, 扎西尼马 2023年7月8日 完成特征值缩放和选择工作(选择17个特征,包括幺爸给的加权值,相关性不管,没想到好方法),完成数据清洗,和缺失值处理前面已经完成 2023年7月12日 最后筛选出需要的特征 2023年7月13日 按照特征数字量化表的要求,完成了除学业和考勤外所有特征的量化,在Feature_Processed_2.py这个文件中处理,进一步统计特征,学业和出勤特征没有进一步统计进去