2023年6月12日 完成label转换,得到26111项数据标签 2023年6月14日 学习对于标签缺失,和数据不完整时的处理方法 2023年6月25日 在师兄的指导下,简化处理思路;对于部分特征数据缺失的情况 删除缺失值:将包含缺失值的样本从数据集中删除。这种方法适用于缺失值较少且对整体数据影响较小的情况。可以使用pandas库中的dropna()函数来删除含有缺失值的行。 填充缺失值:对缺失值进行填充,使其具有某种特定的值。常用的填充方法包括用均值、中位数或众数填充数值型特征,用最常见的类别填充分类特征。可以使用pandas库中的fillna()函数进行缺失值填充。 插值法:通过已知数据的插值来估计缺失值。常用的插值方法包括线性插值、多项式插值、样条插值等。可以使用pandas库中的interpolate()函数进行插值操作。 特殊值标记:将缺失值视为一种特殊的取值,为其分配一个独特的标记。这样模型可以学习到缺失值可能对预测有一定的影响。可以使用pandas库中的fillna()函数将缺失值填充为特殊值。 可以直接删掉 2023年7月2日 完成请销假统计,去除错误数据,有一个错误 姓名重合:莫琰,莫䶮 2023年7月3日 完成学业预警统计统计,去除错误数据,一个错误 姓名重合:扎西尼玛, 扎西尼马 2023年7月3日 完成特征值缩放和选择工作(选择17个特征,包括幺爸给的加权值,相关性不管,没想到好方法),完成数据清洗,和缺失值处理前面已经完成 2023年7月4日 最后筛选出需要的特征 2023年7月7日 按照特征数字量化表的要求,完成了除学业和考勤外所有特征的量化,在Feature_Processed_2.py这个文件中处理,进一步统计特征,学业和出勤特征没有进一步统计进去 2023年7月8日 平均请假次数有一点歧义,不知道是统计26111个的,还是表里面的15342,我按全部来,没有记录的默认0次 2023年7月9日 完成所有特征选择和数字化操作,Feature_Process_5.py文件可以把数字化全部做完,待检查其他特征是否集中完全,需要研究下特征的归一化怎么来做。初步选用17个特征来做 2023年7月11日 删除信息严重不全的23人,总样本数26088(26111) 2023年7月13日 完成训练 2023年7月14日 完成推理部分 2023年7月16日 增加样本平衡机制,使用GPU训练,优化代码结构,增加必要打印输出信息 2023年9月25日 重新整理数据,确认数据的来源和完整的处理方式,主要问题是,数据有点多,记不住,最好是重新整理下处理数据源的程序 确定是Feature_Process_5.py:用来合并scl90的数据和离校记录和学业情况 确定是LR_Process_concat_sheet.py 来生成的离校记录,single那个应该是读取excel文件时,就只读了一个,用的函数就有问题 确定是Study_Process_4_checked.py 来生成的学业情况,应该是Academic_Data_Processing.py 在Study_Process_4_checked.py的基础上增加了对于错误姓名的判断 add_label_weight.py来处理的feature和label合并,还没验证,可以通过文件字节数验证,已经加入了版本管理应该没有问题 综合整理下来,前面重要的,需要的程序已经在当时就加入了git管理,没有问题。 2023年10月20日 按照幺爸上个周末的指导来进行修改 1. 换10个基本量,10个基本量在输入进模型的时候需要先加权 已经完成修改,整体准确率从原来的98%下降至95%,原来是强关联性 出现新问题,使用交叉熵损失函数自带的样本平衡机制,出来的效果要好一些,自己去乘权重再平均的方式要差一些,当然这里面就涉及到权重没有归一化,会收到更新率的影响了 2024年4月1日 1. 降低batch后,不用归一化,效果还行 2. chatgpt写了一种归一化方法,可以试下,不是minmaxscale那个,那个可能会样本间 3. 无论如何拒绝样本间归一化 2024年4月2日 1. data下面的几个excel表没有改动,只是为了方便pandas导入改了列名和sheet名 (psy_cpu) wangchunlin@Win11-Home:~/psychological_prediction$ python excel_compare.py ['编号', '性别', '年龄', '父亲教养方式', '父亲教养方式数字化', '母亲教养方式', '母亲教养方式数字化', '自评家庭经济条件', '自评家庭经济条件数字化', '心理治疗(咨询)史', '有无心理治疗(咨询)史数字化', '躯体化', '强迫症状', '人际关系敏感', '抑郁', '焦虑', '敌对', '恐怖', '偏执', '精神病性', '其他'] ['编号', '性别', '年龄', '父亲教养方式', '母亲教养方式', '自评家庭经济条件', '心理治疗(咨询)史', '躯体化', '强迫症状', '人际关系敏感', '抑郁', '焦虑', '敌对', '恐怖', '偏执', '精神病性', '其他', '父亲教养方式数字化', '母亲教养方式数字化', '自评家庭经济条件数字化', '有无心理治疗(咨询)史数字化', '强迫症状数字化', '人际关系敏感数字化', '抑郁数字化', '多因子症状', '请假次数', '出勤情况数字化', '是否受过退学预警', '受过退学预警次数', '学业情况数字化'] 工作表 Sheet1 的列名不同 两个 Excel 文件或其某些工作表内容不同 Changes not staged for commit: (use "git add/rm ..." to update what will be committed) (use "git restore ..." to discard changes in working directory) modified: data/2020_2021_2.xlsx modified: data/2021_2022_1.xlsx modified: data/data_src.xlsx modified: feature.xlsx deleted: output_excel_file.xlsx modified: record.txt Untracked files: 2020_2021_2.xlsx和data/2021_2022_1.xlsx确定只改了列名sheet名,重复了学生列 data/data_src.xlsx确认什么都没有动,应该只是不小心点了保存 feature.xlsx列名不一样,主要是加了“数字化”三个字 **重大意义提交:commit c16c135dc4d073926c125693876cc9ce8a8b5df8**