psychological_prediction/record.txt

2023年6月12日
完成label转换，得到26111项数据标签

2023年6月14日
学习对于标签缺失，和数据不完整时的处理方法

2023年6月25日
在师兄的指导下，简化处理思路；对于部分特征数据缺失的情况
删除缺失值：将包含缺失值的样本从数据集中删除。这种方法适用于缺失值较少且对整体数据影响较小的情况。可以使用pandas库中的dropna()函数来删除含有缺失值的行。

填充缺失值：对缺失值进行填充，使其具有某种特定的值。常用的填充方法包括用均值、中位数或众数填充数值型特征，用最常见的类别填充分类特征。可以使用pandas库中的fillna()函数进行缺失值填充。

插值法：通过已知数据的插值来估计缺失值。常用的插值方法包括线性插值、多项式插值、样条插值等。可以使用pandas库中的interpolate()函数进行插值操作。

特殊值标记：将缺失值视为一种特殊的取值，为其分配一个独特的标记。这样模型可以学习到缺失值可能对预测有一定的影响。可以使用pandas库中的fillna()函数将缺失值填充为特殊值。
可以直接删掉

2023年7月2日
完成请销假统计，去除错误数据，有一个错误
姓名重合：莫琰,莫䶮

2023年7月3日
完成学业预警统计统计，去除错误数据，一个错误
姓名重合：扎西尼玛, 扎西尼马

2023年7月3日
完成特征值缩放和选择工作（选择17个特征，包括幺爸给的加权值，相关性不管，没想到好方法），完成数据清洗，和缺失值处理前面已经完成

2023年7月4日
最后筛选出需要的特征

2023年7月7日
按照特征数字量化表的要求，完成了除学业和考勤外所有特征的量化，在Feature_Processed_2.py这个文件中处理，进一步统计特征，学业和出勤特征没有进一步统计进去

2023年7月8日
平均请假次数有一点歧义，不知道是统计26111个的，还是表里面的15342，我按全部来，没有记录的默认0次

2023年7月9日
完成所有特征选择和数字化操作，Feature_Process_5.py文件可以把数字化全部做完，待检查其他特征是否集中完全，需要研究下特征的归一化怎么来做。初步选用17个特征来做

2023年7月11日
删除信息严重不全的23人，总样本数26088（26111）

2023年7月13日
完成训练

2023年7月14日
完成推理部分

2023年7月16日
增加样本平衡机制，使用GPU训练，优化代码结构，增加必要打印输出信息

2023年9月25日
重新整理数据，确认数据的来源和完整的处理方式，主要问题是，数据有点多，记不住，最好是重新整理下处理数据源的程序
确定是Feature_Process_5.py:用来合并scl90的数据和离校记录和学业情况
确定是LR_Process_concat_sheet.py 来生成的离校记录，single那个应该是读取excel文件时，就只读了一个，用的函数就有问题
确定是Study_Process_4_checked.py 来生成的学业情况，应该是Academic_Data_Processing.py 在Study_Process_4_checked.py的基础上增加了对于错误姓名的判断
add_label_weight.py来处理的feature和label合并，还没验证，可以通过文件字节数验证，已经加入了版本管理应该没有问题
综合整理下来，前面重要的，需要的程序已经在当时就加入了git管理，没有问题。

2023年10月20日
按照幺爸上个周末的指导来进行修改
1. 换10个基本量，10个基本量在输入进模型的时候需要先加权
已经完成修改，整体准确率从原来的98%下降至95%，原来是强关联性
出现新问题，使用交叉熵损失函数自带的样本平衡机制，出来的效果要好一些，自己去乘权重再平均的方式要差一些，当然这里面就涉及到权重没有归一化，会收到更新率的影响了

2024年4月1日
1. 降低batch后，不用归一化，效果还行
2. chatgpt写了一种归一化方法，可以试下，不是minmaxscale那个，那个可能会样本间
3. 无论如何拒绝样本间归一化

2024年4月2日
1. data下面的几个excel表没有改动，只是为了方便pandas导入改了列名和sheet名
(psy_cpu) wangchunlin@Win11-Home:~/psychological_prediction$ python excel_compare.py
['编号', '性别', '年龄', '父亲教养方式', '父亲教养方式数字化', '母亲教养方式', '母亲教养方式数字化', '自评家庭经济条件', '自评家庭经济条件数字化', '心理治疗（咨询）史', '有无心理治疗（咨询）史数字化', '躯体化', '强迫症状', '人际关系敏感', '抑郁', '焦虑', '敌对', '恐怖', '偏执', '精神病性', '其他']
['编号', '性别', '年龄', '父亲教养方式', '母亲教养方式', '自评家庭经济条件', '心理治疗（咨询）史', '躯体化', '强迫症状', '人际关系敏感', '抑郁', '焦虑', '敌对', '恐怖', '偏执', '精神病性', '其他', '父亲教养方式数字化', '母亲教养方式数字化', '自评家庭经济条件数字化', '有无心理治疗（咨询）史数字化', '强迫症状数字化', '人际关系敏感数字化', '抑郁数字化', '多因子症状', '请假次数', '出勤情况数字化', '是否受过退学预警', '受过退学预警次数', '学业情况数字化']
工作表 Sheet1 的列名不同
两个 Excel 文件或其某些工作表内容不同

Changes not staged for commit:
  (use "git add/rm <file>..." to update what will be committed)
  (use "git restore <file>..." to discard changes in working directory)
        modified:   data/2020_2021_2.xlsx
        modified:   data/2021_2022_1.xlsx
        modified:   data/data_src.xlsx
        modified:   feature.xlsx
        deleted:    output_excel_file.xlsx
        modified:   record.txt

Untracked files:
2020_2021_2.xlsx和data/2021_2022_1.xlsx确定只改了列名sheet名，重复了学生列
data/data_src.xlsx确认什么都没有动，应该只是不小心点了保存
feature.xlsx列名不一样，主要是加了“数字化”三个字

**重大意义提交：commit c16c135dc4d073926c125693876cc9ce8a8b5df8**