更改了几个excel

2 years ago · d32c84c501
parent be77533363
commit d32c84c501
6 changed files with 49 additions and 0 deletions
--- a/data/2020_2021_2.xlsx
+++ b/data/2020_2021_2.xlsx
--- a/data/2021_2022_1.xlsx
+++ b/data/2021_2022_1.xlsx
--- a/data/data_src.xlsx
+++ b/data/data_src.xlsx
--- a/feature.xlsx
+++ b/feature.xlsx
--- a/output_excel_file.xlsx
+++ b/output_excel_file.xlsx
--- a/record.txt
+++ b/record.txt
@ -50,5 +50,54 @@
 2023年7月16日
 增加样本平衡机制，使用GPU训练，优化代码结构，增加必要打印输出信息

+2023年9月25日
+重新整理数据，确认数据的来源和完整的处理方式，主要问题是，数据有点多，记不住，最好是重新整理下处理数据源的程序
+确定是Feature_Process_5.py:用来合并scl90的数据和离校记录和学业情况
+确定是LR_Process_concat_sheet.py 来生成的离校记录，single那个应该是读取excel文件时，就只读了一个，用的函数就有问题
+确定是Study_Process_4_checked.py 来生成的学业情况，应该是Academic_Data_Processing.py 在Study_Process_4_checked.py的基础上增加了对于错误姓名的判断
+add_label_weight.py来处理的feature和label合并，还没验证，可以通过文件字节数验证，已经加入了版本管理应该没有问题
+综合整理下来，前面重要的，需要的程序已经在当时就加入了git管理，没有问题。
+
+2023年10月20日
+按照幺爸上个周末的指导来进行修改
+1. 换10个基本量，10个基本量在输入进模型的时候需要先加权
+已经完成修改，整体准确率从原来的98%下降至95%，原来是强关联性
+出现新问题，使用交叉熵损失函数自带的样本平衡机制，出来的效果要好一些，自己去乘权重再平均的方式要差一些，当然这里面就涉及到权重没有归一化，会收到更新率的影响了
+
+2024年4月1日
+1. 降低batch后，不用归一化，效果还行
+2. chatgpt写了一种归一化方法，可以试下，不是minmaxscale那个，那个可能会样本间
+3. 无论如何拒绝样本间归一化
+
+2024年4月2日
+1. data下面的几个excel表没有改动，只是为了方便pandas导入改了列名和sheet名
+(psy_cpu) wangchunlin@Win11-Home:~/psychological_prediction$ python excel_compare.py 
+['编号', '性别', '年龄', '父亲教养方式', '父亲教养方式数字化', '母亲教养方式', '母亲教养方式数字化', '自评家庭经济条件', '自评家庭经济条件数字化', '心理治疗（咨询）史', '有无心理治疗（咨询）史数字化', '躯体化', '强迫症状', '人际关系敏感', '抑郁', '焦虑', '敌对', '恐怖', '偏执', '精神病性', '其他']
+['编号', '性别', '年龄', '父亲教养方式', '母亲教养方式', '自评家庭经济条件', '心理治疗（咨询）史', '躯体化', '强迫症状', '人际关系敏感', '抑郁', '焦虑', '敌对', '恐怖', '偏执', '精神病性', '其他', '父亲教养方式数字化', '母亲教养方式数字化', '自评家庭经济条件数字化', '有无心理治疗（咨询）史数字化', '强迫症状数字化', '人际关系敏感数字化', '抑郁数字化', '多因子症状', '请假次数', '出勤情况数字化', '是否受过退学预警', '受过退学预警次数', '学业情况数字化']
+工作表 Sheet1 的列名不同
+两个 Excel 文件或其某些工作表内容不同
+
+Changes not staged for commit:
+  (use "git add/rm <file>..." to update what will be committed)
+  (use "git restore <file>..." to discard changes in working directory)
+        modified:   data/2020_2021_2.xlsx
+        modified:   data/2021_2022_1.xlsx
+        modified:   data/data_src.xlsx
+        modified:   feature.xlsx
+        deleted:    output_excel_file.xlsx
+        modified:   record.txt
+
+Untracked files:
+2020_2021_2.xlsx和data/2021_2022_1.xlsx确定只改了列名sheet名，重复了学生列
+data/data_src.xlsx确认什么都没有动，应该只是不小心点了保存
+feature.xlsx列名不一样，主要是加了“数字化”三个字
+
+
+
+
+
+
+
+