diff --git a/data/2020_2021_2.xlsx b/data/2020_2021_2.xlsx index 8d23599..51f7f51 100644 Binary files a/data/2020_2021_2.xlsx and b/data/2020_2021_2.xlsx differ diff --git a/data/2021_2022_1.xlsx b/data/2021_2022_1.xlsx index 84546ea..6410c8b 100644 Binary files a/data/2021_2022_1.xlsx and b/data/2021_2022_1.xlsx differ diff --git a/data/data_src.xlsx b/data/data_src.xlsx index e54f534..84d946e 100644 Binary files a/data/data_src.xlsx and b/data/data_src.xlsx differ diff --git a/feature.xlsx b/feature.xlsx index e18ecf6..5060b1a 100644 Binary files a/feature.xlsx and b/feature.xlsx differ diff --git a/output_excel_file.xlsx b/output_excel_file.xlsx deleted file mode 100644 index b973e59..0000000 Binary files a/output_excel_file.xlsx and /dev/null differ diff --git a/record.txt b/record.txt index 244ff28..9a8f1ab 100644 --- a/record.txt +++ b/record.txt @@ -50,5 +50,54 @@ 2023年7月16日 增加样本平衡机制,使用GPU训练,优化代码结构,增加必要打印输出信息 +2023年9月25日 +重新整理数据,确认数据的来源和完整的处理方式,主要问题是,数据有点多,记不住,最好是重新整理下处理数据源的程序 +确定是Feature_Process_5.py:用来合并scl90的数据和离校记录和学业情况 +确定是LR_Process_concat_sheet.py 来生成的离校记录,single那个应该是读取excel文件时,就只读了一个,用的函数就有问题 +确定是Study_Process_4_checked.py 来生成的学业情况,应该是Academic_Data_Processing.py 在Study_Process_4_checked.py的基础上增加了对于错误姓名的判断 +add_label_weight.py来处理的feature和label合并,还没验证,可以通过文件字节数验证,已经加入了版本管理应该没有问题 +综合整理下来,前面重要的,需要的程序已经在当时就加入了git管理,没有问题。 + +2023年10月20日 +按照幺爸上个周末的指导来进行修改 +1. 换10个基本量,10个基本量在输入进模型的时候需要先加权 +已经完成修改,整体准确率从原来的98%下降至95%,原来是强关联性 +出现新问题,使用交叉熵损失函数自带的样本平衡机制,出来的效果要好一些,自己去乘权重再平均的方式要差一些,当然这里面就涉及到权重没有归一化,会收到更新率的影响了 + +2024年4月1日 +1. 降低batch后,不用归一化,效果还行 +2. chatgpt写了一种归一化方法,可以试下,不是minmaxscale那个,那个可能会样本间 +3. 无论如何拒绝样本间归一化 + +2024年4月2日 +1. data下面的几个excel表没有改动,只是为了方便pandas导入改了列名和sheet名 +(psy_cpu) wangchunlin@Win11-Home:~/psychological_prediction$ python excel_compare.py +['编号', '性别', '年龄', '父亲教养方式', '父亲教养方式数字化', '母亲教养方式', '母亲教养方式数字化', '自评家庭经济条件', '自评家庭经济条件数字化', '心理治疗(咨询)史', '有无心理治疗(咨询)史数字化', '躯体化', '强迫症状', '人际关系敏感', '抑郁', '焦虑', '敌对', '恐怖', '偏执', '精神病性', '其他'] +['编号', '性别', '年龄', '父亲教养方式', '母亲教养方式', '自评家庭经济条件', '心理治疗(咨询)史', '躯体化', '强迫症状', '人际关系敏感', '抑郁', '焦虑', '敌对', '恐怖', '偏执', '精神病性', '其他', '父亲教养方式数字化', '母亲教养方式数字化', '自评家庭经济条件数字化', '有无心理治疗(咨询)史数字化', '强迫症状数字化', '人际关系敏感数字化', '抑郁数字化', '多因子症状', '请假次数', '出勤情况数字化', '是否受过退学预警', '受过退学预警次数', '学业情况数字化'] +工作表 Sheet1 的列名不同 +两个 Excel 文件或其某些工作表内容不同 + +Changes not staged for commit: + (use "git add/rm ..." to update what will be committed) + (use "git restore ..." to discard changes in working directory) + modified: data/2020_2021_2.xlsx + modified: data/2021_2022_1.xlsx + modified: data/data_src.xlsx + modified: feature.xlsx + deleted: output_excel_file.xlsx + modified: record.txt + +Untracked files: +2020_2021_2.xlsx和data/2021_2022_1.xlsx确定只改了列名sheet名,重复了学生列 +data/data_src.xlsx确认什么都没有动,应该只是不小心点了保存 +feature.xlsx列名不一样,主要是加了“数字化”三个字 + + + + + + + +