You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

107 lines
6.1 KiB
Plaintext

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

2023年6月12日
完成label转换得到26111项数据标签
2023年6月14日
学习对于标签缺失,和数据不完整时的处理方法
2023年6月25日
在师兄的指导下,简化处理思路;对于部分特征数据缺失的情况
删除缺失值将包含缺失值的样本从数据集中删除。这种方法适用于缺失值较少且对整体数据影响较小的情况。可以使用pandas库中的dropna()函数来删除含有缺失值的行。
填充缺失值对缺失值进行填充使其具有某种特定的值。常用的填充方法包括用均值、中位数或众数填充数值型特征用最常见的类别填充分类特征。可以使用pandas库中的fillna()函数进行缺失值填充。
插值法通过已知数据的插值来估计缺失值。常用的插值方法包括线性插值、多项式插值、样条插值等。可以使用pandas库中的interpolate()函数进行插值操作。
特殊值标记将缺失值视为一种特殊的取值为其分配一个独特的标记。这样模型可以学习到缺失值可能对预测有一定的影响。可以使用pandas库中的fillna()函数将缺失值填充为特殊值。
可以直接删掉
2023年7月2日
完成请销假统计,去除错误数据,有一个错误
姓名重合:莫琰,莫䶮
2023年7月3日
完成学业预警统计统计,去除错误数据,一个错误
姓名重合:扎西尼玛, 扎西尼马
2023年7月3日
完成特征值缩放和选择工作选择17个特征包括幺爸给的加权值相关性不管没想到好方法完成数据清洗和缺失值处理前面已经完成
2023年7月4日
最后筛选出需要的特征
2023年7月7日
按照特征数字量化表的要求完成了除学业和考勤外所有特征的量化在Feature_Processed_2.py这个文件中处理进一步统计特征学业和出勤特征没有进一步统计进去
2023年7月8日
平均请假次数有一点歧义不知道是统计26111个的还是表里面的15342我按全部来没有记录的默认0次
2023年7月9日
完成所有特征选择和数字化操作Feature_Process_5.py文件可以把数字化全部做完待检查其他特征是否集中完全需要研究下特征的归一化怎么来做。初步选用17个特征来做
2023年7月11日
删除信息严重不全的23人总样本数2608826111
2023年7月13日
完成训练
2023年7月14日
完成推理部分
2023年7月16日
增加样本平衡机制使用GPU训练优化代码结构增加必要打印输出信息
2023年9月25日
重新整理数据,确认数据的来源和完整的处理方式,主要问题是,数据有点多,记不住,最好是重新整理下处理数据源的程序
确定是Feature_Process_5.py:用来合并scl90的数据和离校记录和学业情况
确定是LR_Process_concat_sheet.py 来生成的离校记录single那个应该是读取excel文件时就只读了一个用的函数就有问题
确定是Study_Process_4_checked.py 来生成的学业情况应该是Academic_Data_Processing.py 在Study_Process_4_checked.py的基础上增加了对于错误姓名的判断
add_label_weight.py来处理的feature和label合并还没验证可以通过文件字节数验证已经加入了版本管理应该没有问题
综合整理下来前面重要的需要的程序已经在当时就加入了git管理没有问题。
2023年10月20日
按照幺爸上个周末的指导来进行修改
1. 换10个基本量10个基本量在输入进模型的时候需要先加权
已经完成修改整体准确率从原来的98%下降至95%,原来是强关联性
出现新问题,使用交叉熵损失函数自带的样本平衡机制,出来的效果要好一些,自己去乘权重再平均的方式要差一些,当然这里面就涉及到权重没有归一化,会收到更新率的影响了
2024年4月1日
1. 降低batch后不用归一化效果还行
2. chatgpt写了一种归一化方法可以试下不是minmaxscale那个那个可能会样本间
3. 无论如何拒绝样本间归一化
2024年4月2日
1. data下面的几个excel表没有改动只是为了方便pandas导入改了列名和sheet名
(psy_cpu) wangchunlin@Win11-Home:~/psychological_prediction$ python excel_compare.py
['编号', '性别', '年龄', '父亲教养方式', '父亲教养方式数字化', '母亲教养方式', '母亲教养方式数字化', '自评家庭经济条件', '自评家庭经济条件数字化', '心理治疗(咨询)史', '有无心理治疗(咨询)史数字化', '躯体化', '强迫症状', '人际关系敏感', '抑郁', '焦虑', '敌对', '恐怖', '偏执', '精神病性', '其他']
['编号', '性别', '年龄', '父亲教养方式', '母亲教养方式', '自评家庭经济条件', '心理治疗(咨询)史', '躯体化', '强迫症状', '人际关系敏感', '抑郁', '焦虑', '敌对', '恐怖', '偏执', '精神病性', '其他', '父亲教养方式数字化', '母亲教养方式数字化', '自评家庭经济条件数字化', '有无心理治疗(咨询)史数字化', '强迫症状数字化', '人际关系敏感数字化', '抑郁数字化', '多因子症状', '请假次数', '出勤情况数字化', '是否受过退学预警', '受过退学预警次数', '学业情况数字化']
工作表 Sheet1 的列名不同
两个 Excel 文件或其某些工作表内容不同
Changes not staged for commit:
(use "git add/rm <file>..." to update what will be committed)
(use "git restore <file>..." to discard changes in working directory)
modified: data/2020_2021_2.xlsx
modified: data/2021_2022_1.xlsx
modified: data/data_src.xlsx
modified: feature.xlsx
deleted: output_excel_file.xlsx
modified: record.txt
Untracked files:
2020_2021_2.xlsx和data/2021_2022_1.xlsx确定只改了列名sheet名重复了学生列
data/data_src.xlsx确认什么都没有动应该只是不小心点了保存
feature.xlsx列名不一样主要是加了“数字化”三个字
**重大意义提交commit c16c135dc4d073926c125693876cc9ce8a8b5df8**