问题一:预载模型不完整。
OSError: Unable to load weights from pytorch checkpoint file for '
C:\...\Stdownload\train_model\pytorch_model.bin' at '
C:\...\Stdownload\train_model\pytorch_model.bin'.
If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True.
如果刚开始点击训练,就报错遇到这种,看到:Stdownload\train_model\pytorch_model.bin这个字段,就说明是预载模型不完整。
解决方案:使用官网缓存清理工具,对闪豚软件全面的清理缓存,重新从中央验证服务器预载模型权重。
工具下载地址:https://www.stunai.cn/app/69618.html
问题二:显存不足导致的闪退或终止训练报错。
【闪豚Ai】训练出错319!错误信息:
CUDA out of memory. Tried to allocate 12.00 MiB
(GPU 0; 23.99 GiB total capacity; 11.95 GiB already allocated; 10.36 GiB free; 11.96 GiB reserved in total by PyTorch)
当看到报错信息:CUDA out of memory.等关键信息,就说明是显存不足导致的。
显存不足导致的原因有很多,不好解决,可能是其他应用占用,也有可能是显卡的CUDA驱动,没来得及自己清理缓存,导致模型训练的时候,缓存得不到释放,就导致显存不足,训练终止了。
初步解决方案一:
初始训练的时候,用强制清理JSON工具,清理一遍你的训练JSON数据文件。
工具下载:https://www.stunai.cn/app/69557.html
初步解决方案二:
训练界面中,默认Max_len参数是:900,可以调整更小,比如800,700。
初步解决方案三:
save_steps参数和logging_steps参数不要设置太大,保持默认10000即可。过多的模型生成出来,可以手动删除旧的模型文件夹,保留最新的3~5个模型文件夹即可。或者等系统默认会根据硬盘设置的大小自动删除旧的模型。
问题三:继续训练刚开始的报错。
【闪豚Ai】训练出错319!错误信息:
Unable to load weights from pytorch checkpoint file for '
.../checkpoint-xxxxx\pytorch_model.bin'
at '.../checkpoint-xxxxx\pytorch_model.bin'.
If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True.
checkpoint-xxxxx:后面的XXX代表的是数字。
当继续训练,遇到报错信息是:.../checkpoint-xxxxx\pytorch_model.bin,说明这个模型损坏,需要删除这个模型,再重新继续训练即可。
原因是:没有在这个模型文件夹下,找到可用完整的模型和可继续训练的记忆模型。
问题四:继续训练却提醒模型训练完成
当继续训练的时候,却没达到最终步数,却提示“模型训练完成”,这个是因为,模型机制判定问题,因为接近最后的训练次数,没有完整的一个Epoch轮次,所以会提醒“模型训练完成”。
解决方法:增大你的训练次数,就可以解决。比如原本是10次,继续训练的时候提醒“模型训练完成”,则你可以增加到15次,20次。
其他训练报错问题,后续完善补充
生成过程中遇到的报错问题
生成问题一:list index out of range
批量生成中,当点击生成后,出现:
[闪豚Ai] 生成出错,数据标题: xxxxx!错误信息: list index out of range
说明是你的生成数据表没按标准处理,标准的生成数据表如下格式:
每行一条数据,前面是标题,### 号后是正文的起始句。
生成问题二:点击生成后,就闪退
遇到这个问题,80%是因为你模型路径有中文,一定要切记,模型路径不能有中文,把中文改成拼音或者其他英文即可解决。
生成问题三:生成一段时间后,闪退
百分之八十也是因为显存不足,当你开了多个生成任务,每个生成任务会占用4~6G左右的显存,显存的占用也会随着字数的长短而变化。如果多个生成任务,开了一段时间后,就闪退了,基本就是显存不足导致的。
减少生成任务窗口或者软件的多开,就能解决。
建议是每一个生成任务单独开一个软件,避免使用软件自带的窗口1~5来生成,每单独一个软件生成,能更好的控制任务。
666666
学习到了