2023-6-15更新,已打包成可执行EXE文件。不需要单独安装环境。
语料内容清洗小工具功能介绍
1.批量解决训练语料编码非UTF-8(自动把编码统一转为UTF-8)
2.批量解决训练语料内容有各种html标签(自动过滤各种标签)
3.批量解决训练语料多余空格自动过滤。
4.批量解决统一规范训练语料格式要求。(整理除第一行标题外,第二行程序会处理成自动空行,第三行就是语料内容了)
5.批量处理语料的简易排版,实现每段前面都加两个空格。
6.增加了检测内容不符条件,当TXT内容少于100字中文时,直接过滤。(这种措施是防止有些位置的乱码,符号等无法过滤,导致TXT文本中没中文,就统一过滤掉)
6.更新加入报错处理,非常规问题异常报错文件单独保存到一份新的文件夹内,不进行处理。
7.更新优化处理逻辑。
声明:由于此工具并非AI项目配套必须品(人工完全自己也可以把控采集时把训练语料处理干净标准),此工具只为协助解决处理你的语料数据,提升使用者的方便,所以本工具需另收费。本工具仅限用于我们闪豚AI的训练语料批量处理。
优势介绍
使用本工具后,能全自动化高速处理训练语料,也就是说,你采集的语料只需采集的时候要把换行弄好,排版弄好就行。剩下的如果有多的各种html标签等,或者多的空格和换行。该工具都可以给你完美解决好。
暂定价格:98元(买断制)
生成的内容真不错
这个软件有优惠不
内容很实用
赞一个