当前位置: 首页 > 后端技术 > Python

图片分类-小白的苦难课程

时间:2023-03-26 17:18:48 Python

图片分类的目的是从数据源获取最新的图片,使用第三方服务识别文字图片,得到8W张图片,包括4W张文字图片和4W张非文字图片图片;图像预处理数据量小:将图像转换数据压缩成zip文件;或将图像压缩成csv文件;数据量大:1)RGB等统一图像格式,该数据中有灰度图,需要转为RGB文件;2)统一图像维度方法1:压缩图像;方法二:保持图片的原始比例,有空就补空;3)将图像转换为tfrecord文件a.将图像转换成单通道数据;b.数据存储格式:dict[img_raw,label],训练集train.tfrecord,测试集test.tfrecord使用tfrecord文件比直接读取图片更快;CNN训练图片输入数据:1)训练集7W,包括3.5W大字报,3.5W非大字报;2)测试集1W,包括5K大字报和5K非大字报;3)图片形状(-1,28,28,1)单通道卷积参数:1)卷积核大小=5*5,步长=1;2)池化核大小=2*2,步长=2,池化方式=最大池化;3)激活函数:RELU;4)损失函数:交叉熵损失函数;5)经过两层网络,shuffle=true,batch_size=64trainingeffect训练效果:WPAI环境下,图片维度为28维,迭代次数为1001次。accuracy=0.953125700accuracy=0.953125800accuracy=0.90625900accuracy=0.906251000accuracy=0.953125当图片维度=112时,平均准确率=0.55;问题总结