当前位置: 首页 > 后端技术 > Python

大众点评-字体词典生成(二)

时间:2023-03-25 21:58:01 Python

紧接着上一篇介绍了字体加密中字体文件与页面源代码的对应关系。要获取数据,还需要字典!pycharm的运行,一打开就凶猛如虎。1.获取页面源码,提取css链接2.下载四种标签对应的woff文件,打开康康。两个文件中的字体是一样的,只是编码不同。也就是说,加密字体只有600多种。3、woff转xml直接woff文件python不好操作,先用fontTools转xml文件fromfontTools.ttLibimportTTFontfont=TTFont('./font_files/'+woff_file_name+'.woff')font.saveXML('./font_files/'+woff_file_name+'.xml')生成后随便打开一个xml,看GlyphID标签的名字。GlyphID标签的名称就是代码(GlyphID的顺序和你在woff文件中看到的字体顺序是一样的)TTGlyph标签就是每个字体的样式(需要注意的是这个顺序与GlyphID的顺序不同,只能按名称返回)4.真实文字获取写一个简单的vue,用同样的操作渲染出来所有字体和百度图片识别供检查(正则字形100%准确率然后你会得到所有python能识别的文本!!现在你有三段信息:partA:GlyphID标签名称中的代码partB:TTGlyph标签的所有内容partC:与编码顺序一致的文本以百度图片识别的GlyphID标签为名,每天使用同一套woffs(每组woffs中的code都不一样),所以为了可持续发展,你可以快速建立一个新的code和text对应的字典必要的。你还需要tartwithpartB,partB和partA可以映射,partA和partC可以映射,所以C和B可以映射,partB(字形)每次都不变,文字也不变。最后,您构建的是字形和文本之间的对应关系,这使您能够更改代码。快速获取最新编码和文本对应的新词典。5.字形与文字的对应关系和存储。name属性中的文字)成功存入数据库(字体md5和对应的文字)然后writearead根据字形md5-text生成数据库,生成code-text字典。新词典测试成功,对应照片拍摄成功。其他更精细的处理细节不再一一提及。源码放在github上,需要的可以自行获取!↓完整代码下期有时间再说另一种字体加密!