每日一技能：用Python翻译HTML中的文本字符串

时间：2023-03-17 17:26:59 科技观察

相信大家都用过浏览器的翻译网页功能，比如下图中的英文网页：一键翻译成中文后，会像这样：你可能觉得这个函数很简单，不就是字符串替换吗？那么你可以尝试将下面的HTML片段中

标签下的英文翻译成中文。不要改变其他标签：

如果你想解析日期和时间，你可以使用datetime，通过使用这个库，你可以通过一行代码生成现在时间datetime.datetime.now()这么简单

标签中的datetime和标签中的datetime.datetime.now()不需要翻译.一拍脑袋，立马写了下面几行代码（假设你已经有现成的translate()函数，传入英文，输出中文）：fromlxml.htmlimportfromstringsource='''
如果你想解析日期和时间，你可以使用datetime，通过使用这个库，你可以通过一行代码生成现在时间datetime.datetime.now()这太简单了。
'''selector=fromstring(source)text_list=selector.xpath('//p/text()')fortextintext_list:chinese=translate(文)……写到这里，你应该愣了一下。因为你突然发现一个问题，怎么替换中文？不要试图去百度。在今天（2022-06-20）之前，全中文网都找不到解决办法。比较笨的方法是直接用文本替换原来的HTML字符串：fortextintext_list:chinese=translate(text)source=source.replace(text,chinese)但是这样效率很低。因为你必须不断地扫描整个HTML字符串。一般中型网站的HTML有几万行，几十万个字符。每次翻译一小段都需要替换全文，这会花费很长时间。有没有办法只替换当前
标签中的文本？关键问题来了，可以替换，但是如何不影响
标签下的两个子标签呢？确保文本和子标签的相对位置没有改变。如果
标签下只有一段文字，没有子标签，就很简单了，如下图：但是现在的问题是
标签下有三段文字.在每段文本之间插入额外的子标签。我们如何才能替换每段文本，但保持文本的相对顺序，并且不能影响子标签？p.text的写法可以先排除，因为它没有办法指定替换哪几段文字。你之所以觉得这个问题很难解决是因为你有错觉，请看上面的截图，我打印了text_list。打印出来的是一个包含字符串的列表。所以你可能会想。当用lxml编写XPath时，/text()总是返回一个包含字符串的列表。但实际上，返回列表中的元素并不是字符串，而是_ElementUnicodeResult对象。如下图所示：如果不是字符串就简单了，那么我们就可以得到每个文本对象的父标签。然后修改父标签下面的文字。看到这里，你肯定会问，这三个文本节点的父标签不都是一样的
吗？如果你这么认为，那么你就犯了一个错误，认为它是理所当然的。我们用代码看看：其实只有第一段文字的父标签是
。第二段文字的父标签原来是
的子标签。第三段文字的父标签是。等等，如果第二段文字的父标签是，那么datetime中datetime的父标签是什么？它的父标签也是！那么问题来了，的text()文本节点怎么会是datetime和
下的第二段文本呢？事实上，的text()始终是日期时间。如下图所示：那么，
的第二段文字和这个标签是什么关系呢？事实上，这种关系被称为tail。如下图所示：在一个标签中，只有第一段文字才是它真正的文字()。如果标签有子标签，则子标签后面的文字就是子标签的尾部。只是当我们在正则表达式中写/text()时，lxml会帮我们把所有子标签的尾部统计为当前标签的文本。我们可以使用文本节点的.is_text和.is_tail来确定它属于哪种文本。最终运行效果如下图所示：

上一篇：2018人工智能展望：8种方法彻底颠覆你的生活、工作和娱乐

下一篇：性能提升3.5倍，大连银行使用的天梭K1小型机

每日一技能：用Python翻译HTML中的文本字符串相关文章

酷狗耳机VS望仙兔，中秋“定情信物”你更喜欢哪一款？

索尼推出新一代可穿戴设备，支持黑科技语音指令

D1智能手表！一款可以代替自拍杆的手表

如何拍摄纯黑白照片？一台华为P20 Pro就够了

一加海外官方社区发起活动让用户为自己的新电视命名

谁和你一起跑步？最受网友欢迎的8款运动耳机

如果大数据要成为驱动多个行业发展的“引擎”，我们需要掌握哪些

家居风格-客厅装修，“舒适第一”是最重要的原则

微珠让您度过一个顺畅的夏天，飞利浦7000系列电动剃须刀专为

华为手表！这是唯一吸引眼球的款式

智能办公商选柯尼卡美能达bizhub 658e系列新款黑白多

新的学期，新的氛围，给自己来一杆小钢炮也好啊

美国科学家研发出一种新型纳米材料，可用于可穿戴电子领域

谷歌能否将其 VR 耳机的价格下调一半至 49 美元以重振市

康佳彩电华丽转型：科技驱动的科技能否创造电视的未来？

这是一款专为眼镜设计的可穿戴数码相机

【对比评测】小米和魅族耳机市场竞争！选择哪一边？

亚马逊发布新APP，让开发者一键部署物联网设备

澳大利亚极客的谷歌眼镜山寨品！买不到就自己做一个

苹果 Siri 或能识别多个用户，在声纹识别之路上更进一步

最新推荐

1有人想众筹开发一款监测屁的健康可穿戴设备

2除螨虫有用吗？那么它只是一个吸尘器吗？

3致力于可穿戴设备的续航能力，下一代电池会取代锂电池吗？

4网易AI负责人李晓燕！七年磨一剑，探索AR四大应用场景

5谷歌的硬件一直广受好评，但并不受欢迎，推出两款智能手表的底气

6科技在召唤！人工智能引发手机行业新一轮革命

7迪顶科技newifi雾计算入选“四川省优秀区块链产品及应用案

8一图看移动健康传感器蓬勃发展趋势

9难得一见的清华深度学习课程！我们“偷”了全套干货

10这一切都是例行公事吗？小米手环上线新功能

猜你喜欢

1可穿戴设备突破！只需改变“一点点”

2了解一下BOSE新款耳塞，内置10种不同的自然白噪音帮助睡眠

3高德地图汽车版3.2发布，个性化出行功能一应俱全

4小米电视出货量中国第一，掌门人王川！不涨价！

5蓝牙耳机和音箱无缝切换，不错过任何一个节拍

6天猫精灵销量突破300万台！全国排名第一

7虚拟现实产品需要多长时间才能像智能手机一样普及？

8人工智能开启新的销售态势，卡德曼一举突破销售瓶颈

9华为nova 3渐变色曝光，时尚与科技融为一体

10《凉生》该播出标志着TCL与代言人马天宇完美邂逅一周年！

11个人财务管家！ CASH，一款可以追踪开支的智能手表

12一位创业老手的自述！虚拟世界怎么玩？

13首批iPhone新用户网友评价褒贬不一！华为P20稳定！

14AI写诗靠谱吗？微软小冰出版新诗集，让人一头雾水

15大家都在追捧的VR是不是一个诱人的骗局？

16马云发表署名文章！不争“首富”，争“第一包袱”

17量子计算机有多可怕？一秒破译世界上所有密码！

18又一场AR旋风，你想了解AR头盔吗？

19远程控制移动设备？这个智能传感器你一定要好好看看

20钛技术！境内外双管齐下，出海会是下一个强劲增长点吗？