当前位置: 首页 > 科技观察

用Python写爬虫很low?你同意?

时间:2023-03-17 19:46:36 科技观察

之前换了工作,不再是纯web开发了。真的有很多东西要学。入职第一天就让我写一个爬虫,但是这个爬虫并没有采集亿级数据的业务场景。于是,理清需求,简单设计下一个方案,草草开始。小B是我大学的室友。那天,这哥们请我吃饭,想看看能不能顺便介绍几个妹子。喝了三巡,实在喝不下去了,就聊聊最近的工作。当他知道我其实是在写爬虫的时候,他觉得我很可怜,觉得我怀才不遇。看来写爬虫是个很低级、技术含量很低的工作。在他的公司,招的实习生都或多或少擅长爬虫,比如nodejs,golang,哪一个都不是爬虫的好手。没想到毕业多年,沦落到实习生的岗位,好难过。然后建议我转投Java阵营。如果我去他的公司,我或多或少能拿到组长的位置。我只能苦笑。不知从什么时候开始,鄙视链在程序员的世界里流行起来了。写C语言的鄙视写C++,写C++的鄙视写Java,最后鄙视链条的最底层是PHP。具体是什么关系,就不赘述了。但是放眼整个行业,都说Python火了。有多火,看培训机构的广告就知道了。16年前,Python还是一个鲜为人知的词。之后各种培训机构铺天盖地的广告,大数据、自动化运维等,都与Python有关。研究生工资都到了50-100W,还招不到人。更有意思的是,学习Python最简单的方法就是写爬虫。必学的Scrapy和Pysider,HTML和Javascript是重点,几个豆瓣和花瓣网的实战案例,让你一下子解决企业的刚需。这样一来,难怪连实习生都能跟你抢饭碗了。技术发展太快,各种框架的结果就是释放人力,降低成本。据我所知,Python的优势集中在数据分析和信息安全领域。你可能听说过Hadoop、Spark、Tensorflow这些高端术语,但你可能从来没有听说过数据取证、DLL注入等。举个简单的例子,在数据取证中,因为不法分子不配合在检查机构的工作中,我们可以通过数据取证技术提取一些信息,以协助确认其犯罪记录,例如获取系统密码、浏览器中的帐号和密码。听起来很宏大,但是如果我告诉你流程是针对sqlite3文件数据库查询SQL,不知道你是不是瞬间觉得上面的取证例子很low。但是,当你不小心把微信消息的图片删了,想找回来的时候,也许你可以在Python中找到对应的解决方案,但是其他语言还没找到合适的。于是,我就安慰他说,做完这一波爬虫操作,接下来就是数据分析,你觉得有没有前进一步?数据分析,恰恰相反,你想的很远。小B打断我,你以为人家会让你做数据分析,没有数据哪来分析。此外,没有公司愚蠢到将其所有数据暴露在互联网上。你所能看到的只是冰山一角。即使你想再深入,没有分布式技术支持和亿级数据业务,你的简历也没有亮点。然后,说到他公司最近招了一个大数据开发,工资比他高很多,但是技术不行。我从B的话中听出了一丝不屑。所以,我鼓励我不要再做爬虫了,Spark我还是有前途的。不用担心服务半夜挂掉,也不用担心无法完成采集数量。完全是真实数据,何乐而不为呢?听了这话我有点动心,没有比较就没有坏处。但是一想到Java是在加班,就放弃了这个想法。不知道该说什么,只觉得时间过得很慢,是一种煎熬。所以只能转移话题了,免得吃个苦头。结语没有低或低的技术,没有不好的技术,只有不会用的人。重要的是人家能给你多少钱,你能取得什么样的成绩。这年头有多少公司愿意给实习生开个税后10000+的月薪,而且这些都是养活自己的技能,别把面子看得太重。