当前位置: 首页 > 后端技术 > Python

Python库合集

时间:2023-03-25 23:50:54 Python

作者:小阿https://www.zhihu.com/questio...awesome-web-scraping中文版本文由伯乐在线-LynnShaw翻译,赖心涛校对。未经许可,禁止转载!英文来源:GregoryPetukhov。欢迎来到翻译团队。此列表包含用于网络抓取和数据处理Python库的通用urllib-网络库(stdlib)。requests-网络库。grab-一个网络库(基于pycurl)。pycurl-网络库(绑定到libcurl)。urllib3–PythonHTTP库、安全连接池、支持文件发布、高可用性。httplib2-网络库。RoboBrowser-一个简单、非常Pythonic的Python库,无需单独的浏览器即可浏览网页。MechanicalSoup-一个用于自动与网站交互的Python库。mechanize-一个有状态的、可编程的网络浏览库。socket-低级网络接口(stdlib)。UnirestforPython-Unirest是一组轻量级HTTP库,可用于多种语言。hyper-Python的HTTP/2客户端。PySocks-更新并积极维护的SocksiPy版本,包括错误修复和一些其他功能。作为插座模块的直接替代品。异步treq-类似于请求的API(基于扭曲)。aiohttp-异步的HTTP客户端/服务器(PEP-3156)。wgetpython版wgetonlinux网络爬虫框架全功能爬虫抓取-网络爬虫框架(基于pycurl/multicur)。scrapy-网络爬虫框架(基于twisted),不支持Python3。pyspider-一个强大的爬虫系统。cola-分布式爬虫框架。Otherportia-基于Scrapy的可视化爬虫。restkit-Python的HTTP资源工具包。它允许您轻松访问围绕它构建的HTTP资源和对象。demiurge-基于PyQuery的爬虫微框架。HTML/XMLParserGenericlxml-用C语言编写的高效HTML/XML处理库。支持XPath。cssselect-解析DOM树和CSS选择器。pyquery-解析DOM树和jQuery选择器。BeautifulSoup-低效的HTML/XML处理库,用纯Python实现。html5lib-根据WHATWG规范生成HTML/XML文档的DOM。此规范用于所有现代浏览器。feedparser-解析RSS/ATOM提要。MarkupSafe-为XML/HTML/XHTML提供安全的转义字符串。xmltodict-一个Python模块,可让您像处理JSON一样处理XML。xhtml2pdf-将HTML/CSS转换为PDF.untangle-轻松将XML文件转换为Python对象。CleanBleach-清理HTML(需要html5lib)。sanitize-使混乱的数据世界变得清晰。用于解析和操作简单文本的文本处理库。通用difflib-(Python标准库)帮助进行差异比较。Levenshtein-快速计算Levenshtein距离和字符串相似度。fuzzywuzzy-模糊字符串匹配。esmre-正则表达式加速器。ftfy-自动整理Unicode文本以减少碎片。Convertunidecode-将Unicode文本转换为ASCII。字符编码uniout-打印人类可读的字符而不是转义字符串。chardet-Python2/3兼容字符编码器。xpinyin-将汉字转换为拼音的库。pangu.py-格式化文本中的CJK和字母数字间距。Slugifyawesome-slugify-一个保留unicode的Pythonslugify库。python-slugify-将Unicode转换为ASCII的Pythonslugify库。unicode-slugify-一种生成Unicodeslug的工具。pytils-用于处理俄语字符串的简单工具(包括pytils.translit.slugify)。UniversalParserPLY-lex和yacc解析工具的Python实现。pyparsing-通用框架的生成解析器。人名python-nameparser-用于解析人名的组件。phonenumbersphonenumbers-解析、格式化、存储和验证国际电话号码。用户代理字符串python-user-agents-浏览器用户代理的解析器。HTTPAgentParser-Python的HTTP代理解析器。BISynthesisSupersetSuperset最初是在http://Druid.io的基础上设计的,但通过使用SQLAlchemy这一与大多数常见数据库兼容的PythonORM,迅速扩展了它的范围以支持其他数据库。pyecharts百度echartspython版图表[matplotlib][seaborn]map[folium][geoplot][geopandas][fiona]CLIProgressbarCLI显示一个文本进度条:60%|################################################################################################################|文本进度条bashplotlib终端绘制基础图形Prettytable终端绘制表格特定格式文件处理库,用于解析处理特定文本格式。通用tablib-用于将数据导出到XLS、CSV、JSON、YAML等的模块。textract-从各种文件(如Word、PowerPoint、PDF等)中提取文本。messytables-用于解析混乱表格数据的工具。行-支持多种格式的通用数据接口(目前支持CSV、HTML、XLS、TXT-将来会提供更多!)。Officepython-docx-读取、查询和修改MicrosoftWord2007/2008docx文件。xlwt/xlrd-从Excel文件读取和写入数据和格式信息。XlsxWriter-用于创建Excel.xlsx文件的Python模块。xlwings-一个BSD许可的库,可以很容易地从Excel中调用Python,反之亦然。openpyxl-用于读写Excel2010XLSX/XLSM/xltx/XLTM文件的库。Marmir-提取Python数据结构并将它们转换为电子表格。PDFPDFMiner-从PDF文档中提取信息的工具。PyPDF2-一个能够拆分、合并和转换PDF页面的库。ReportLab-允许快速创建丰富的PDF文档。pdftables-直接从PDF文件中提取表格。MarkdownPython-Markdown-JohnGruber的Markdown的Python实现。Mistune-最快、功能齐全的Markdown纯Python解析器。markdown2-完全用Python实现的快速Markdown。YAMLPyYAML-用于Python的YAML解析器。CSScssutils-Python的CSS库。ATOM/RSSfeedparser-通用提要解析器。SQLsqlparse-非验证SQL语句解析器。HTTPhttp-parser-用C语言实现的HTTP请求/响应消息解析器。microformatsopengraph-用于解析OpenGraph协议标签的Python模块。可移植可执行文件-用于解析和操作可移植可执行文件(或PE)的多平台模块。PSDpsd-tools-将Adob??ePhotoshopPSD(又名PE)文件读入Python数据结构。用于处理人类语言问题的自然语言处理库。NLTK-编写Python程序来处理人类语言数据的最佳平台。Pattern-Python的网络挖掘模块。他拥有用于自然语言处理、机器学习等的工具。TextBlob-为深入的自然语言处理任务提供一致的API。它是站在巨人的肩膀上基于NLTK和Pattern开发的。jieba-中文分词工具。SnowNLP-中文文本处理库。loso-另一个中文分词库。genius-基于条件随机场的中文分词。langid.py-独立的语言识别系统。Korean-韩国形态学库。pymorphy2-俄罗斯词法分析器(词性标注+词形变化引擎)。PyPLN-用Python编写的分布式自然语言处理管道。该项目的目标是创建一种使用NLTK通过Web界面处理大型语言库的简单方法。机器学习Scikit-learnPyMC浏览器自动化和模拟Selenium-自动化真实浏览器(Chrome、Firefox、Opera、IE)。Ghost.py-PyQt的webkit的包装器(需要PyQT)。Spynner-PyQt的webkit包装器(需要PyQT)。Splinter-通用API浏览器模拟器(selenium网络驱动程序、Django客户端、Zope)。多处理线程-Python标准库的线程。适用于I/O密集型任务。由于pythonGIL,对于CPU绑定任务无用。multiprocessing-用于运行多个进程的标准Python库。celery-基于分布式消息传递的异步任务队列/作业队列。concurrent-futures–concurrent-futures模块为调用异步执行提供了一个高级接口。asyncio-(Python3.4+中的Python标准库)异步I/O、时间循环、协程和任务。Twisted-一个事件驱动的网络引擎框架。Tornado-网络框架和异步网络库。pulsar-Python的事件驱动并发框架。diesel-用于Python的基于绿色事件的I/O框架。gevent-使用greenlets的基于协程的Python网络库。eventlet-支持WSGI的异步框架。明天-用于异步代码的神奇修饰语法。Queue-celery-基于分布式消息传递的异步任务队列/作业队列。huey-小型多线程任务队列。mrq-Mr.Queue-使用redis和Gevent的Python分布式作业队列。RQ-基于Redis的轻量级任务队列管理器。simpleq-一个简单的、无限可扩展的、基于AmazonSQS的队列。python-gearman-Gearman的PythonAPI。云计算picloud-在云中执行Python代码。dominoup.com-在云中执行R、Python和matlab代码。EmailEmailParsingLibraryflanker-电子邮件地址和Mime解析库。Talon-Mailgun库,用于从消息中提取引号和签名。URL和网址操作解析/修改URL和网址库。URLfurl-一个小型Python库,可简化URL操作。purl-一个简单的不可变URL和一个用于调试和操作的干净API。urllib.parse–用于将组件(寻址方案、网络位置、路径等)之间的统一资源定位器(URL)字符串转换为绝对URL,称为“基本URL”。tldextract-使用通用后缀列表从URL的注册域和子域中准确分离TLD。netaddr-用于显示和操作网络地址的Python库。WebContentExtraction用于提取Web内容的库。HTML页面的文本和元数据报纸-Python中的新闻提取、文章提取和内容管理。html2text-将HTML转换为Markdown格式的文本。python-goose-HTML内容/文章提取器。lassie-一个用户友好的网络内容检索工具micawber-一个用于从URL中提取丰富内容的小型库。sumy-一个自动总结文本文件和HTML网页的模块Haul-一个可扩展的图像爬虫。python-readability-arc90可读性工具的快速Python接口。scrapely-一个用于从HTML网页中提取结构化数据的库。给出一些网页示例和数据提取,scrapely为所有类似的网页构建一个分析器。video-youtube-dl-一个从YouTube下载视频的小型命令行程序。you-get-适用于Python3的YouTube、优酷/Niconico视频下载器.WikisWikiTeam-用于下载和保存wiki的工具。WebSocketWebSocket的库。Crossbar-开源应用程序消息传递路由器(用于高速公路的WebSocket和WAMP的Python实现)。AutobahnPython-提供WebSocket协议和WAMP协议的Python实现,并且是开源的。WebSocket-for-Python-用于Python2和3以及PyPy的WebSocket客户端和服务器库。DNS解析dnsyo-在全球1500多个DNS服务器上检查您的DNS。pycares-与c-ares的接口。c-ares是一个用于DNS请求和异步名称解析的C库。ComputerVisionOpenCV-开源计算机视觉库。SimpleCV-相机介绍、图像处理、特征提取、格式转换、可读界面(基于OpenCV)。mahotas-快速计算机图像处理算法(完全用C++实现),完全基于numpy数组作为其数据类型。其他Python工具列表awesome-pythonpycrumbspython-github-projectspython_refeTenacity任务异常后自动重试Delorean日期时间库ShSh允许您将shell命令作为函数导入Python