Python处理250万个数据（2023年的最新答案）多长时间

时间：2023-03-05 21:06:05 网络应用技术

　　简介：本文的首席执行官注释将介绍有关Python处理250万个数据处理的相关内容。我希望这对每个人都会有所帮助。让我们来看看。

　　将200W数据保存到数据库中需要474秒，因为正常的38,000个数据仅需9秒，这需要200万个时间才能启动。

　　【Python存储数据库速度】

　　1.您需要将30,000个数据从文本读取到MySQL数据库。该文件用于@1 SQL语句，但发现在阅读过程中速度太慢。38,000个数据需要220秒。

　　2.测试后，影响力的主要原因是commit（），因为它可以每隔几秒钟提交一次，但是由于提交的字符的长度受到限制，因此应设置合理的时间。

　　3.更改后，编写38,000个数据只需要9秒

　　查看特定收集任务的内容。如果是图片，则访问地址规范和熟悉的规则，即一两分钟，如果是一个复杂的网页，则负面的攀登规则可能需要半个小时，如果类似于天空眼睛检查和从Eyesthe整个公司的信息中爬升为10,000，可能需要一两天，因为公司需要n个更多信息

　　大约三十秒。

　　Python是一种更加解释，高级和一般的编程语言，它使用了更多的解释，高级和普遍的特征。它具有快速，高效率和高精度的特征。

　　需要处理10,000件的哪种数据？数据和处理过程的复杂性将影响处理时间

　　最近编写并运行了处理1500万个数据的程序。最初，每秒可以处理约150个数据。预计将在大约15小时内处理。结果可以在中午获得

　　但是，当我第二天看到它时，IntersectionLintersectionnot完成了什么，当前的数据处理速度变为大约5秒钟，然后需要等待300小时。

　　然后我检查了这个问题。事实证明，许多人在处理大数据时也遇到了这个问题。大多数文章分析了GC（垃圾回收）引起的性能下降的原因。

　　Python垃圾回收机制的工作原理是维持每个对象的参考计数。必须修改每个内存对象的创建和破坏。因此，当创建大量对象时，执行大量的对象，额外的性能开销非常糟糕，有两种可能回收时间安排的可能性。一个是用户主动调用gc.collect（），另一个是对象的数量超过阈值。

　　因此，GC正在降低该程序的性能，因此我们可以考虑禁止在处理时垃圾回收利用。

　　改进后，速度将大大提高。但是，将存在另一个问题，内存溢出。由于在操作过程中生成了大量对象，因此使用后没有参考。由于垃圾回收机制已关闭，因此内存中没有清洁。记忆使用越来越大。解决方案是定期打开gc.enable（）或关闭或主动致电GC.Collect（），因此没关系。

　　在上述改进之后，该程序确实很多，但是我的程序越来越慢。我怀疑自己的生活，然后测试每个步骤上花费的时间。然后每个迭代结果将新数据添加到数据框架中。随着内部的数据越来越多，额外的速度变得越来越慢，严重阻力的速度是，这里有两个解决方案：

　　将结果保存在1段中，将结果保存一次时间，最后再次合并结果。

　　2更改数据存储方法。我使用Python词典直接保存结果。随着数据的增加，它也会放慢速度，但差异不是很大。它可以在可接受的范围内使用；也可以使用；也可以使用；也可以使用；也可以使用；或可以使用方法1，也可以将其保存在各节中。

　　结论：以上是首席CTO注释收集的Python 250万个数据相关内容的相关内容。希望它对您有所帮助！如果您解决了问题，请与更多关心此问题的朋友分享?

Python处理250万个数据（2023年的最新答案）多长时间相关文章