当前位置: 首页 > 网络应用技术

Python处理250万个数据(2023年的最新答案)多长时间

时间:2023-03-05 21:06:05 网络应用技术

  简介:本文的首席执行官注释将介绍有关Python处理250万个数据处理的相关内容。我希望这对每个人都会有所帮助。让我们来看看。

  将200W数据保存到数据库中需要474秒,因为正常的38,000个数据仅需9秒,这需要200万个时间才能启动。

  【Python存储数据库速度】

  1.您需要将30,000个数据从文本读取到MySQL数据库。该文件用于@1 SQL语句,但发现在阅读过程中速度太慢。38,000个数据需要220秒。

  2.测试后,影响力的主要原因是commit(),因为它可以每隔几秒钟提交一次,但是由于提交的字符的长度受到限制,因此应设置合理的时间。

  3.更改后,编写38,000个数据只需要9秒

  查看特定收集任务的内容。如果是图片,则访问地址规范和熟悉的规则,即一两分钟,如果是一个复杂的网页,则负面的攀登规则可能需要半个小时,如果类似于天空眼睛检查和从Eyesthe整个公司的信息中爬升为10,000,可能需要一两天,因为公司需要n个更多信息

  大约三十秒。

  Python是一种更加解释,高级和一般的编程语言,它使用了更多的解释,高级和普遍的特征。它具有快速,高效率和高精度的特征。

  需要处理10,000件的哪种数据?数据和处理过程的复杂性将影响处理时间

  最近编写并运行了处理1500万个数据的程序。最初,每秒可以处理约150个数据。预计将在大约15小时内处理。结果可以在中午获得

  但是,当我第二天看到它时,IntersectionLintersectionnot完成了什么,当前的数据处理速度变为大约5秒钟,然后需要等待300小时。

  然后我检查了这个问题。事实证明,许多人在处理大数据时也遇到了这个问题。大多数文章分析了GC(垃圾回收)引起的性能下降的原因。

  Python垃圾回收机制的工作原理是维持每个对象的参考计数。必须修改每个内存对象的创建和破坏。因此,当创建大量对象时,执行大量的对象,额外的性能开销非常糟糕,有两种可能回收时间安排的可能性。一个是用户主动调用gc.collect(),另一个是对象的数量超过阈值。

  因此,GC正在降低该程序的性能,因此我们可以考虑禁止在处理时垃圾回收利用。

  改进后,速度将大大提高。但是,将存在另一个问题,内存溢出。由于在操作过程中生成了大量对象,因此使用后没有参考。由于垃圾回收机制已关闭,因此内存中没有清洁。记忆使用越来越大。解决方案是定期打开gc.enable()或关闭或主动致电GC.Collect(),因此没关系。

  在上述改进之后,该程序确实很多,但是我的程序越来越慢。我怀疑自己的生活,然后测试每个步骤上花费的时间。然后每个迭代结果将新数据添加到数据框架中。随着内部的数据越来越多,额外的速度变得越来越慢,严重阻力的速度是,这里有两个解决方案:

  将结果保存在1段中,将结果保存一次时间,最后再次合并结果。

  2更改数据存储方法。我使用Python词典直接保存结果。随着数据的增加,它也会放慢速度,但差异不是很大。它可以在可接受的范围内使用;也可以使用;也可以使用;也可以使用;也可以使用;或可以使用方法1,也可以将其保存在各节中。

  结论:以上是首席CTO注释收集的Python 250万个数据相关内容的相关内容。希望它对您有所帮助!如果您解决了问题,请与更多关心此问题的朋友分享?