当前位置: 首页 > 网络应用技术

150,000个数据处理Python(2023年的最新饰面)需要多长时间

时间:2023-03-05 23:23:58 网络应用技术

  指南:本文的首席执行官注释将介绍Python的相关内容,以了解处理大约150,000个数据的数据处理多长时间。我希望这对每个人都会有所帮助。让我们来看看。

  大约三十秒。

  Python是一种更加解释,高级和一般的编程语言,它使用了更多的解释,高级和普遍的特征。它具有快速,高效率和高精度的特征。

  最近编写并运行了处理1500万个数据的程序。最初,每秒可以处理约150个数据。预计将在大约15小时内处理。结果可以在中午获得

  但是,当我第二天看到它时,IntersectionLintersectionnot没完成什么,当前的数据处理速度将变为5秒钟,然后需要等待300小时。

  然后我检查了这个问题。事实证明,许多人在处理大数据时也遇到了这个问题。大多数文章分析了GC(垃圾回收)引起的性能下降的原因。

  Python垃圾回收机制的工作原理是维持每个对象的参考计数。必须修改每个内存对象的创建和破坏。因此,当创建大量对象时,执行大量的对象,额外的性能开销非常糟糕,有两种可能回收时间安排的可能性。一个是用户主动调用gc.collect(),另一个是对象的数量超过阈值。

  因此,GC正在降低该程序的性能,因此我们可以考虑禁止在处理时垃圾回收利用。

  改进后,速度将大大提高。但是,将存在另一个问题,内存溢出。由于在操作过程中生成了大量对象,因此使用后没有参考。由于垃圾回收机制已关闭,因此内存中没有清洁。记忆使用越来越大。解决方案是定期打开gc.enable()或关闭或主动致电GC.Collect(),因此没关系。

  在上述改进之后,该程序确实很多,但是我的程序越来越慢。我怀疑自己的生活,然后测试每个步骤上花费的时间。然后每个迭代结果将新数据添加到数据框架中。随着内部的数据越来越多,额外的速度变得越来越慢,严重阻力的速度是,这里有两个解决方案:

  将结果保存在1段中,将结果保存一次时间,最后再次合并结果。

  2更改数据存储方法。我使用Python词典直接保存结果。随着数据的增加,它也会放慢速度,但差异不是很大。它可以在可接受的范围内使用;也可以使用;也可以使用;也可以使用;也可以使用;或可以使用方法1,也可以将其保存在各节中。

  查看特定收集任务的内容。如果是图片,则访问地址规范和熟悉的规则,即一两分钟,如果是一个复杂的网页,则负面的攀登规则可能需要半个小时,如果类似于天空眼睛检查和从Eyesthe整个公司的信息中爬升为10,000,可能需要一两天,因为公司需要n个更多信息

  将200W数据保存到数据库中需要474秒,因为正常的38,000个数据仅需9秒,这需要200万个时间才能启动。

  【Python存储数据库速度】

  1.您需要将30,000个数据从文本读取到MySQL数据库。该文件用于@1 SQL语句,但发现在阅读过程中速度太慢。38,000个数据需要220秒。

  2.测试后,影响力的主要原因是commit(),因为它可以每隔几秒钟提交一次,但是由于提交的字符的长度受到限制,因此应设置合理的时间。

  3.更改后,编写38,000个数据只需要9秒

  结论:以上是首席CTO注释对150,000个数据处理提出的Python的全部内容。我希望这对每个人都会有所帮助。如果您仍然想了解有关此信息的更多信息,请记住收集并关注此网站。