pyspark读取csv

时间：2023-03-26 12:47:32 Python

pyspark读取csv中的数据。csv有一个标题。表头中有两列，列名分别为：bd、tt。frompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimport*frompyspark.sql.typesimportStructType,StructField,IntegerType,StringTypedefrun():spark=SparkSession\.builder\.appName("read_csv")\.getOrCreate(复制代码)\\#定义模式schema=StructType([StructField('bd',StringType(),True),StructField('tt',StringType(),True)],)df=spark.read.csv(r"map.csv",schema=schema,encoding='utf-8',header=True)#header表示数据第一行是否为列名，inferSchema表示schema是自动推断的，并没有指定schema这次df=df.select("bd","tt")rows=df.collect()forrowinrows:result[row['bd']]=row['tt'].split(";")分析()if__name__=='__main__':run()

上一篇：在Dockerfile中优雅地激活virtualenv

下一篇：AbstractPlugin

pyspark读取csv相关文章

Java如何使用HBase API读取所有表的数据
如何从HBase中读取数据？一文带你了解HBase的数据读取
HBase读取数据的过程和原理分析
Hive如何高效地读取Hbase中的数据
HBase文件为什么比CSV文件大得多？
HBase如何高效地读取数据：从流程图到原理
Scala如何高效地从HBase中读取数据
HBase如何实现高效的随机读取
HBase如何导入CSV格式的数据
HBase数据读取的原理和步骤
HBase数据库如何高效地读取数据
HBase如何实现高效的数据读取
HBase如何高效地读取数据
如何使用Java API从HBase中读取和写入数据
如何使用mongodb存储和读取图片文件
MongoDB如何高效地存储和读取图片和文件
MongoDB如何提高并发读取的效率和准确性
MongoDB数据库的读取原理和方法
如何使用mongoexport命令导出MongoDB中的所有
Python如何高效地从MongoDB中读取数据