处理大数据文件的方案-【官方】百战程序员_IT在线教育培训机构_体系课程在线学习平台

目录

百战程序员，全站22050+开发课程+文档，学习精选优质好课快人一步！观看视频快捷键ALT+N

Python全系列教程

3567个小节阅读：5931.5k

赞

收藏

全部开发者教程

目录

143_申请评分卡3031

29_Mysql

数据结构与算法

01_Python入门

02_编程的基本概念

05_控制语句

06_函数用法和底层分析

07_面向对象基础

08_面向对象进阶

09_异常机制

12_GUI编程（选学）

13_项目开发实例（选学）

14_pygame模块操作

16_并发编程（线程、进程、协程）

17_网络编程

21_正则表达式

22_Python新特性汇总

23_源码深度剖析和内存管理

25_统计学基础

26_Django初级

28_tornado项目

31_Hadoop 离线体系：Hive

32_Hadoop 分布式文件系统HDFS

34_电商大数据

35_Git的使用

36_docker容器扩展

37_Redis

38_深度学习-认识深度学习_PyTorch入门

39_神经网络基础

40_卷积神经网络（CNN）

41_迁移学习

43_CNN目标检测

42_生成对抗网络_GAN

44_循环神经网络与NLP

46_scrapy框架使用

47_爬虫基础

49_移动端爬虫

50_爬虫反反爬

51_办公自动化

52_算法与数据结构

53_数据可视化PowerBI

56_Flask视图高级

58_机器学习预备知识

59_KNN与交叉检验

61_线性回归与梯度下降法

62_逻辑回归与Softmax回归

63_多项式回归、过拟合、模型正则化

64_分类算法的评价

65_KMeans聚类与降维算法

67_SVM与朴素贝叶斯算法

68_Kaggle竞赛

69_SPSS

70_HTML5

71_二手车价格预测

72_旅游景点票价预测

73_工资分类预测

74_广告点击转化率预测

75_文本分类-自然语言处理

76_音乐推荐系统

77_银行客户流失分析

78_申请评分卡

80_JavaScript语言

81_基础知识

82_描述统计

83_抽样分布

84_参数估计

85_假设检验

86_方差分析

87_协方差与相关系数

88_非参数方法

89_线性回归

93_Django项目阶段-电商项目

96_Linux操作系统概述与安装

97_Linux常用命令

98_python操作mysql

98_Linux用户权限和软件安装与管理

99_Django初级

100_Django中级

101_Django高级

102_SPSS

103_智能推荐系统

104_关联规则分析与Apriori算法

105_Gensim与LDA主题模型

106_Git

107_Flask百战电商后台项目

111_数据获取函数

109_量化交易概论

110_量化交易平台

112_量化选股

113_量化择时

114_量化策略的机器学习算法运用

115_量化交易策略的回测

116_量化交易策略的因子

117_量化交易策略实战

118_电商大数据购买行为分析项目

119_数据分析_数学知识

120_Anaconda环境搭建

121_Linux 环境编程基础

122_项目-音乐播放器

127_Pandas基本使用3015

128_Python开发环境搭建

129_内存管理

130_Django项目3018

131_docker容器扩展

133_数据分析案例_案例2_电影数据分析3021

134_数据分析案例_案例3_机场延迟分析

135_数据分析案例_案例1_足球数据分析

136_二手车价格预测

137_旅游景点票价预测

138_工资分类预测

139_广告点击转化率预测

140_文本分类-自然语言处理

141_音乐推荐系统

142_银行客户流失分析

鸿蒙应用开发

C语言快速入门

JAVA全系列教程

面向对象的程序设计语言

Python全系列教程

Python3.x版本，未来主流的版本

人工智能教程

顺势而为，AI创新未来

大厂算法教程

算法，程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务教程

目前业界流行的框架组合

web前端全系列教程

通向WEB技术世界的钥匙

大数据全系列教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(448)

赞(0)

大数据文件的处理

超大数据文件在使用 pandas 进行处理时可能需要考虑两个问题：读取速度，内存用量。

处理方案

逐块读取：将文件拆分为较小的块，并逐块读取和处理数据。可以使用 Pandas 的 read_csv() 方法的 chunksize 参数来实现逐块读取。这样可以减少内存占用，但需要注意在处理完每个块后及时释放内存


xxxxxxxxxx
import pandas as pd
#使用 chunksize 参数

dftmp = pd.read_csv('stu_data.csv', usecols = [0,2,3,4,5,6,7], chunksize = 5) 

type(dftmp) # 注意得到的并不是一个数据框，而是 TextFileReader 

n = 0 
for item in dftmp: # 注意重复运行之后的效果 
    print(item) 
    n += 1 
    if n > 2: 
        break

使用迭代器：使用迭代器来逐行或逐块读取数据，而不是一次性加载所有数据到内存中。可以使用 Pandas 的 read_csv() 方法的 iterator=True 参数来创建迭代器，并使用 get_chunk() 方法逐步读取数据块


xxxxxxxxxx
dftmp = pd.read_csv('stu_date.csv', usecols = [0,2,3,4,5,6,7], iterator = True) 

type(dftmp) # 注意得到的并不是一个数据框，而是 TextFileReader 

dftmp.get_chunk(10) # 注意重复运行之后的效果

数据预处理：在读取数据之前进行预处理，可以降低内存占用。可以使用 Pandas 的数据类型转换方法，如 astype()，将数据类型转换为占用更少内存的类型，例如将浮点数转换为整数，将字符串转换为分类类型等


xxxxxxxxxx
data = pd.DataFrame({
    "a":[0,1, 2, 3, 4, 5, 6, 7, 8, 9], 
    "b":["祖安狂人","祖安狂人","冰晶凤凰","冰晶凤凰", "祖安狂人","祖安狂人","祖安狂人","冰晶凤凰", "冰晶凤凰","祖安狂人"]}) 

print(data) 
data.info() 

data['a'] = data['a'].astype('int8')
data.info()

其它方案

分布式计算：如果单台机器的内存无法满足需求，可以考虑使用分布式计算框架，如 Apache Spark、Dask 等，将数据分布在多台机器上进行处理。这些框架可以处理大规模数据，并提供内存管理和并行计算能力
数据库存储：将数据存储到数据库中，例如使用 SQLite、MySQL、PostgreSQL 等数据库。通过查询和分批处理数据，可以有效地处理大量数据，并减少内存压力
压缩存储：如果数据集可以压缩，可以考虑将数据压缩后进行存储。这样可以减少磁盘占用空间，并在需要时进行解压缩和处理数据
硬件升级：如果内存不足以处理海量数据，可以考虑升级硬件，增加机器的内存容量。这是一种物理上增加内存资源的方法，能够更好地处理大型数据集

实时学习反馈

1. 在 Pandas 进行处理大文件时可能需要考虑两个问题_____和内存用量。

A 读取方法

B 读取速度

2. Pandas中对文件进行分段读取，下划线处需要填写的代码是_____:


xxxxxxxxxx
#分段读取文件，指定读取的数量
dftmp = pd.read_csv('stu_data.csv', usecols = [0,2,3,4,5,6,7], _____ = 5)

A size

B chunksize

答案

1=>B 2=>B

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越（北京）科技有限公司 All Rights Reserved.

京ICP备14032124号-2