数据分析必备：NumPy + Pandas 核心知识点全梳理

张开发

• 2026/4/12 1:33:14 • 15 分钟阅读

分享文章

在 Python 数据分析领域NumPy 负责底层数值计算Pandas 负责表格数据处理二者是黄金搭档。NumPy 提供高性能数组Pandas 提供真正的数据分析能力读取、清洗、筛选、分组、聚合、时间序列……这篇文章一次性把NumPy Pandas 最核心知识点全部整理好让你一篇学会数据分析基础。一、NumPy 核心知识点ndarray 是多维、同类型、连续内存的数组运算速度远超列表。常用属性import numpy as np arr np.array([[1,2,3],[4,5,6]]) arr.shape # 形状 (2,3) arr.ndim # 维度 2 arr.dtype # 类型 int64 arr.size # 元素总数 6 arr.T # 转置2. 数组创建方式高频np.array([1,2,3]) np.zeros((3,4)) np.ones((2,5)) np.full((2,2), 10) np.arange(0,10,2) np.linspace(0,1,5) np.random.rand(3,2) # 0~1 np.random.randn(3,3) # 正态分布 np.random.randint(0,10,(2,4))3. 索引、切片、筛选arr1d np.array([0,1,2,3,4]) arr1d[1:4] arr2d np.array([[1,2,3],[4,5,6],[7,8,9]]) arr2d[0,1] arr2d[:,1] arr2d[arr2d 5] arr2d[(arr2d3) (arr2d8)]4. 形状操作arr.reshape(3,4) arr.flatten() # 展平 arr.ravel() # 视图更快 np.hstack((a,b)) # 横向拼接 np.vstack((a,b)) # 纵向拼接5. 向量化运算NumPy 速度核心a b a * 10 np.exp(a) np.log(a) np.sin(a)6. 广播机制不同形状数组自动补齐实现运算a np.array([1,2,3]) b np.array([10]) a b7. 统计函数np.sum(arr) np.mean(arr) np.max(arr) np.std(arr) np.median(arr) np.sum(arr, axis0) # 按列 np.sum(arr, axis1) # 按行8. 缺失值处理np.isnan(arr) np.nanmean(arr) arr[np.isnan(arr)] 0二、Pandas 核心知识点数据分析真正主力1. Pandas 两大核心对象Series带索引的一维数据DataFrame表格型二维数据行列import pandas as pd s pd.Series([1,2,3,4]) df pd.DataFrame({ name: [A,B,C], age: [20,25,30], score: [80,90,85] })2. 数据读取最常用df pd.read_csv(data.csv) df pd.read_excel(data.xlsx) df pd.read_json(data.json)3. 快速查看数据df.head() df.tail() df.info() df.describe() df.shape df.columns df.dtypes df.isnull().sum()4. 数据选择行列筛选选列df[age] df[[age,score]]选行按索引 / 位置df.loc[0] df.iloc[0:3]条件筛选df[df[age] 25] df[(df[age]20) (df[score]80)]5. 数据清洗必备缺失值df.isnull().sum() df.dropna() df.fillna(0) df.fillna(df.mean())重复值df.duplicated().sum() df.drop_duplicates()替换值df.replace(old,new)6. 新增、修改、删除列df[new_col] df[age] * 2 df.drop(col, axis1, inplaceTrue)7. 分组聚合数据分析核心df.groupby(name)[score].mean() df.groupby(name).agg({ age:max, score:mean })8. 排序df.sort_values(score, ascendingFalse) df.sort_index()9. 表合并拼接数据pd.concat([df1, df2]) pd.merge(df1, df2, onid)10. 时间序列处理df[date] pd.to_datetime(df[date]) df.resample(M).sum()11. 数据保存df.to_csv(out.csv) df.to_excel(out.xlsx)三、NumPy 与 Pandas 的关系非常重要Pandas 的底层就是 NumPySeries.values → 返回 numpy 数组DataFrame.values → 返回 numpy 数组所有向量化运算都依赖 NumPy所以NumPy 是基础Pandas 是工具先会 NumPy再精通 Pandas。四、学习建议超实用先掌握 NumPy数组、索引、向量化、广播再学 Pandas读取、筛选、清洗、分组、聚合数据分析 80% 场景只用到 20% 的函数记住向量化永远比循环快

数据分析必备：NumPy + Pandas 核心知识点全梳理

最新文章

穿戴式设备：生理信号采集与健康状态分析

视觉革命：卷积神经网络（CNN）架构与应用实战

【OpenClaw】通过 Nanobot 源码学习架构---（）总体淮

Axure RP9原型预览全攻略：从F5快捷键到云分享的4种高效方法

HX711高精度称重驱动与深度校准实战指南

SparkFun SPI SerialFlash Arduino库深度解析：嵌入式SPI Flash驱动开发指南

推荐文章

在Windows系统安装Docker

HagiCode Desktop 混合分发架构解析：如何用 PP 加速大文件下载籽

TensorRT安装避坑指南：解决‘cuda_runtime_api.h not found’等常见错误

WindowsCleaner终极指南：3步解决C盘爆红，让Windows系统重获新生

告别TF卡！手把手教你给ROCK5B的SPI Nor Flash刷入NVMe启动引导（附固件包）

鱿鱼视频小说网站模板源码：快速搭建双模式资源站，轻松开启运营之路

相关文章

钢坯火焰清理机设计【开题报告+任务书+毕业论文+CAD图纸+翻译】

15 | Claude Code Hooks 事件驱动自动化：防微杜渐的安全防线

Linux党福利：Debian12下用VSCode+SDCC玩转51单片机（含WSL配置指南）

从微调到精控：可变电阻在音频电路中的深度应用解析

Mahony、互补滤波与卡尔曼：给嵌入式新手的六轴姿态融合算法选型指南

保姆级教程：在WSL2的Ubuntu 22.04上，用CUDA 12.9编译运行llama.cpp（含模型下载避坑指南）

分享文章

更多文章

把 Flask 搬进 ESP，高中生自研嵌入式 Web 框架 MicroFlask ！舶

用Multisim仿真LM324AJ搭建RC桥式振荡器：从起振到稳幅的完整调试记录

游戏多功能助手！PC电脑单机游戏难度适配，新手游玩体验优化设置调节！支持龙胤立志传、宗门起源、灰烬之国、杀戮尖塔2、克鲁赛德战记等

统计学核心分布解析：从理论到Python实战

EspATMQTT：面向资源受限MCU的ESP-AT MQTT轻量封装库

AI开发-python-langchain框架（--自定义Tool ）勤

嵌入式TFTP服务器库TFTPServer深度解析与移植指南

计及阴影遮挡效应的光伏阵列拓扑 PSO 重构优化研究（Matlab代码实现）

Knife4j使用

VL53L1X飞行时间激光测距传感器原理与嵌入式驱动实战

Arduino嵌入式信号处理库：轻量级LPF/HPF/积分/微分滤波器

Nginx 学习总结磐