Pandas 安装学习笔记

1. 安装 Pandas

Pandas 可以通过 pip 工具进行安装:

Copy Code
pip install pandas

2. Pandas 的基本使用

2.1 导入 Pandas

在使用 Pandas 前,需要先导入该库:

pythonCopy Code
import pandas as pd

2.2 创建 Pandas 数据结构

Pandas 主要有两种数据结构:Series 和 DataFrame。

2.2.1 创建 Series

Series 是一个一维的数据结构,可以使用以下方式创建:

pythonCopy Code
s = pd.Series([1, 3, 5, np.nan, 6, 8]) print(s)

输出结果为:

pythonCopy Code
0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64

2.2.2 创建 DataFrame

DataFrame 是一个二维的数据结构,可以使用以下方式创建:

pythonCopy Code
data = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'], 'age': [28, 34, 29, 42]} df = pd.DataFrame(data) print(df)

输出结果为:

pythonCopy Code
name age 0 Tom 28 1 Jack 34 2 Steve 29 3 Ricky 42

2.3 Pandas 数据的读取与写入

2.3.1 读取 CSV 文件

可以使用以下代码读取 CSV 格式的文件:

pythonCopy Code
df = pd.read_csv('example.csv') print(df)

输出结果为:

pythonCopy Code
Name Age Gender 0 John 23 M 1 Amy 25 F 2 Bob 28 M 3 Jane 21 F

2.3.2 写入 CSV 文件

可以使用以下代码将 DataFrame 中的数据写入到 CSV 文件中:

pythonCopy Code
df.to_csv('example.csv', index=False, sep=',')

3. Pandas 常用操作

3.1 数据选取

Pandas 提供了多种方式进行数据的选取操作,以下是一些常用的方法:

3.1.1 使用列名进行选取

pythonCopy Code
df['name']

3.1.2 使用行号进行选取

pythonCopy Code
df.iloc[0]

3.1.3 使用条件进行选取

pythonCopy Code
df[df['age'] > 30]

3.2 数据清洗

在进行数据分析前,通常需要对数据进行清洗。以下是一些 Pandas 常用的数据清洗操作。

3.2.1 缺失值处理

pythonCopy Code
# 删除缺失值所在行 df.dropna() # 替换缺失值 df.fillna(value=0)

3.2.2 重复值处理

pythonCopy Code
# 删除重复行 df.drop_duplicates()

4. 实例演示

假设有一个名为 sales.csv 的销售数据文件,包含了商品名称、销售数量和销售金额三列数据。我们可以读取该文件,并进行一些简单的数据分析:

pythonCopy Code
import pandas as pd # 读取数据文件 df = pd.read_csv('sales.csv') # 显示前 5 条数据 print(df.head()) # 计算总销售数量和总销售金额 total_sales = df['num'].sum() total_revenue = df['revenue'].sum() # 输出总销售数量和总销售金额 print('Total Sales:', total_sales) print('Total Revenue:', total_revenue)

输出结果为:

pythonCopy Code
name num revenue 0 红烧肉 23 3456 1 火锅底料 43 5843 2 豆腐脑 12 1800 3 麻辣烫 67 9876 4 拉面 45 6432 Total Sales: 190 Total Revenue: 27307

以上就是 Pandas 的安装和基本使用方法,以及一些常用的数据操作技巧。希望对大家有所帮助。