Pandas 安装学习笔记
1. 安装 Pandas
Pandas 可以通过 pip 工具进行安装:
Copy Codepip install pandas
2. Pandas 的基本使用
2.1 导入 Pandas
在使用 Pandas 前,需要先导入该库:
pythonCopy Codeimport pandas as pd
2.2 创建 Pandas 数据结构
Pandas 主要有两种数据结构:Series 和 DataFrame。
2.2.1 创建 Series
Series 是一个一维的数据结构,可以使用以下方式创建:
pythonCopy Codes = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
输出结果为:
pythonCopy Code0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
2.2.2 创建 DataFrame
DataFrame 是一个二维的数据结构,可以使用以下方式创建:
pythonCopy Codedata = {'name': ['Tom', 'Jack', 'Steve', 'Ricky'], 'age': [28, 34, 29, 42]}
df = pd.DataFrame(data)
print(df)
输出结果为:
pythonCopy Code name age
0 Tom 28
1 Jack 34
2 Steve 29
3 Ricky 42
2.3 Pandas 数据的读取与写入
2.3.1 读取 CSV 文件
可以使用以下代码读取 CSV 格式的文件:
pythonCopy Codedf = pd.read_csv('example.csv')
print(df)
输出结果为:
pythonCopy Code Name Age Gender
0 John 23 M
1 Amy 25 F
2 Bob 28 M
3 Jane 21 F
2.3.2 写入 CSV 文件
可以使用以下代码将 DataFrame 中的数据写入到 CSV 文件中:
pythonCopy Codedf.to_csv('example.csv', index=False, sep=',')
3. Pandas 常用操作
3.1 数据选取
Pandas 提供了多种方式进行数据的选取操作,以下是一些常用的方法:
3.1.1 使用列名进行选取
pythonCopy Codedf['name']
3.1.2 使用行号进行选取
pythonCopy Codedf.iloc[0]
3.1.3 使用条件进行选取
pythonCopy Codedf[df['age'] > 30]
3.2 数据清洗
在进行数据分析前,通常需要对数据进行清洗。以下是一些 Pandas 常用的数据清洗操作。
3.2.1 缺失值处理
pythonCopy Code# 删除缺失值所在行
df.dropna()
# 替换缺失值
df.fillna(value=0)
3.2.2 重复值处理
pythonCopy Code# 删除重复行
df.drop_duplicates()
4. 实例演示
假设有一个名为 sales.csv
的销售数据文件,包含了商品名称、销售数量和销售金额三列数据。我们可以读取该文件,并进行一些简单的数据分析:
pythonCopy Codeimport pandas as pd
# 读取数据文件
df = pd.read_csv('sales.csv')
# 显示前 5 条数据
print(df.head())
# 计算总销售数量和总销售金额
total_sales = df['num'].sum()
total_revenue = df['revenue'].sum()
# 输出总销售数量和总销售金额
print('Total Sales:', total_sales)
print('Total Revenue:', total_revenue)
输出结果为:
pythonCopy Code name num revenue
0 红烧肉 23 3456
1 火锅底料 43 5843
2 豆腐脑 12 1800
3 麻辣烫 67 9876
4 拉面 45 6432
Total Sales: 190
Total Revenue: 27307
以上就是 Pandas 的安装和基本使用方法,以及一些常用的数据操作技巧。希望对大家有所帮助。