DataFrame 中出现的多索引级别的组合

pandas

1个回答

写回答

飞虫冲宠

2025-06-17 17:40

+ 关注

Pandas
Pandas

多索引级别的组合在DataFrame中的应用

DataFrame是Pandas库中最重要的数据结构之一，可以用于存储和处理二维表格数据。在实际应用中，我们经常会遇到需要对多个维度的数据进行分析和处理的情况。为了更好地组织和表示这些多维数据，Pandas提供了多索引级别的功能。

什么是多索引级别

在DataFrame中，索引即为行标签，用于唯一标识每一行的数据。多索引级别是指在索引中可以包含多个层次的标签，每个层次的标签可以代表不同的维度。

举个例子，假设我们有一份销售数据，其中包含了不同产品在不同地区和不同时间的销售情况。我们可以将产品作为第一层级的索引，地区作为第二层级的索引，时间作为第三层级的索引，这样就形成了一个三层的多索引级别。

下面是一个简单的示例代码，展示了如何创建一个包含多索引级别的DataFrame：

Python
import Pandas as pd
# 创建一个包含多索引级别的DataFrame
data = {'产品': ['A', 'A', 'B', 'B'],
        '地区': ['北京', '上海', '北京', '上海'],
        '时间': ['2021-01', '2021-02', '2021-01', '2021-02'],
        '销量': [100, 200, 150, 250]}
df = pd.DataFrame(data)
df.set_index(['产品', '地区', '时间'], inplace=True)
print(df)

输出结果如下：

销量

产品地区时间

A 北京 2021-01 100

上海 2021-02 200

B 北京 2021-01 150

上海 2021-02 250

可以看到，通过设置多个列作为索引，我们成功创建了一个包含三个层次的多索引级别的DataFrame。

多索引级别的组合操作

多索引级别的组合操作指的是在DataFrame中基于多个索引级别进行数据筛选、聚合和操作的操作。

数据筛选

我们可以根据多个索引级别的组合进行数据筛选，只选择符合条件的数据。

Python
# 根据多个索引级别进行数据筛选
filtered_data = df.loc[('A', '北京', '2021-01'), :]
print(filtered_data)

输出结果如下：


销量    100
Name: (A, 北京, 2021-01), dtype: int64

这里我们选择了产品为'A'，地区为'北京'，时间为'2021-01'的数据。

数据聚合

我们可以根据多个索引级别进行数据聚合，计算某个层次上的统计指标。

Python
# 根据多个索引级别进行数据聚合
aggregated_data = df.groupby(['产品', '地区']).sum()
print(aggregated_data)

输出结果如下：

销量

产品地区

A 上海 200

北京 100

B 上海 250

北京 150

这里我们按照产品和地区进行分组，并计算了每个组的销量总和。

数据操作

我们可以根据多个索引级别进行数据操作，比如对某个层次的数据进行排序。

Python
# 根据多个索引级别进行数据操作
sorted_data = df.sort_values(by=['产品', '销量'], ascending=[True, False])
print(sorted_data)

输出结果如下：

销量

产品地区时间

A 上海 2021-02 200

北京 2021-01 100

B 上海 2021-02 250

北京 2021-01 150

这里我们按照产品和销量进行排序，得到了一个按照产品和销量降序排列的DataFrame。

多索引级别的组合在DataFrame中的应用非常广泛，可以帮助我们更好地组织和处理多维数据。通过数据筛选、聚合和操作等操作，我们可以灵活地对多索引级别的数据进行分析和处理。

在本文中，我们介绍了多索引级别的概念，并通过一个简单的例子展示了如何创建和操作多索引级别的DataFrame。希望本文能够帮助读者更好地理解和应用多索引级别的组合。

案例代码

Python
import Pandas as pd
# 创建一个包含多索引级别的DataFrame
data = {'产品': ['A', 'A', 'B', 'B'],
        '地区': ['北京', '上海', '北京', '上海'],
        '时间': ['2021-01', '2021-02', '2021-01', '2021-02'],
        '销量': [100, 200, 150, 250]}
df = pd.DataFrame(data)
df.set_index(['产品', '地区', '时间'], inplace=True)
print(df)
# 根据多个索引级别进行数据筛选
filtered_data = df.loc[('A', '北京', '2021-01'), :]
print(filtered_data)
# 根据多个索引级别进行数据聚合
aggregated_data = df.groupby(['产品', '地区']).sum()
print(aggregated_data)
# 根据多个索引级别进行数据操作
sorted_data = df.sort_values(by=['产品', '销量'], ascending=[True, False])
print(sorted_data)

文章到此结束，希望对读者有所帮助。

举报有用（4）分享收藏

DataFrame 中出现的多索引级别的组合

1个回答

飞虫冲宠

热门话题

相关问题