pandas输出索引|极客教程

pandas输出索引

在使用pandas进行数据处理和分析时，经常需要对数据进行索引和输出。索引是用来标识数据的位置或标签，输出索引可以帮助我们更好地理解数据的结构和组织。

1. 输出标签索引

在pandas中，我们可以使用index属性来输出DataFrame或Series 的索引标签。下面是一个示例：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)

print(df.index)

输出为：

RangeIndex(start=0, stop=4, step=1)

索引标签为RangeIndex对象，表示从0开始，步长为1，共4个标签。你可以看到，DataFrame的行索引默认是从0开始的整数。

2. 输出自定义索引

除了默认的整数索引，我们也可以自定义索引来标识数据。下面是一个示例：

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd'])

print(df.index)

输出为：

Index(['a', 'b', 'c', 'd'], dtype='object')

这里我们使用了[‘a’, ‘b’, ‘c’, ‘d’]来自定义了DataFrame的行索引。输出的索引类型为Index对象。

3. 输出列索引

在pandas中，我们可以使用columns属性来输出DataFrame的列标签，见下例：

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)

print(df.columns)

输出为：

Index(['Name', 'Age', 'City'], dtype='object')

这里输出的列标签为Index对象，表示DataFrame的列名为[‘Name’, ‘Age’, ‘City’]。

4. 输出多级索引

在pandas中，我们还可以使用多级索引来组织数据。多级索引可以帮助我们更好地表示多维数据，见下例：

data = {
    'Location': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Year': [2020, 2021, 2020, 2021, 2020, 2021],
    'Sales': [1000, 1200, 800, 900, 1100, 1300]
}
df = pd.DataFrame(data)
df.set_index(['Location', 'Year'], inplace=True)

print(df.index)

输出为：

MultiIndex([('A', 2020),
            ('A', 2021),
            ('B', 2020),
            ('B', 2021),
            ('C', 2020),
            ('C', 2021)],
           names=['Location', 'Year'])

这里我们使用set_index方法将[‘Location’, ‘Year’]列设置为多级索引，输出的索引类型为MultiIndex对象。

5. 输出行索引名称

在pandas中，我们可以为索引和列设置名称，便于标识和访问。下面是一个示例：

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd'])
df.index.name = 'Index'

print(df.index.name)

输出为：