Pandas DataFrame DataFrame.fillna() 函数

pandas.DataFrame.fillna() 函数将 DataFrame 中的 NaN 值替换为某个值。

pandas.DataFrame.fillna() 语法

DataFrame.fillna(value=None,
                 method=None,
                 axis=None,
                 inplace=False,
                 limit=None,
                 downcast=None)

参数

value scalardictSeriesDataFrame。用于替换 NaN 的值
method backfillbfillpadffillNone。用于填充 NaN 值的方法
axis 沿行(axis=0)或列(axis=1)填补缺失的数值
inplace 布尔型。如果为 True,就地修改调用者 DataFrame
limit 整数。
如果指定了 method,则是要向前/向后填充的连续 NaN 值的最大数量。
如果没有指定 method,则是要填充的轴的最大 NaN 值数
downcast 字典。指定转换的数据类型

返回值

如果 inplaceTrue,则用给定的 value 替换所有 NaN 值的 DataFrame;否则为 None

示例代码:用 DataFrame.fillna() 方法填充所有 DataFrame 中的 NaN

import pandas as pd
import numpy as np
df = pd.DataFrame({'X': [1, 2, 3, np.nan, 3],
                   'Y': [4, np.nan, 8, np.nan, 3]})
print("DataFrame:")
print(df)
filled_df = df.fillna(5)
print("Filled DataFrame:")
print(filled_df)

输出:

DataFrame:
     X    Y
0  1.0  4.0
1  2.0  NaN
2  3.0  8.0
3  NaN  NaN
4  3.0  3.0
Filled DataFrame:
     X    Y
0  1.0  4.0
1  2.0  5.0
2  3.0  8.0
3  5.0  5.0
4  3.0  3.0

它用 pandas.DataFrame.fillna() 方法中作为参数提供的 5 填充 DataFrame 中的所有 NaN 值。

DataFrame.fillna() 中的平均数

我们可以用一列的平均值来代替该列的 NaN 值。

import pandas as pd
import numpy as np
df = pd.DataFrame({'X': [1, 2, 3, np.nan, 3],
                   'Y': [4, np.nan, 8, np.nan, 3]})
print("DataFrame:")
print(df)
df.fillna(df.mean(),inplace=True)
print("Filled DataFrame:")
print(df)

输出:

DataFrame:
     X    Y
0  1.0  4.0
1  2.0  NaN
2  3.0  8.0
3  NaN  NaN
4  3.0  3.0
Filled DataFrame:
      X    Y
0  1.00  4.0
1  2.00  5.0
2  3.00  8.0
3  2.25  5.0
4  3.00  3.0

它将 X 列的 NaN 值用 X 列的平均值填充,Y 列的 NaN 值用 Y 列的平均值填充。

由于 inplace=True,调用 fillna() 函数后,原 DataFrame 被修改。

DataFrame.fillna() 用 0 来填充

import pandas as pd
import numpy as np
df = pd.DataFrame({'X': [1, 2, 3, np.nan, 3],
                   'Y': [4, np.nan, 8, np.nan, 3]})
print("DataFrame:")
print(df)
df.fillna(0,inplace=True)
print("Filled DataFrame:")
print(df)

输出:

DataFrame:
     X    Y
0  1.0  4.0
1  2.0  NaN
2  3.0  8.0
3  NaN  NaN
4  3.0  3.0
Filled DataFrame:
     X    Y
0  1.0  4.0
1  2.0  0.0
2  3.0  8.0
3  0.0  0.0
4  3.0  3.0

它用 0 填充所有 NaN

示例代码:DataFrame.fillna() 方法,参数为 method

我们也可以使用不同的 “方法 “参数在 DataFrame 中填充 NaN 值。

import pandas as pd
import numpy as np
df = pd.DataFrame({'X': [1, 2, 3, np.nan, 3],
                   'Y': [4, np.nan, 8, np.nan, 3]})
print("DataFrame:")
print(df)
filled_df = df.fillna(method="backfill")
print("Filled DataFrame:")
print(filled_df)

输出:

DataFrame:
     X    Y
0  1.0  4.0
1  2.0  NaN
2  3.0  8.0
3  NaN  NaN
4  3.0  3.0
Filled DataFrame:
     X    Y
0  1.0  4.0
1  2.0  8.0
2  3.0  8.0
3  3.0  3.0
4  3.0  3.0

设置 method="backfill" 将所有的 DataFrame 中的 NaN 值填充到同一列的 NaN 值之后。

我们也可以使用 bfillpadffill 方法来填充 DataFrame 中的 NaN 值。

method 方法 说明
backfill/bfill 用同一列中的 NaN 值之后的值填充 DataFrame 中所有的 NaN
ffill/pad 用同一列中的 NaN 值之前的值填充 DataFrame 中所有的 NaN

示例代码:DataFrame.fillna() 方法的 limit 参数

DataFrame.fillna() 方法中的 limit 参数限制了该方法所要填充的连续 NaN 值的最大数量。

import pandas as pd
import numpy as np
df = pd.DataFrame({'X': [1, 2,np.nan, 3,3],
                   'Y': [4, np.nan, 8, np.nan, 3]})
print("DataFrame:")
print(df)
filled_df = df.fillna(3,limit=1)
print("Filled DataFrame:")
print(filled_df)

输出:

DataFrame:
     X    Y
0  1.0  4.0
1  2.0  NaN
2  NaN  8.0
3  3.0  NaN
4  3.0  3.0
Filled DataFrame:
     X    Y
0  1.0  4.0
1  2.0  3.0
2  3.0  8.0
3  3.0  NaN
4  3.0  3.0

在这里,一旦一列中的 NaN 值被填满,同一列中的其他 NaN 值将保持原样。