Python 中将基本 URL 与 另一个 URL 连接起来

使用 urllib.parse 模块中的 urljoin 方法将一个基本 URL 与另一个 URL 连接起来,例如 result = urljoin(base_url, path)。 urljoin 方法通过将基本 URL 与另一个 URL 组合来构造完整(绝对)URL。

from urllib.parse import urljoin

base_url = 'https://example.com'

path = 'images/static/cat.jpg'

result = urljoin(base_url, path)

# ?️ https://example.com/images/static/cat.jpg
print(result)

# ?️ /global/images/static/dog.png
print(urljoin('/global/images/', 'static/dog.png'))

Python 中将基本 URL 与 另一个 URL 连接起来

如果我们有多个 URL 组件,请在将它们传递给 urljoin() 方法之前使用 posixpath 模块加入它们。

import posixpath
from urllib.parse import urljoin

base_url = 'https://example.com'

path_1 = 'images'
path_2 = 'static'
path_3 = 'cat.jpg'

path = posixpath.join(path_1, path_2, path_3)
print(path)  # 👉️ 'images/static/cat.jpg'

result = urljoin(base_url, path)

# 👇️ https://example.com/images/static/cat.jpg
print(result)

urllib.parse.urljoin 方法将一个基本 URL 和另一个 URL 作为参数,并通过组合它们来构造一个完整的(绝对)URL。

我们还可以使用 urljoin 方法加入 URL 路径组件。

from urllib.parse import urljoin


# 👇️ /global/images/static/dog.png
print(urljoin('/global/images/', 'static/dog.png'))

确保我们得到的输出是我们所期望的,因为 urljoin 方法在处理不以正斜杠 / 结尾的 URL 组件时可能会有点混乱。

这是一个例子。

from urllib.parse import urljoin


# 👇️ /global/static/dog.png
print(urljoin('/global/images', 'static/dog.png'))

请注意 ,该方法在加入第二个组件之前从第一个组件中剥离了图像。

当第一个组件以正斜杠结尾时,该方法的行为与预期相同。

from urllib.parse import urljoin


# 👇️ /global/images/static/dog.png
print(urljoin('/global/images/', 'static/dog.png'))

如果第二个组件以正斜杠开头,我们可能还会注意到令人困惑的行为

from urllib.parse import urljoin


# 👇️ /static/dog.png
print(urljoin('/global/images', '/static/dog.png'))

当第二个组件以正斜杠开头时,假定它从根开始。

posixpath.join() 方法更具可预测性,也可用于连接 URL 路径组件。

import posixpath


# 👇️ /global/images/static/dog.png
print(posixpath.join('/global/images', 'static/dog.png'))

# 👇️ /global/images/static/dog.png
print(posixpath.join('/global/images/', 'static/dog.png'))

# 👇️ /static/dog.png
print(posixpath.join('/global/images', '/static/dog.png'))

posixpath.join 方法也可以传递超过 2 个路径。

import posixpath


# 👇️ /global/images/static/dog.png
print(posixpath.join('/global', 'images', 'static', 'dog.png'))