使用 Python 从文本中删除 URL

使用 re.sub() 方法从文本中删除 URL,例如 result = re.sub(r'http\S+', '', my_string) 。 re.sub() 方法将删除字符串中的所有 URL,方法是用空字符串替换它们。

import re

my_string = """
First https://example.com
https://www.jiyik.com Second
Third https://example.com
"""

result = re.sub(r'http\S+', '', my_string)

# First
#  Second
# Third
print(result)

我们使用 re.sub() 方法从字符串中删除所有 URL。

re.sub 方法返回一个新字符串,该字符串是通过用提供的替换替换模式的出现而获得的。

import re


my_str = '1apple, 2apple, 3banana'

result = re.sub(r'[0-9]', '_', my_str)

print(result)  # 👉️ _apple, _apple, _banana

如果未找到该模式,则按原样返回字符串。

我们使用空字符串进行替换,因为我们想从字符串中删除所有 URL。

import re

my_string = """
First https://example.com
https://www.jiyik.com Second
Third https://example.com
"""

result = re.sub(r'http\S+', '', my_string)

# First
#  Second
# Third
print(result)

我们调用 re.sub() 方法的第一个参数是一个正则表达式。

正则表达式中的 http 字符与文字字符匹配。

\S 匹配任何不是空白字符的字符。 请注意,S 是大写的。

加号 + 匹配前面的字符(任何非空白字符)1 次或多次。

总的来说,正则表达式匹配以 http 开头的子字符串,后跟 1 个或多个非空白字符。

如果担心匹配 http-something 形式的字符串,请将正则表达式更新为 r'https?://\S+'

import re

my_string = """
First https://example.com
https://www.jiyik.com Second
Third https://example.com
"""

result = re.sub(r'https?://\S+', '', my_string)

# First
#  Second
# Third
print(result)

问号  使正则表达式匹配前面字符的 0 或 1 个重复。

例如,https? 将匹配 https 或 http

然后我们用冒号和两个正斜杠 :// 来完成协议。

整个正则表达式匹配以 http:// 或 https:// 开头的子字符串,后跟 1 个或多个非空白字符。

如果在阅读或编写正则表达式时需要帮助,请参阅我们的正则表达式教程 。

免责声明:
1.本站所有内容由本站原创、网络转载、消息撰写、网友投稿等几部分组成。
2.本站原创文字内容若未经特别声明,则遵循协议CC3.0共享协议,转载请务必注明原文链接。
3.本站部分来源于网络转载的文章信息是出于传递更多信息之目的,不意味着赞同其观点。
4.本站所有源码与软件均为原作者提供,仅供学习和研究使用。
5.如您对本网站的相关版权有任何异议,或者认为侵犯了您的合法权益,请及时通知我们处理。
火焰兔 » 使用 Python 从文本中删除 URL