使用 Python 从文本中删除 URL
使用 re.sub()
方法从文本中删除 URL,例如 result = re.sub(r'http\S+', '', my_string)
。 re.sub()
方法将删除字符串中的所有 URL,方法是用空字符串替换它们。
import re
my_string = """
First https://example.com
https://www.jiyik.com Second
Third https://example.com
"""
result = re.sub(r'http\S+', '', my_string)
# First
# Second
# Third
print(result)
我们使用 re.sub()
方法从字符串中删除所有 URL。
re.sub
方法返回一个新字符串,该字符串是通过用提供的替换替换模式的出现而获得的。
import re
my_str = '1apple, 2apple, 3banana'
result = re.sub(r'[0-9]', '_', my_str)
print(result) # ?️ _apple, _apple, _banana
如果未找到该模式,则按原样返回字符串。
我们使用空字符串进行替换,因为我们想从字符串中删除所有 URL。
import re
my_string = """
First https://example.com
https://www.jiyik.com Second
Third https://example.com
"""
result = re.sub(r'http\S+', '', my_string)
# First
# Second
# Third
print(result)
我们调用 re.sub()
方法的第一个参数是一个正则表达式。
正则表达式中的 http
字符与文字字符匹配。
\S
匹配任何不是空白字符的字符。 请注意,S 是大写的。
加号 +
匹配前面的字符(任何非空白字符)1 次或多次。
总的来说,正则表达式匹配以 http 开头的子字符串,后跟 1 个或多个非空白字符。
如果担心匹配 http-something 形式的字符串,请将正则表达式更新为 r'https?://\S+'
。
import re
my_string = """
First https://example.com
https://www.jiyik.com Second
Third https://example.com
"""
result = re.sub(r'https?://\S+', '', my_string)
# First
# Second
# Third
print(result)
问号
?
使正则表达式匹配前面字符的 0 或 1 个重复。
例如,https?
将匹配 https 或 http。
然后我们用冒号和两个正斜杠 ://
来完成协议。
整个正则表达式匹配以 http://
或 https://
开头的子字符串,后跟 1 个或多个非空白字符。
如果在阅读或编写正则表达式时需要帮助,请参阅我们的正则表达式教程 。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布,任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站。本站所有源码与软件均为原作者提供,仅供学习和研究使用。如您对本站的相关版权有任何异议,或者认为侵犯了您的合法权益,请及时通知我们处理。