python爬虫url怎么看

admin数码04/06/2024 06:04:4660

查看 python 爬虫 url 的方式有：1. 使用 requests 库的 'url' 属性；2. 使用 urllib 库的 'geturl()' 方法；3. 使用 beautifulsoup 库的 'current_url' 属性；4. 使用 selenium 库的 'current_url' 属性。

python爬虫url怎么看-第1张图片-海印网

如何查看 Python 爬虫的 URL

在使用 Python 爬虫时，查看被爬取 URL 的方式有多种：

1. 使用 requests 库的 'url' 属性

requests 库是 Python 中常用的 HTTP 库。在使用 requests 发送 HTTP 请求时，响应对象包含一个 'url' 属性，该属性返回请求的最终 URL：

import requests

url = 'https://example.com'
response = requests.get(url)
print(response.url)

登录后复制

2. 使用 urllib 库的 'geturl()' 方法

urllib 库是 Python 中另一个用于处理 URL 的库。它提供的 'urlopen()' 函数返回一个类似于文件对象的响应对象，该对象具有 'geturl()' 方法，可返回请求的最终 URL：

import urllib.request

url = 'https://example.com'
response = urllib.request.urlopen(url)
print(response.geturl())

登录后复制

3. 使用 BeautifulSoup 库的 'current_url' 属性

BeautifulSoup 库用于解析 HTML 和 XML 文档。当使用 BeautifulSoup 解析响应 HTML 时，根 BeautifulSoup 对象具有 'current_url' 属性，该属性返回请求的最终 URL：

from bs4 import BeautifulSoup

url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.current_url)

登录后复制

4. 使用 Selenium 库的 'current_url' 属性

Selenium 库用于自动化 Web 浏览器。当使用 Selenium 自动化浏览器并导航到某个 URL 时，Web 驱动程序对象具有 'current_url' 属性，该属性返回当前浏览器的 URL：

from selenium import <a style="color:#f60; text-decoration:underline;" href="https://www.php.cn/zt/32969.html" target="_blank">webdriver</a>

driver = webdriver.Chrome()
driver.get('https://example.com')
print(driver.current_url)

登录后复制

选择哪种方法取决于您使用的具体库和项目需求。

以上就是python爬虫url怎么看的详细内容，更多请关注其它相关文章！

Tags：属性爬虫