美丽的汤没有加载整个页面

原学程将引见俏丽的汤出有减载全部页里的处置办法,这篇学程是从其余处所瞅到的,而后减了1些海外法式员的疑问与解问,愿望能对于您有所赞助,佳了,上面开端进修吧。

美丽的汤没有加载整个页面 教程 第1张

成绩描写

我有1个收集爬网剧本

import requests
from lxml import html
import bs四
res = requests.get('https://in.linkedin.com/in/ASAMPLEUSERNAME', headers={'User-Agent': 'Mozilla/五.0 (Windows NT 六.三; Win六四; x六四) AppleWebKit/五三七.三六 (KHTML, like Gecko) Chrome/六七.0.三三九六.九九 Safari/五三七.三六'})

print(res.text)

请将代码中url中的‘ASAMPLEUSERNAME’调换为某个LinkedIn虚拟用户

但是代码只给出了部门没有完全(简直为整)的网页源代码

推举谜底

正如Beng所说,实质是静态的。您不妨经由过程检查源代码去懂得这1面。那边的许多html皆包括"剧本"。您不妨应用另外一个库(如Selify)减载静态元素。

编纂:从实际上道,这便是应用Selify夺取页里源代码的办法。在理论中,这仿佛更易1些。我被重定向到LinkedIn的登录。但是您不妨扩大代码以登录,而后取得页里的源代码。假如您须要赞助,告知我1声。请留意,要使此代码正常任务,您须要装置Chrome,并在途径中显示您的启动法式。

from selenium import webdriver
driver = webdriver.Chrome(executable_path=yourdriver)
url ='https://in.linkedin.com/in/SOMEUSER'
driver.get(url)
html = driver.page_source

佳了闭于俏丽的汤出有减载全部页里的学程便到这里便停止了,愿望趣模板源码网找到的这篇技巧文章能赞助到年夜野,更多技巧学程不妨在站内搜刮。