最近在写一个爬虫,需要爬取京东的商品信息。本来第一天还爬的好好的,第二天就提示要登录才能进去搜索页面了。

上网找的办法是添加cookie来实现自动登录。我写了一个程序,使用selenium+chrome,先手动登录一次之后,把Cookie保存到数据库里,然后当需要登录时,自动从数据库里面读取cookie,并设置上去。

网上的代码大都是这样,但是事实证明这是不行的,没法登陆上去。

直到我看到一篇文章之后,才意识到,可能是因为cookie里面有些内容需要被替换,才能继续使用,于是我就加了一个重新构造cookie的代码,就能实现登录了!

代码片段:

def set_cookie(browser, url):
    log.logger.info("正在设置cookie。...")
    global current_ckid
    current_ckid, cookie = utils.get_valid_cookie(url)
    # 在这里获取到了cookie
    if cookie is not None:
        browser.delete_all_cookies()
        for ck in cookie:
            # print(ck)
            cookie_dict = {
                "domain": ".jd.com",  # 火狐浏览器不用填写,谷歌要需要
                'name': ck.get('name'),
                'value': ck.get('value'),
                "expires": "",
                'path': '/',
                'httpOnly': False,
                'HostOnly': False,
                'Secure': False}
            browser.add_cookie(cookie_dict)
        # browser.refresh()
        time.sleep(3)
    else:
        log.logger.warning("无可用cookie, 停止抓取...")

转载请注明来源:https://longjin666.cn/?p=1281

你也可能喜欢

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注