区块链技术博客
www.b2bchain.cn

【爬虫】百度搜索

这篇文章主要介绍了【爬虫】百度搜索的讲解,通过具体代码实例进行20798 讲解,并且分析了【爬虫】百度搜索的详细步骤与相关技巧,需要的朋友可以参考下https://www.b2bchain.cn/?p=20798

本文实例讲述了2、树莓派设置连接WiFi,开启VNC等等的讲解。分享给大家供大家参考文章查询地址https://www.b2bchain.cn/7039.html。具体如下:

文章目录

  • 思路
  • 代码

思路

1、分析搜索地址中的参数

【爬虫】百度搜索
搜索地址:https://www.baidu.com/s?wd=%s&pn=%s

其中,wd代表搜索的关键词,pn代表页数
【爬虫】百度搜索
2、提取页面中的信息

【爬虫】百度搜索
使用xpath定位

div_list = html.xpath('//div[@id="content_left"]/div') 

【爬虫】百度搜索

遍历div_list,从中提取出信息

        for div in div_list:             item_url = ''.join(div.xpath('./h3/a/@href'))             item_name = ''.join(div.xpath('./h3/a/text()')).strip() 

代码

import requests from lxml import etree   class BaiDuSearch:     def __init__(self, word, pn):         self.headers = {             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '                           'Chrome/86.0.4240.198 Safari/537.36 Edg/86.0.622.69 '         }         self.url = "https://www.baidu.com/s?wd=%s&pn=%s"         self.word = word         self.pn = pn      def run(self):         return self.search()      def search(self):         url = self.url % (self.word, self.pn)         response = requests.get(url=url, headers=self.headers)         html = etree.HTML(response.text)         div_list = html.xpath('//div[@id="content_left"]/div')         result = []         for div in div_list:             item_url = ''.join(div.xpath('./h3/a/@href'))             item_name = ''.join(div.xpath('./h3/a/text()')).strip()             item = {                 'name': item_name,                 'url': item_url             }             print(item)             result.append(item)         return result   if __name__ == '__main__':     word_ = 'java'     pn_ = 0     s = BaiDuSearch(word_, pn_)     result_ = s.run()     print(result_)   

本文转自互联网,侵权联系删除【爬虫】百度搜索

赞(0) 打赏
部分文章转自网络,侵权联系删除b2bchain区块链学习技术社区 » 【爬虫】百度搜索
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

b2b链

联系我们联系我们