前几天在Python最强王者群【刘桓鸣
】问了一个Python
网络爬虫的问题,这里拿出来给大家分享下。
他自己的代码如下:
import requests key = input("请输入关键字") res = requests.post( url="https://jf.10086.cn/cmcc-web-shop/search/query
这里【隔壁 山楂 老师】指出是参数加少了。 甯同学指出,需要在请求头里边加上origin,后来【eric】给出了一个对应代码,如下所示: 代码运行之后,可以得到预期的数据: 这里【甯同学 】也给出了对应的代码,如下所示: 后来【瑜亮老师】测试发现,请求头里边只需要增加ua和origin就可以了。 顺利地解决了粉丝 的问题。 大家好,我是皮皮。这篇文章主要盘点了一个 的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。 最后感谢粉丝【刘桓鸣】提问,感谢【隔壁 山楂】、【瑜亮老师】、【eric】、【甯同学】给出的思路和代码解析,感谢【冷喵】、【Ineverleft】、【༺࿈黑科技 ·鼓包࿈༻】等人参与学习交流。 【提问补充】温馨提示,大家在群里提问的时候。可以注意下面几点:如果涉及到大文件数据",
data={
"sortColumn" : "default
",
"sortType": "DESC",
"pageSize": "60",
"pageNum": "1",
"firstKeyword": key,
"integral": "",
"province": ""},
headers={"User_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36"}
)
print(res.json())
二、实现过程
import requests
headers = {
"authority": "jf.10086.cn",
"accept": "*/*",
"accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
"content-type": "application/x-www-form-urlencoded;charset
=UTF-8",
"origin": "https://jf.10086.cn",
"referer": "https://jf.10086.cn/",
"sec-ch-ua
": ""Microsoft Edge";v="113", "Chromium";v="113", "Not-A.Brand";v="24"",
"sec-ch-ua-mobile
": "?0",
"sec-ch-ua-platform
": ""Windows"",
"sec-fetch-dest
": "empty",
"sec-fetch-mode
": "cors",
"sec-fetch-site
": "same-origin",
"sessionid": "",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.42"
}
cookies = {
"sajssdk
_2015_cross_new_user": "1",
"sensorsdata2015jssdkcross
": "%7B%22distinct_id%22%3A%221882e060ca319-0c9999999999998-7b515477-921600-1882e060ca46ed%22%2C%22first_id%22%
3A%22%22%2C%22props%22%3A%7B%22%24latest_traffic_source
_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_search_keyword
%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%2C%22%24latest_referrer
%22%3A%22%22%7D%2C%22identities
%22%3A%22eyIkaWRlbnRpdHlfY29va2llX2lkIjoiMTg4MmUwNjBjYTMxOS0wYzk5OTk5OTk5OTk5OTgtN2I1MTU0NzctOTIxNjAwLTE4ODJlMDY
wY2E0NmVkIn0%3D%22%2C%22history_login_id%22%3A%7B%22name%22%3A%22%22%2C%22value%22%3A%22%22%7D%2C%22%24device_id%
22%3A%221882e060ca319-0c9999999999998-7b515477-921600-1882e060ca46ed%22%7D",
"BSFIT_EXPIRATION": "1684453169465",
"BSFIT_DEVICEID": "eNgfgPaqBaS8qXzJHKXgXxJUCen3U5WF8tO1cjBaMqaDL7EKt2xK0J5XwThnB_kC-VbJC2t-N4axkF2UXAKhR
vM7w7kNMRWX8pyxlMitEPPbnWVSnXSU4e2MZvpGBme1L3PX7et2B40xYhXg0MpYpfmUtnuJJTEQ"
}
url = "https://jf.10086.cn/cmcc-web-shop/search/query"
data = {
"sortColumn": "default",
"sortType": "DESC",
"pageSize": "60",
"pageNum": "1",
"firstKeyword": "食用油
",
"integral": "",
"province": ""
}
response = requests.post(url, headers=headers, cookies=cookies, data=data)
三、总结
Python
网络爬虫
后,发点demo数据来(小文件的意思),然后贴点代码(可以复制的那种),记得发报错截图(截全)。代码不多的话,直接发代码文字即可,代码超过50行这样的话,发个.py文件就行。
华科-一站式ip解决方案服务商
谢邀
对于从事网络爬虫
行业的资深技术员
来说,正常只要学会下面几点,基本就能够独立完成爬虫任务。
需要学习的八个知识点:
1、 HTML
HTML被称为超文本标记语言
,有着一系列的标签,这些标签的组合可以显示出文字,图片,视频等内容。我们平时访问的网页,就是通过html编写的。但是想要像我们看到的网页那样漂亮,我们需要为文档添加css样式。如果想要漂亮的动画效果,想要图片能够自动播放,想要点击出现一些反馈,就需要JavaScript来编写脚本 啦。 2 、CSS css能够对网页中的各种元素(这种元素即我们提到的HTML标签 ),我们可以通过它来设置背景颜色,设置元素的大小位置,设置字体的排版等等。 3、 JavaScript 我们简称它为js,js的运行需要靠浏览器来运行。它是一种脚本语言 的特点。js可以做一些动态的操作,比如添加一个元素,改变元素的内容,改变css样式。 4、HTML标签 下面我写了一些常用的HTML标签 5、 选择器 在 CSS 中,我们使用 CSS 选择器来定位节点 。例如,下图中 div 节点的 id 为 asideProfile,那么就可以表示为 #asideProfile,其中 # 开头代表选择 id,其后紧跟 id 的名称。 另外,如果我们想选择 class 为aside-box 的节点,便可以使用 .aside-box,这里以点“.”开头代表选择 class,其后紧跟 class 的名称。 6、爬虫原理 互联网就是一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛 。如果把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系。 爬虫首先要做的工作就是获取网页,这里就是获取网页的源代码 。获取网页源代码后,接下来就是分析网页源代码,从中提取我们想要的数据。 提取信息后,我们可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库 。 7、JavaScript 渲染页面 工具来构建,整个网页可能都是由 JavaScript 渲染出来的,也就是说原始的 HTML 代码就是一个空壳。 网页请求这个js文件,获取到该文件后,便会执行其中的 JavaScript 代码,而 JavaScript 则会改变 HTML 中的节点,向其添加内容,最后得到完整的页面。 对于,可以通过selenium 或者找到Ajax的请求地址就可以解决。 8、加密 爬取网站的时候,经常会遇到各种各样类似加密的情形,比如:字体加密