在采集一些网站时,我们需要批量生成一批网址。 比如我们采集搜索引擎时,要许多不同关键词的搜索结果;以及批量生成分页地址。 这时我们就需要使用生成网址参数
功能了。
我们以百度搜索为例,展示如何采集多关键词搜索结果。
首先,新建任务,第一步输入网址 https://www.baidu.com/s?wd=test。
然后,鼠标选中网址中的关键词test
,这时会弹出生成网址参数
窗口。
这里有3种参数类型:
递增数字
,按照给定的范围,生成出固定步长的数字。大部分用在生成分页地址上。列表
,这种类型是给定一些固定字符串,程序根据这些字符串集合生成网址。常常用在搜索关键词、指定采集频道、目录。文本文件
,这种类型从指定的txt文件中读取所有行,一行一条记录,组成网址。常用来组合搜索的关键词网址
我们选择列表
类型, 然后输入要采集的关键词,比如 a,b,c,d,e,f 。多个关键词以英文逗号,分割。
点击确定。这样就完成了批量生成多关键词的网址了。
进阶
在上面的基础上,我们需要针对每个关键词,生成前10个分页的地址。怎么做呢?
首先我们找到百度的分页参数是pn
,起始为0,每页的步长为10。
那么我们要采集的网址就是https://www.baidu.com/s?wd=test&pn=0`
先选择关键词,生成关键词列表。 然后选中0
,选择 递增数字
,设置起始为0,结束为100,步长为10。点击确定
可以看到最终的网址为https://www.baidu.com/s?wd=[a,b,c,d,e,f]&pn=[0-100/10]
请先
!