批量生成起始网址

在采集一些网站时,我们需要批量生成一批网址。 比如我们采集搜索引擎时,要许多不同关键词的搜索结果;以及批量生成分页地址。 这时我们就需要使用生成网址参数功能了。

我们以百度搜索为例,展示如何采集多关键词搜索结果。

首先,新建任务,第一步输入网址 https://www.baidu.com/s?wd=test

urlparam

 

然后,鼠标选中网址中的关键词test,这时会弹出生成网址参数窗口。

这里有3种参数类型:

  1. 递增数字,按照给定的范围,生成出固定步长的数字。大部分用在生成分页地址上。
  2. 列表,这种类型是给定一些固定字符串,程序根据这些字符串集合生成网址。常常用在搜索关键词、指定采集频道、目录。
  3. 文本文件,这种类型从指定的txt文件中读取所有行,一行一条记录,组成网址。常用来组合搜索的关键词网址

我们选择列表类型, 然后输入要采集的关键词,比如 a,b,c,d,e,f 。多个关键词以英文逗号,分割。

urlparam

点击确定。这样就完成了批量生成多关键词的网址了。


进阶

在上面的基础上,我们需要针对每个关键词,生成前10个分页的地址。怎么做呢?

首先我们找到百度的分页参数是pn,起始为0,每页的步长为10。

那么我们要采集的网址就是https://www.baidu.com/s?wd=test&pn=0`

先选择关键词,生成关键词列表。 然后选中0,选择 递增数字,设置起始为0,结束为100,步长为10。点击确定 urlparam

可以看到最终的网址为https://www.baidu.com/s?wd=[a,b,c,d,e,f]&pn=[0-100/10]

评论0

请先

登入/注册
欢迎使用易搜网页数据采集软件
没有账号? 忘记密码?
豫ICP备18012411号-1  豫公网安备 44030502088897号