本文介绍使用易搜采集软件采集淘宝卖家信息的方法。首先会为大家讲解,我们拿到一个数据采集需求时,如何去分析需求;怎样设计采集流程;最后制作并调试采集规则。希望大家可以建立一套通用采集逻辑,明白基本的操作思路。
采集网站:
https://shopsearch.taobao.com/search?app=shopsearch&q=江小白&isb=0&shop_type=&ratesum=
本文以“江小白”为关键词先在淘宝网进行店铺搜索,然后店铺类型选择“淘宝店”。最后以此时的网址为采集网址。大家在采集其他店铺时,可以更换搜索关键词,然后将生成的网址复制黏贴到易搜采集软件中进行使用。
采集内容:店铺名称,店铺ID,店铺类型,宝贝数,商品销量,店铺省份,店铺城市,店铺旺旺号。
使用功能点:
l 数据格式化
l 添加特殊字段
l XPath
l 滚动页面
l Ajax超时
步骤1:创建淘宝卖家信息采集任务
1)进入主界面,选择“新建任务”
2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
步骤2:自动翻页
1)打开网页之后,点击启用分页选择自动分页;
步骤3:选择列表-自动获取列表;
步骤4:提取数据设置
1)自动生成的数据字段会将匹配到的文本和链接都抓取上,其中不需要的字段可点击选中后删除。
注:若太多字段是自己不需要的,可点中某一个字段后,点字段上面的倒三角,然后点击下方的“删除数据字段”。
删除字段后再一个个选择自己需要的字段。如图,选中后点击,然后需求选择“采集该链接的文本”或“采集该链接地址”还是“采集该元素的文本”。此时一般不要点击“选中全部”,点“选中全部”后会再生成一个循环提取数据。之前步骤3中的操作已建立好了循环列表。故不需要再次建立。
2)删除不需要字段(或点击采集所需字段)后,对现有字段进行重命名。
3)保存任务,采集数据;
4)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出, 这里我们选择excel作为导出为格式,此时淘宝卖家信息就顺利导出来,数据导出后如下图:
至此,整个采集完成!
请先
!