文介绍使用易搜采集彩票开奖数据采集的方法。
采集网站:
采集的内容包括:彩种,期次,开奖时间,开奖行业信息,头奖奖金,投注提示。
使用功能点:
l Ajax点击
l 修改Xpath
步骤1:创建网易彩票开奖采集任务
1)进入主界面,选择“新建任务”2)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”
步骤2:设置列表
1)打开流程设计,从左侧拖入一个“循环”到流程中,并设置“循环方式”为不固定元素列表,“不固定元素列表”填入//table/tbody/tr。
这里用到了XPATH,如果对XPATH不是很了解的话,可以阅读教程:
2)同理从左侧拖入一个“提取数据”到循环流程中,接下来就是设置各个字段数据的提取。
步骤3:提取字段数据
本文提取的数据有彩种,期次,开奖时间,开奖行业信息,头奖奖金,投注提示。因为提取步骤都是一样的,只是设置的参数不一样,所以下面以提取“彩种”数据举例说明具体操作步骤:
1)点击“添加特殊字段”,选择“添加空字段”
2)点击“自定义数据字段”,随后选择“自定义定位元素”
3)设置“元素匹配的XPATH为”:
//h2[@class="title"]/strong[text()="数字彩票"]/../following-sibling::table[1]/td[1]/a
“相对XPATH”:/td[1]/a
随后点击确认按钮。
4)点击“自定义数据字段”,随后选择“自定义抓取方式”
5)选择“抓取文本”按钮,随后点击确定按钮。
6)可以看到“彩种”这个字段已经设置好了。
期次,开奖时间,开奖行业信息,头奖奖金,投注提示的数据步骤也是如此,只是参数设置不一样,下面介绍具体参数设置。
期次:
“自定义数据字段”->“自定义定位元素”这个步骤中:
“元素匹配的XPATH为”:
//h2[@class="title"]/strong[text()="数字彩票"]/../following-sibling::table[1]/td[2]/a
“相对XPATH”:/td[2]/a
“自定义数据字段”->“自定义抓取方式”这个步骤中:
选择“抓取文本”
开奖时间:
“自定义数据字段”->“自定义定位元素”这个步骤中:
“元素匹配的XPATH为”:
//h2[@class="title"]/strong[text()="数字彩票"]/../following-sibling::table[1]/td[3]
“相对XPATH”:/td[3]
“自定义数据字段”->“自定义抓取方式”这个步骤中:
选择“抓取文本”
开奖行业信息:
“自定义数据字段”->“自定义定位元素”这个步骤中:
“元素匹配的XPATH为”:
//h2[@class="title"]/strong[text()="数字彩票"]/../following-sibling::table[1]/td[4]
“相对XPATH”:/td[4]
“自定义数据字段”->“自定义抓取方式”这个步骤中:
选择“抓取文本”
开奖行业信息如果想要显示行业信息分开的效果,还需要设置正则替换,具体在“自定义数据字段”->“格式化数据”->“添加步骤”->“正则表达式替换”按如下图设置就能显示下图中输出的效果了。
头奖奖金:
“自定义数据字段”->“自定义定位元素”这个步骤中:
“元素匹配的XPATH为”:
//h2[@class="title"]/strong[text()="数字彩票"]/../following-sibling::table[1]/td[5]
“相对XPATH”:/td[5]
“自定义数据字段”->“自定义抓取方式”这个步骤中:
选择“抓取文本”
投注提示:
“自定义数据字段”->“自定义定位元素”这个步骤中:
“元素匹配的XPATH为”:
//h2[@class="title"]/strong[text()="数字彩票"]/../following-sibling::table[1]/td[9]
“相对XPATH”:/td[9]
“自定义数据字段”->“自定义抓取方式”这个步骤中:
选择“抓取文本”
步骤4:彩票开奖数据采集及导出
1)点击左上角的“保存”,然后点击“开始采集”,
2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出,一份完好的彩票开奖数据就导出好了,这里我们选择excel作为导出为格式,数据导出后如下图。
请先
!