在创建第一个任务示例中,我们演示了如何采集列表页数据。 有时我们不仅要采集列表页数据,还要采集内容页。下面就来介绍下如何采集多级页面。
以新浪新闻为例,我们要采集采集最新的新闻标题、时间、内容。
首先,输入起始网址,http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml,点击下一步
。
程序自动分析出列表数据,然后点击蓝色链接列
的列头。这时,工具栏出现深入此链接采集
,点击该按钮。
然后浏览器会新建一个内容页的标签页。 在内容页标签页中,点击添加字段
,然后在浏览器中点击新闻内容,修改字段名称为内容。
然后,下一步,完成。 我们测试下任务
如何删除一个标签页? 右击浏览器标签页的顶部,选择删除此页面
。
请先
!