以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术 』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  如何获取多个web页面  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=51588)


--  作者:fangel2000
--  发布时间:8/21/2007 9:14:00 AM

--  如何获取多个web页面
我现在想对某个网站的部分网页进行分析,挖掘出其中的信息。假如我知道其中一个网页的网址为:http://weather.yahoo.com/1.html,那么怎么才能知道和这个网页相链接的其它web页面的网址呢?也就是说如何获取多个web页面呢?
--  作者:DMman
--  发布时间:8/27/2007 6:20:00 PM

--  
没搞过 可能要解析HTML或XML吧
--  作者:abe6364
--  发布时间:9/3/2007 9:16:00 AM

--  
这个你可以去参考一下:web爬虫的设计与实现。
web爬虫就是要解析html文件,然后从中提取新的链接,然后根据一定的策略,决定是不是下载这个新链接所对应的文件。
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
31.250ms