自己动手写网络爬虫.pdf


立即下载 日耀九洲
2024-04-20
抓取 网页 浏览器 URL 爬虫 URI 网络 文件 资源 服务器
2.5 MB

第 1篇
自己动手抓取数据
第 1章
全面剖析网络爬虫
你知道百度、Google 是如何获取数以亿计的网页并且实时更新的吗?你知道在搜索引
擎领域人们常说的 Spider 是什么吗?本章将全面介绍网络爬虫的方方面面。读完之后,你
将完全有能力自己写一个网络爬虫,随意抓取互联网上任何感兴趣的东西。
既然百度、Google 这些搜索引擎巨头已经帮我们抓取了互联网上的大部分信息,为什
么还要自己写爬虫呢?因为深入整合信息的需求是广泛存在的。在企业中,爬虫抓取下来
的信息可以作为数据仓库多维展现的数据源,也可以作为数据挖掘的来源。甚至有人为了
炒股,专门抓取股票信息。既然从美国中情局到普通老百姓都需要,那还等什么,让我们
快开始吧。
4
1
1.1 抓 取 网 页
网络爬虫的基本操作是抓取网页。那么如何才能随心所欲地获得自己想要的页面?这
一节将从 URL 开始讲起,然后告诉大家如何抓取网页,并给出一个使用 Java 语言抓取网页
的例子。最后,要讲一讲抓取过程中的一个重要问题:如何处理 HTTP 状态码。
1.1.1 深入理解 URL
抓取网页的过程其实和读者平时使用 IE 浏览器浏览网页的道理是一样的。比如,你打
开一个浏览器,输入猎兔搜索网站的地址,如图 1.1 所示。
图 1.1 使用浏览器浏览网页
“打开”网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了
一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。更进一步,可以通过浏
览器端查看“抓取”过来的文件源代码。选择“查看”|“源文件”命令,就会出现从服务
器上“抓取”下来的文件的源代码,如图 1.2 所示。
在上面的例子中,我们在浏览器的地址栏中输入的字符串叫做 URL。那么,什么是 URL
呢?直观地讲,URL 就是在浏览器端输入的 http://www.lietu.com 这个字符串。下面我们深
入介绍有关 URL 的知识。
在理解 URL 之前,首先要理解 URI 的概念。什么是 URI?Web 上每种可用的资源,如
HTML 文档、图像、视频片段、程序等都由一个通用资源标志符(Universal Resource Identifier,
URI)进行定位。
URI 通常由三部分组成:①访问资源的命名机制;②存放资


抓取/网页/浏览器/URL/爬虫/URI/网络/文件/资源/服务器/ 抓取/网页/浏览器/URL/爬虫/URI/网络/文件/资源/服务器/
-1 条回复
登录 后才能参与评论
-->