建立一个深度网络扫描器
有时您需要扫描一个网站,但是要更深一层。例如,你想建立一个网站的网络树图。这可以通过寻找所有 <A>
标签,并跟随 HREF
属性到下一个网页来实现。一旦你获得了子页面,你就可以继续扫描,以便完成树状图。
如何做...
1.如前所述,深度网络扫描器的核心组件是基本的 Hoover
类。本示例中介绍的基本过程是扫描目标网站并收集所有 HREF
属性。为此,我们定义了 Application\Web\Deep
类。 我们添加一个代表 DNS 域的属性:
2.接下来,我们定义了一个方法,该方法将对扫描列表中代表的每个网站的标签进行抓取。为了防止扫描器搜索整个万维网(WWW),我们将扫描范围限制在目标域。之所以加入了yield from
,是因为我们需要输出由 Hoover::getTags()
产生的整个数组。yield from
语法允许我们将数组视为一个子生成器:
使用 yield from
可以将 scan()
方法变成一个PHP 7的委托生成器。通常情况下,你会倾向于将扫描的结果存储到一个数组中。问题是,在这种情况下,检索到的信息量可能是巨大的。因此,为了节省内存和立即产生结果,最好的方式是使用 yield
。否则,就会有一个漫长的等待,这很可能会出现内存不足的错误。
3.为了保持在同一个域内,我们需要一个方法来从URL中返回域。我们使用方便的 parse_url()
函数来实现这一目的:
如何运行...
首先,先去定义前面定义的 Application\Web\Deep
类,以及前面配方中定义的 Application\Web\Hoover
类。
接下来,在 chap_01_deep_scan_website.php
中定义一个代码块来设置自动加载(如本章前面所述):
接下来,获取新类的一个实例:
此时,你可以从 URL 参数中检索 URL 和标签信息。PHP 7的null 合并运算符对于建立回退值非常有用:
一些简单的HTML将显示结果:
参考
关于生成器和yield from
的更多信息,请参阅 http://php.net/manual/en/language.generators.syntax.php
最后更新于