wget指令及问题

wget 下载东西,的确很方便,它会自动重连并断点续传。让人很放心。 对于经常要下载一个网站或网站的某个目录的开发人员来说,是非常不错的一个选择。接下里我将介绍一下 win 版的使用

流程

  1. Wget 的安装
  2. 配置
  3. 常用指令
  4. 事例 demo
  5. 问题汇总

实施

安装:

  网站网址 下载链接

  双击安装

配置

  以 win10 为例:

新建环境变量

  (操作:此电脑->属性->高级系统设置->环境变量)

1
GNU_HOME=C:\Program Files\GnuWin32

  我的是安装到 C 盘。如果安装到别的地方请改变路径

path 添加

1
;%GNU_HOME%\bin

常用指令

1
wget -r -p -k -np -nc -e robots=off
  • r 递归;对于 HTTP 主机,wget 首先下载 URL 指定的文件,然后(如果该文件是一个 HTML 文档的话)递归下载该文件所引用(超级连接)的所有文件(递 归深度由参数-l 指定)。对 FTP 主机,该参数意味着要下载 URL 指定的目录中的所有文件,递归方法与 HTTP 主机类似。 -c 指定断点续传功能。实际上,wget 默认具有断点续传功能,只有当你使用别的 ftp 工具下载了某一文件的一部分,并希望 wget 接着完成此工作的时候,才 需要指定此参数。
  • nc 不下载已经存在的文件 -np 表示不追溯至父目录,不跟随链接,只下载指定目录及子目录里的东西; -p 下载页面显示所需的所有文件。比如页面中包含了图片,但是图片并不在/yourdir 目录中,而在/images 目录下,有此参数,图片依然会被正常下 载。
  • k 修复下载文件中的绝对连接为相对连接,这样方便本地阅读。 -o down.log 记录日记到 down.log -e robots=off 忽略 robots.txt

实例

  下载一个目录,例如下载网站www.example.com/目录mydir下的所有内容

  命令如下:

1
wget -r -p -k -np -nc -e robots=off http://www.example.com/mydir/

  如果要想下载整个网站,最好去除-np 参数。

1
wget -r -p -k -nc -e robots=off http://www.example.com/mydir/

问题汇总

无法破解 ssl 证书

  

https://image.coderlab.cn/preview/1438623310899331074

  弊端