2013-10-07 16:05:46 +0000 2013-10-07 16:05:46 +0000
21
21

使用Wget下载所有文件夹、子文件夹和文件。

我一直在使用Wget,但我遇到了一个问题:我有一个网站,在网站内有几个文件夹和子文件夹。我有一个网站,在网站内有几个文件夹和子文件夹。我需要下载每个文件夹和子文件夹内的所有内容。我已经尝试了几种方法使用Wget,当我检查完成,所有我能看到的文件夹是一个 “索引 "文件。我可以点击索引文件,它将带我到文件,但我需要实际的文件。

有没有人有一个我忽略的Wget命令,或者有其他的程序可以让我得到这些信息?

网站示例:

www.mysite.com/Pictures/ 在图片DIr中,有几个文件夹…..。

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America/California/JoeUser.jpg

我需要所有文件、文件夹等…..。

答案 (3)

38
38
38
2013-10-07 16:23:25 +0000

我想假设你没有试过这个。

wget -r --no-parent http://www.mysite.com/Pictures/

或者不下载 “index.html "文件就能检索内容。

wget -r --no-parent --reject "index.html\*" http://www.mysite.com/Pictures/

参考: 使用wget递归地获取一个包含任意文件的目录

20
20
20
2014-12-20 09:22:17 +0000

我使用wget -rkpN -e robots=off http://www.example.com/

-r表示递归

-k表示转换链接。所以网页上的链接将是localhost而不是example.com/bla

-p 意味着获取所有的网页资源,所以要获取图片和javascript文件以使网站正常运行。

-N 表示获取时间戳,所以如果本地文件比远程网站的文件新,则跳过它们。

-e是一个标志选项,它需要在那里才能让robots=off发挥作用。

robots=off意味着忽略robots文件。

我还在这个命令中加入了-c,所以如果他们的连接中断了,当我重新运行这个命令时,就会从原来的地方继续。我想-N可以和-c一起使用。

1
1
1
2014-12-20 09:11:52 +0000

wget -m -A * -pk -e robots=off www.mysite.com/ 这将在本地下载所有类型的文件,并从html文件 指向它们,它将忽略robots文件。