Bądź: Wyszukaj na stronie z użyciem Google
reklama:

piątek, 9 maja 2008

Pobieranie stron internetowych – Wget

Autor: , 09:00, piątek, 9 maja 2008


Myślę, że każdemu zdarzyło się pobierać jakąś stronę internetową na dysk. Sytuacja jest prosta gdy musimy pobieramy tylko jedną stronę. Gdy jednak pobieramy cały portal musimy użyć specjalistycznego programu. Dziś postaram się przybliżyć funkcje domyślnie wgranego w Ubuntu programu Wget.

Wget nie ma oficjalnego środowiska graficznego, dla tego też będziemy go obsługiwać z linii poleceń. Oczywiście powstało kilka nakładek graficznych na Wget (np. Gwget, instalacja 'sudo apt-get install gwget') lecz posiadają one jedynie podstawowe funkcje oferowane przez Wget.

Zacznijmy od składni. Każde polecenie wydawane programowi powinno mieć postać:
wget [opcje] [adres url]
np.:
wget -t 45 http://www.google.pl/
Gdy podstawy mamy już za sobą wystarczy poznać polecenia, które umieszczamy przed linkiem pobieranej strony. Oto kilka z nich:
--background program przechodzi do tła od razu po uruchomieniu
--version wyświetla wersję Wget
--help wyświetla pomoc programu
--mirror tworzenie dokładnej kopii strony, bez zmiany linków i katalogów
--wait=sekundy odczekuje określoną ilość sekund między pobraniami
--recursive włącza pobieranie rekurencyjne (czyli pobieranie całych witryn)
--level=głębokość głębokość pobierania stron
--convert-links po pobraniu konwertuje linki tak aby strona mogła być odwierana offline
--no-directories pobiera wszystkie pliki do folderu domowego
Najlepiej uczyć się na przykładach, więc teraz kilka przykładowych poleceń:
Pobiera cały portal na dysk:
wget --recursive –convert-links http://www.onet.pl/

Pobiera wszystkie pliki z rozszerzeniem .jpg i .gif:
wget -r -A gif,jpg http://www.onet.pl/

Więcej informacji o programie znajduje się na stronie instrukcji:
http://ptm.linux.pl/man_HTML/info_pl_HTML/wget/wget_toc.html
Komentarze 7 comments
Anonimowy pisze...

Gdzie zostają zapisane poprane treści ?

Anonimowy pisze...

W katalogu, z którego go odpalasz.

Anonimowy pisze...

Zajebisty programik do konsoli,ponad 200 stron pobrałem od tak sprawdzałem jak daje rade wręcz rewelacyjny......

Anonimowy pisze...

Błąd w zdaniu ==> Wget nie ma oficjalnego środowiska graficznego, dla tego też ...........

Ma być: Wget nie ma oficjalnego środowiska graficznego, dlatego też ......

Anonimowy pisze...

A może mi ktoś odpowiedzieć jak mam pobrać całą witrynę czyli wszystkie podkatalogi, pliki .css oraz skrypty JQuery?

Anonimowy pisze...

Skoro jest taki rewelacyjny, to czy zapisze stronę do jednego pliku?
Chodzi mi tylko o stronę wraz z wszelkimi mediami, na której aktualnie jesteśmy. Opera mi zapisuje do mht ale
często bywa tak, że nie da się potem otworzyć takiego pliku albo jak się da to jest 100% użycia
procesora. Zależy to od danej strony. Np. zwyczajna strona z forum bez reklam nie chciała się otworzyć a inna z banerami otwierała ale CPU do 100% dochodził.
wget tworzy katalogi ze śmieciami i plik html. Da radę do jednego pliku?

Patryk Agafraz pisze...

Troszeczkę lepsza metoda z httrackiem chociaż wiadomo że wget to klasyk: http://haker.edu.pl/2016/02/05/download-a-website-httrack-wget/

Prześlij komentarz


Popularne posty

Etykiety