13 Oktober, 2016

Ladda hem flera filer från Archive.org med ett kommando

Jag ramlade över en drygt 10 år gammal poddradio vid namn Linux Reality häromdagen. Så vitt jag vet finns den bara tillgänglig på Archive.org idag.

Jag började med att ladda hem några avsnitt åt gången, men det innebar lite väl många steg för att bara få hem ett enda avsnitt och det blev snabbt långdraget. Jag sökte lite på webben och hittade ett smidigt tips där man använder Wget för att kunna ladda hem hela sökresultat i ett och samma kommando.

Det du gör är att du börjar med att gå till “Advanced Search”, skapa din sökning och välj sedan att få sökresultatet i en CSV-fil som du sparar på din dator. Värt att notera är att som standard visas bara upp till 50 sökresultat, i mitt fall finns det över 100 avsnitt, så för att få med alla behövde jag ändra värdet till något högre - något som jag missade första gången jag testade det.

Min fil search.csv såg ut såhär:

"identifier"
"lrp051"
"lrp059"
[...]

Ta bort raden "identifier" och alla cituationstecken så att filen ser ut såhär:

lrp051
lrp059
[...]

Du kan nu ladda hem alla filer med kommandot:

wget -r -H -nc -np -nH --cut-dirs=1 -e robots=off -l1 -i ./search.csv -B 'http://archive.org/download/'

Du kan även specifiera specifika filformat med kommandot:

wget -r -H -nc -np -nH --cut-dirs=1 -A .ogg,.mp3 -e robots=off -l1 -i ./search.csv -B 'http://archive.org/download/'

Alla filerna laddades sedan hem i respektive mapp för mig:

$ tree
├── search.csv 
├── lrp002
│   └── linuxreality002.ogg
├── lrp005
│   └── linuxreality005.ogg
├── lrp007

Men det är ju enkelt ordnat med mv. :)

Källa: http://blog.archive.org/2012/04/26/downloading-in-bulk-using-wget/

Lämna en kommentar:

Namn:

Hemsida (Valfritt):

Meddelande (kramdown-markup tillåtet):

Din kommentar kommer att publiceras när den har verifierats.