HTTrack: пример зеркалирования с учётом многих нюансов

httrack http://www.supersite.com/ru/ \
    -O "~/websites/supersite" \
    -P login:pass@10.1.0.16:3128 \
    --disable-security-limits \
    -c500 \
    -%c1000 \
    --max-rate=100000000000 \
    --timeout=10 \
    --retries=10 \
    -#L100000000000 \
    -https://m.supersite.com/* \
    -http://m.supersite.com/* \
    +https://*[a-z].supersite.com/ru/* \
    +https://*[a-z].supersite.com/static/* \
    +http://*[a-z].supersite.com/ru/* \
    +http://*[a-z].supersite.com/static/* \
    +https://misc.supersite.com/* \
    +http://misc.supersite.com/* \
    -%v \

Собственно, в том же порядке комментарии:

  1. http://www.supersite.com/ru/ – Откуда начинать поиск страниц. Главная страница сайта, начиная с которой нас всё интересует.
  2. -O “~/websites/supersite” – Где сохраняем.
  3. -P login:pass@10.1.0.16:3128 – Прокси. Иногда не подхватывает из окружения, так что лучше тут указать.
  4. –disable-security-limits – Выключаем все разумные ограничения! Очень могут мешать, так как блокируют некоторые опции.
  5. -c500 – Максимальное число одновременных соединений.
  6. -%c1000 – Максимальное число соединений в секунду.
  7. –max-rate=100000000000 – Ставим скорость “практически без ограничения”, по-умолчанию стоит всего 1000бпс.
  8. –timeout=10 – На практике было замечено, что некоторые страницы могут подвисать и не отдаваться вообще никогда. Смысла ждать долго просто нет.
  9. –retries=10 – Но если страница не открылась, HTTrack просто дропнет её сразу, без повтора. Дадим шанс до 10 раз, так как некоторые страницы могут застревать в очереди больше одного раза.
  10. -#L100000000000 – Узнал о такой “проблеме” уже после 2х суток мирроринга. Максимальное число страниц по-умолчанию - 10000, после этого HTTrack выключается, а новый запуск будет скачивать всё с нуля. Следовательно, увеличим число максимально. Если что, можно всегда и ручками прервать.
  11. -%v – Показываем всё красиво, со статусом.

Следует избегать фильтров, начинающихся с *****, так как в под фильтр попадают всякие “Share-it” сайты, а затем начинают попадать в дамп и они - это нам не нужно.

Стоит проверять наличие мобильных версий и отключать их дамп, так как там будет одно и то же, но время мирроринга увеличится в 2 раза.

Если нужны все под-домены, то следует указывать строгий wildcard – *http://[a-z].site.com и, конечно, не забывать о https.

Written on June 12, 2013