Snail - это консольный парсер с гибкими настройками, написан на Python'е (демо версия доступна
здесь Linux)
Для работы требуется Python 2.5.1 (pycurl)
В данный момент написан плагины для парсинга Google'a и Overture'ы
Основные характеристики/фичи:
- модульность;
- гибкая настройка скрипта;
Устанвка
- распакуйте архив;
- зайдите в папку и введите команду: "sudo ln -s `pwd`/snail /usr/bin/snail" (тем самым создатите ссылку на запуск скрипта);
- всё теперь можете запускать скрипт с любой папки;
Описание работы с плагином для парсинга Google:
- настойки храняться в папке project (proect/google.py);
- для парсинга нужно создать/выбрать папку где будут храниться результаты работы;
- запустить в командной строке: "snail --project=google --keywords="[ваше ключ слово]" --lang-count=1";
- где
--project - название проекта,
--keywords - ключ. слова,
--lang-count - количество языков (по умолчанию максимальное возможное кол.),
--lang - языки, которые будут использоваться (--lang="ru en pl" или --lang="", по умолчанию все возможные языки),
--tld - домены (--tld="com ru de", по умолчанию все возможные домены),
--tld-count - аналогично --lang-count,
--stream-count - количество потоков (по умолчанию 5),
--count - макс. кол. загружаемых url'ов (по умолчанию бесконечно),
--proxy - http прокси (--proxy="68.02.57.15:8888"),
Описание работы с плагином для парсинга Overture:
- для парсинга нужно создать/выбрать папку где будут храниться результаты работы;
- запустить в командной строке: "snail --project=overture --keywords="[ваше ключ слово]" --count=1000";
- где
--project - название проекта,
--keywords - ключ. слова,
--stream-count - количество потоков (по умолчанию 5),
--count - макс. кол. загружаемых url'ов (по умолчанию бесконечно),
--proxy - http прокси (--proxy="68.02.57.15:8888"),
- для парсинга Overture'ы добавьте параметр --count чтобы ограничить кол. парингуемых url'ов
В конце работы скрипта получите результат работы в файл [ваше ключ слово].csv