суббота, сентября 01, 2007

31 августа - День Блога!

День Блога 2007

Эх, немного опоздал, но в следующий раз не пропущю такое событие.


Что такое BlogDay?

Идея BlogDay состоит в том, что блогеры обязательно должны иметь хотя бы один день, который можно было бы посвятить знакомству со своими коллегами из разных стран и с разными интересами, а так же рассказать друг о друге своим читателям.

Что должно случиться в BlogDay?

31 августа, блоггеры со всего мира будут публиковать у себя в блогах ссылки на 5 новых блогов, предпочтительно тех блогов, которые отличаются от их собственной культуры, области и точки зрения. Читатели же этих блогов будут открывать для себя новые блоги, праздновать знакомство с новыми людьми и просто блогерами.


взято отсюда blogday.ru

Яндекс запустил тест

Сегодня прошёл тест Твой уровень владения интернетом и получил чёрный пояс :). Нужно было ответить на 10 вопросов про интернет. Вопросы оказались на мой взгляд лёгкими, но думаю не всем по зубам ответить на 10 вопросов без ошибок. А так очень забавная идея и реализация!

Черный пояс

Черный пояс. Выше – только звезды. Есть, чем гордиться. Заслужили. Однако не советуем особо зазнаваться – вопросы теста будут регулярно меняться.

Твой уровень владения интернетом


воскресенье, августа 05, 2007

Обновление Snail

Добавил грабер сайта работает так:
snail --project=sitegrabber --url="http://domen.org/ru/" --include="http://domen\.org/ru/"
--include - регулярное выражение
--count - работает также как и для других проектов

обновление здесь snail parser

суббота, августа 04, 2007

Snail parser

Snail - это консольный парсер с гибкими настройками, написан на Python'е (демо версия доступна здесь Linux)
Для работы требуется Python 2.5.1 (pycurl)

В данный момент написан плагины для парсинга Google'a и Overture'ы

Основные характеристики/фичи:

  • модульность;
  • гибкая настройка скрипта;


Устанвка

  1. распакуйте архив;
  2. зайдите в папку и введите команду: "sudo ln -s `pwd`/snail /usr/bin/snail" (тем самым создатите ссылку на запуск скрипта);
  3. всё теперь можете запускать скрипт с любой папки;


Описание работы с плагином для парсинга Google:

  • настойки храняться в папке project (proect/google.py);
  • для парсинга нужно создать/выбрать папку где будут храниться результаты работы;
  • запустить в командной строке: "snail --project=google --keywords="[ваше ключ слово]" --lang-count=1";
  • где
    --project - название проекта,
    --keywords - ключ. слова,
    --lang-count - количество языков (по умолчанию максимальное возможное кол.),
    --lang - языки, которые будут использоваться (--lang="ru en pl" или --lang="", по умолчанию все возможные языки),
    --tld - домены (--tld="com ru de", по умолчанию все возможные домены),
    --tld-count - аналогично --lang-count,
    --stream-count - количество потоков (по умолчанию 5),
    --count - макс. кол. загружаемых url'ов (по умолчанию бесконечно),
    --proxy - http прокси (--proxy="68.02.57.15:8888"),


Описание работы с плагином для парсинга Overture:

  • для парсинга нужно создать/выбрать папку где будут храниться результаты работы;
  • запустить в командной строке: "snail --project=overture --keywords="[ваше ключ слово]" --count=1000";
  • где
    --project - название проекта,
    --keywords - ключ. слова,
    --stream-count - количество потоков (по умолчанию 5),
    --count - макс. кол. загружаемых url'ов (по умолчанию бесконечно),
    --proxy - http прокси (--proxy="68.02.57.15:8888"),
  • для парсинга Overture'ы добавьте параметр --count чтобы ограничить кол. парингуемых url'ов

В конце работы скрипта получите результат работы в файл [ваше ключ слово].csv