апреля 20, 2007

 

Spam-IT B - неопубликованное руководство


Всем известно, что хелп, который идет в поставке с Spam-IT B далек от совершенства и не только новичку, но и матерому сеошнику освоить этот великий продукт не так уж просто. Однако, достаточно поэксперементировав и поработав с этой программой вы, наверняка, прийдете к выводу, что встроенного хелпа более чем достаточно для полноценной работы. Но, как и в любом деле, тут есть свои тонкости, о которых и пойдет речь дальше.


Поле Scope

Это поле присутствует на формах Follow (тут ограничивает поиск страниц с формами) и Post (тут ограничивает поиск страниц, на которых было опубликовано сообщение).
В поле Scope можно задавать следюущие значения:
Если адрес имеет вид
http://site.com/gbook/guestbook.cgi?act=show,
то при различных значения поля Scope поиск будет ограничиваться следующим образом:

Host - поиск ограничивается текущим доменом, т.е. пляшет от
http://site.com/

Base Path - поиск ограничивается текущей директорией (последним слешем), т.е. пляшет от
http://site.com/gbook/

Path - поиск ограничивается текущим скриптом, который может иметь другие парамметры, т.е. пляшет от
http://site.com/gbook/guestbook.cgi


Файл APContexts.csv

В этот файл заносятся правила сопоставления названия полей форм, в которые постится сообщение, и полей файла объявлений.

Правила добавление записей в файл APContexts.csv:
1) В столбце "Regex" можно употреблять только буквы, цифры, пробел.
2) При сопоставлении имен полей программа не учитывает регистр (маленькая или заглавная буква).
3) Если нужно совпадение с именем поля целиком, то необходимо обрамлять его в "\b", например: "\bPW\b" для поля с именем PW.
Зачастую полное совпадение с именем поля необходимо использовать для коротких имен полей.
4) Что касается полей !post, то при обработке формы программа сначала смотрит на парамметр Name каждой кнопки, а затем еще и на парамметр Value, что позволяет программе правильно определять нужнуюкнопку для отправки сообщения. А значит что, при написании правил для полей !post вы обязательно должны это учитывать!

Важно: чтобы изменения, внесенные в файл APContexts.csv, вступили в силу - необходимо перезапустить Spam-IT B.


Файл ProxySources.csv

В этот файл заносятся адреса прокси листов и конструкции для правильного распарсивания программой проксей из этих самых списков.

В стандартном файле ProxySources.csv можно встретить две конструкции для добавления прокси листов в файл:

1) "http://site1.com/proxy.php","(?
\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*:\s*(?\d{1,5})"
Применяется если в коде страницы прокси записаны в виде IP:port, например, 65.65.65.65:80

2) "http://site2.com/proxy.php","!HTMLDecode:(?
\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*:\s*(?\d{1,5})"
Применяется если прокси также представлены в виде IP:port, но присутствуют HTML encoded последовательности, например, 65.65.65.65:80

В случаях когда прокси записаны в таблицах, например, IP в одном столбце, а порт в другом, необходимо писать разные регулярные выражения под каждый ресурс отдельно.
Существуют также реурсы, где списки прокси отображаются с использованием Java Script, такие ресурсы Spam-IT B не распарсит.

Важно: чтобы изменения, внесенные в файл ProxySources.csv, вступили в силу - необходимо перезапустить Spam-IT B.


Алгоритм собирания базы по бекам

Следующий алгоритм составлен с учетом особенностей программы Spam-IT B.
1) Парсите поисковики на ТОП 100 (тут по желанию можно и на ТОП 10, 20, 50, 100, 200, 500, 1000) по интерисующим вас запросам.
2) Парсите беки на сайты/страницы, найденные в п.1.
3) В адреса, полученные в п.2, запускаете Post с установленной галочкой Check. Адреса, в которые прошел пост, добавляете в базу.
4) Исключаете из оставшихся адресов:
- адреса которые выдали ошибку,
- адреса, в которые прошел пост, т.к. их вы уже занесли в базу,
- адреса, на которых обнаружена форма, но пост не прошел.
5) Для оставшихся после п.4 аресов запускаете Follow. Тут кроме поля Scope необходимо также заполнить поле Regular exspressions, например, следующим образом:
add
append
eintrag
form
insert
new
post
reply
sign
submit
write
6) В адреса, полученные в п.5, запускаете Post с установленной галочкой Check. Адреса, в которые прошел пост, добавляете в базу.

Comments: Отправить комментарий



<< Home
  • This page is powered by Blogger. Isn't yours?