Архив

Публикации с меткой ‘Hrefer’

Уменьшаем вероятность абуз при постинге

Описанная идея и ее реализация появилась еще во времена конкурсов на 4seo.biz. Однако в то время руки как-то так и не дошли. Зато есть повод описать использование моей идеи применительно к хрумеру.

Чем сможет помочь использование этой идеи?

Поможет удалить из Вашей базы потенциальных абузеров и хорошие модерируемые ресурсы. Это, в свою очередь, избавит Вас от серьезных абузеров и действий людей, которые будут отправлять Ваши ресурсы в Гугл для удаления из индекса, или начинать ДДОСить фиды (мне один раз попался такой красавчег).

Переходим к делу.

На входе у нас есть свеженапаршенная Hrefer’ом база. Далее по пунктам.

0. (не обязательный, можно попробовать и с ним, и без него). Проходим один раз по базе, оставляя ссылку на какой-нибудь ресурс (можно и на свой дор). Этот пункт желателен для увеличения отдачи от пункта 2.

1. Устанавливаем скрипт сбора абузных ресурсов. Размещать скрипт лучше на любом фришнике, поддерживающим php; найти такой в гугле особых проблем не составит. Вот пример скрипта, который нужно будет сохранить под именем “index.php”, и залить на тот фришник, который Вы нашли:

<?

if ($_POST['remove_url']==”")
{
echo ‘<!DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”
“http://www.w3.org/TR/html4/loose.dtd”>
<html>
<head>
<title>Stop Spam Service</title>
</head>
<body>
<form name=”form1″ method=”post” action=”" >
<p>Please, type URL address of you resource here. It will be immediately removed from our list.</p>
<p>
<input type=”text” name=”remove_url” size=”70″>
<input type=”submit” name=”Submit” value=”Remove”>
</p>
</form>
</body>
</html>
‘;
}
else
{
$t=parse_url($_POST[remove_url]);
$fp = fopen(’urls.txt’, ‘a+’);
fwrite($fp, str_replace(’www.’, ”, $t['host']).”\n”);
fclose($fp);

echo (”Thanks! You’ll no longer receive messages with advertising from us!”);
}
?>

Также в папку со скриптом закачайте файл urls.txt, и присвойте ему права доступа 777. В итоге, при заходе на фришник владельцев ресурса, они увидят приблизительно такую формочку:

Если Вы работаете с русскоязычными ресурсами, напишите текст с таким смыслом:

“Пожалуйста, укажите адрес Вашего сайта, и он будет немедленно удален из списка ресурсов, которые хотят получать рекламные объявления и новости других сайтов.”

2. Нам необходимо составить сообщение, которое мы разошлем по нашей базе. Приблизительное содержание сообщения: “Здравствуйте. Адрес Вашего сайта был найден в публичном списке ресурсов, которые хотели бы получать рекламные объявления. Если Вы НЕ желаете, чтобы мы размещали на Вашем сайте рекламные объявления, пожалуйста, перейдите на сайт http://мойфришник.com, где Вы сможете легко удалить свой сайт из списка.”

Внимание! Ни в коем случае не составляйте объявление и проект в хрумере так, чтобы они содержали активную ссылку на ваш фришник со скриптом - в таком случае фришник могут снести в течение нескольких дней из-за абуз. В проекте для хремера оставьте пустым поле URL. Я не ставлю активной ссылки, и мой скрипт нормально работает на фришнике уже больше полугода.

3. Рассылаем сообщение по нашей базе ресурсов.

4. Через несколько дней заходим заходим по ftp на фрихост, на котором работает скрипт из пункта 1 (ну или через администраторскую панель, если фрихост не предоставляет досутп к сайту по ftp), и добавляем все собравшиеся в файле urls.txt ресурсы в файл xblack.txt, который лежит в папке с хрумером.

5. У хрумера есть 2 инструмента, которые доступны даже пользователям, не купившим программу - это “Удалить повторные ссылки” и “Удалить все файлы по black-листу”. Их можно найти в выпадающем мнею “Инструменты”.

С помощью инструмента “Удалить повторные ссылки” мы уникализируем наш файл xblack.txt. Далее нажимаем “Удалить все файлы по black-листу”, и выбираем базу, которую будем фильтровать от ресурсов, содержащихся в xblack.txt. Ждем окончания процесса фильтрации.

6. Копируем файл xblack.txt из папки с хрумером в папку с хрефером, чтобы потенциальные абузные ресурсы фильтровались еще при парсинге. Теперь Вам останется только повторять пукнты 0-6 с каждым обновлением своей базы ресурсов (хотя можно и немного почаще).

Успехов!

Связанные записи

О парсерах

20 января 2008 3 комментария

Как и обещал в предыдущем посте, расскажу тут про парсеры поисковиков

1. Парсер SpamIt B!. В спамилке SpamIt B! есть 3 встроенных парсера поисковиков - для гугла, яхи и мсн. Сами парсеры неплохие, свою задачу выполняют, но не более. Никаких автоподстановок зон, никакого автосохранения результатов в файл (кроме парсера гугла). Во многом из-за этого и отказался от этих встроенных парсеров. Очень нервирует, когда софт работает несколько дней, а потом вылетает, не сохранив никаких результатов.

2. Hrefer. Этот парсер - бесплатное приложение к спамилке Hrumer. Хотя по-моему парсер можно купить и отдельно. Лишен основных недостатков предыдущего парсера. Единственные недоработки - нету возможности перебора языков, и несколько непродуманная и негибкая работа с проксями.

3. Xkovator. Отличный парсер. Обладает самыми гибки настройками, возможность перебора языков, подстановки уточняющих слов и доменных зон, более-менее продуманной работой с проксями. Единственное, что не нравится - ожидал бОльшего от режима “SmartParsing”, когда программа сама решает, нужно ли подставлять дополнительные признаки или нет на основе количества результатов поиска. Разработчик уже несколько месяцев обещает через месяц выпустить новую версию, где будет многое улучшено, но никаких результатов этих обещаний пока нету. Подробнее о программе можно прочитать на ее сайте - http://xkovator.com/. Стоимость парсера гугла на 1 год - 50$.

Есть еще несколько парсеров, например Aura второй версии. Но сам ей не пользовался, поэтому ничего писать не буду.

Жаль, что до сих пор нету  комплексного решения для парсинга того же гугла. Чтобы я дал на вход список запросов, а на выходе получил список страниц с формой.  И скорее всего уже и не появится, ибо время когда можно было на этом хорошо заработать почти ушло. А жаль.

Связанные записи