Ранжирование, спам и антиспам презентация

Содержание

Слайд 2

Что и для чего проходим?

Апдейты ПС
Текстовый спам
Спам в коде страниц
Дорвеи и редиректы
Клоакинг и

свопинг
Заимствование контента
Аффилиаты
Ссылочный спам
Поведенческий спам
Спам в рекламе
Парсинг

Слайд 3

Машинное обучение

Тематическая классификация

Слайд 4

Инструкция

Алгоритмы

Машинное обучение

Слайд 5

F3

F7 > 2

F3 > 2

F3 > 1

2

1

4

3

Деревья вариантов

Слайд 6

Асессоры

Слайд 7

Асессоры

Слайд 8

Асессоры

Слайд 9

Классификация текстов и запросов

Слайд 10

Тематическая классификация

Слайд 11

Тематическая классификация

Слайд 12

Тематическая классификация

http://tag4site.ru/classify

Слайд 13

Тематическая классификация

Слайд 15

Okapi BM25 — функция ранжирования

Слайд 16

Okapi BM25 — функция ранжирования

Слайд 17

Модификации BM25

BM25F
LinkBM25

Слайд 18

Задача

Посчитайте BM25 для анкор-листа

Слайд 19

Апдейты ПС

Слайд 20

Апдейты

Слайд 21

Что и для чего проходим?

Может произойти изменение позиций без изменений индекса, т.е. вы

обновили тексты, произошел апдейт, но тексты остались старыми

Проходит 107 дней до индексации ссылки
(по данным tools.promosite.ru)

Слайд 22

Что и для чего проходим?

tools.promosite.ru

Виды апдейтов

Слайд 23

Как определять апдейты

По количеству изменений считается % шторма

Слайд 24

Текстовый спам

Слайд 25

Спам в тексте страниц

— избыток ключевых слов в тексте страницы, некачественные, бесполезные тексты,

размещенные для манипулирования позициями.

Слайд 26

Спам в тексте ссылок

— большое количество ссылок с одинаковыми анкорами, с коммерческими анкорами.

Слайд 27

Спам в мета-тегах

слишком длинные мета-теги,
редкие n-граммы (купить детская каша, низкая цена),
использование

спецсимволов,
сгенерированные по одной простой формуле,
спам в содержимом микроразметки

Слайд 28

Синонимайзинг, рерайт

— создание новых текстов по образцу старых без добавления к ним новой

смысловой ценности путем изменения формы (переформулирования, замены слов на синонимы).

Слайд 29

Автогенерация текстов

— автоматическое создание текстов по заранее заданным параметрам/формулам.

Слайд 30

Спам в коде страниц

Слайд 31

Манипулирование HTML-тегами

Description
Keywords
H1, H2, H3, H4, H5, H6
STRONG, B
EM, I

Слайд 32

Скрытие текста от посетителей

Белый текст на белом фоне
1 пиксельный текст
Скрытие через CSS (display:none)
Создание

зон «текст в подвале»

Слайд 33

Скрытие текста от посетителей

Белый текст на белом фоне
1 пиксельный текст
Скрытие через CSS (display:none)
Создание

зон «текст в подвале»

окна

окна

окна

окна

окна

Слайд 34

SEO-тексты

Рерайт текстов
Разные методы «уникализации» текста
Генерация SEO-текстов
Множественное употребление слов в тексте

Слайд 35

Как определяется спам в почте

Задачка: придумайте алгоритм определения спама в почте, на основе

только текстовых факторов

Слайд 36

Дорвеи и редиректы

Слайд 37

Дорвеи и редиреты

— сайты, которые создаются для манипулирования поисковыми системами, с целью получения

трафика и его перепродажи, за счет создания низкокачественного контента и перенаправления пользователя, часто, путем обмана (автогенерация доменов, страниц, автоматическое заимствование контента с долгоиндексируемого сайта).

Слайд 38

Клоакинг и свопинг

Слайд 39

Свопинг

— создание страницы, контент на которой меняется сразу после выхода в ТОП, использовалось

для продвижения запрещенных тематик в Google

Слайд 40

Клоакинг

— показ разного контента роботу поисковой системы и пользователю (разные версии страниц, скрытые

блоки, спамные страницы в скрытой части сайта).

Слайд 41

Заимствование контента

Слайд 42

Заимствование контента

— показ чужого контента на своем сайте (автоматическое/ручное заимствование/iframe).

Слайд 43

Аффилиаты

Слайд 44

Разные сайты одной компании

— попытка монополизировать рынок через манипулирование поисковой выдачей.
совпадение контактных данных,
один

хостинг, один IP-адрес,
одинаковый дизайн,
одинаковый ассортимент, ценовое предложение,
адрес самовывоза,
владельца домена,
один аккаунт Вебмастера или Метрики,
оплата контекста с одного юр.лица

Слайд 45

Сателлиты

Слайд 46

Разные сайты одной компании

Слайд 47

Ссылочный спам

Слайд 48

Ссылочный спам

факт размещения ссылки для накрутки результатов ранжирования,
создание сайтов для продажи ссылок (отдельные

или сетки сателлитов):
наличие низкокачественного контента,
бесплатный дизайн и CMS,
размещение большого количество ссылок с главной страницы на внутренние,
прогон сайта по каталогам или низкокачественные ссылки,
молодой сайт без живого трафика,
появление ссылок на другие сайты в отсутствие трафика и позиций.

Слайд 49

Ссылочный спам

взлом сайтов, использование вирусов (продажа ссылок с display:none),
спам по форумам, гостевым книгам,

доскам объявлений, каталогам (бесплатные CMS без обновления),
покупка ссылок (ссылочный взрыв),
обмен ссылками,
публикация мусорных статей и ссылки из них.

Слайд 50

Как идентифицировать ботов

Задачка: придумайте самообучающийся алгоритм определения спама в комментариях для движка типа

wordpress

Слайд 51

Поведенческий спам

Слайд 52

Поведенческий спам

имитация действий пользователей на выдаче,
имитация переходов по ссылке,
имитация поведения внутри сайта.

Слайд 53

Спам в рекламе

Слайд 54

Спам в рекламе

Pop-up реклама,
Ссылки, ведущие на спамные сайты,
Ссылки или реклама сайтов запрещенных

тематик
Злоупотребление партнерскими программами
Отправь SMS, введи код, оплати доступ и т.п.

Слайд 57

Парсинг

Слайд 58

Парсинг

сервисы подбора запросов,
поисковая выдача:
URL сайтов,
позиции,
сниппеты,
технические данные.
сохраненные копии
контекстная реклама
Яндекс.Каталог

Слайд 59

Уведомления

Слайд 60

Настройка уведомлений

Слайд 61

Антиспам

Слайд 62

Последствия спама для ПС

мусорный контент,
медленная работа серверов,
ущерб качественным ресурсам,
потеря аудитории

Слайд 63

Что искать?

контент,
ссылки,
поведение

Слайд 64

Что искать?

86% спама можно вычислить на основе анализа контента страниц.

Слайд 65

Как искать?

Слайд 66

Как искать?

Обнаружение спам страниц как задача бинарной классификации:
1 – спам
0 – не спам
Требуется:
Список

признаков
Метод классификации

Слайд 67

Как искать?

Слайд 68

Как искать?

Попытка №1

Слайд 69

Как искать?

Слайд 70

Как искать?

Слайд 71

Как искать?

Слайд 72

Как искать?

Слайд 73

Как искать?

Слайд 74

Как искать?

Попытка №2

Слайд 75

Как искать?

Слайд 76

Как искать?

Слайд 77

Как искать?

Слайд 78

Как искать?

Слайд 79

Как классифицировать сайт?

Слайд 80

Как классифицировать сайт?

Слайд 81

Как классифицировать сайт?

Слайд 82

Как классифицировать сайт?

Слайд 83

Как классифицировать?

Слайд 84

Как классифицировать сайт?

Слайд 85

Как классифицировать сайт?

Слайд 86

Оценка качества поиска

Слайд 87

Показатели качества поиска

Полнота - отношение числа найденных релевантных документов, к общему числу релевантных документов в базе.


Точность - отношение числа релевантных документов, найденных ПС, к общему числу найденных документов.
Имя файла: Ранжирование,-спам-и-антиспам.pptx
Количество просмотров: 47
Количество скачиваний: 0