Перейти к содержимому

MOAB

* * * * * 1 Голосов

Как проверить внешние ссылки?


  • Войдите, чтобы ответить
Сообщений в теме: 8

#1 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 829 сообщений
3 036

Отправлено 03 Август 2018 - 04:59

Есть список ссылок, там страницы на разных языках. У меня никакого желания смотреть вручную, что там написано нет.
Я хочу, чтобы среди этих ссылок не было совсем спама, фармы, адалта и прочей политики.
Сам смог придумать только спарсить страницу и прогнать её по списку стоп слов (и так постоянно делать).
Вопрос.
Как это можно сделать правильно?

#2 snatch

snatch

    Мастер

  • Активный участник
  • PipPipPipPip
  • 1 421 сообщений
1 629
  • ИзFuturama

Отправлено 03 Август 2018 - 06:32

взять в помощь базу заблокированных сайтов? хотя она далеко не все отсеит

#3 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 829 сообщений
3 036

TC Отправлено 03 Август 2018 - 08:16

вот ещё бы его скачивать научиться :)
но этого мало, конечно.

#4 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 828 сообщений
6 007
  • ИзКрии

Отправлено 03 Август 2018 - 13:29

Нет, вы только посмотрите. Теорему Байеса осилить они не могут, но фильтрацию им из коробки подавай!

Просмотр сообщенияazsx сказал:

Сам смог придумать только спарсить страницу и прогнать её по списку стоп слов (и так постоянно делать).
А есть ещё какой-то способ узнать что там на странице не забрав её на обработку? :)

#5 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 829 сообщений
3 036

TC Отправлено 03 Август 2018 - 13:47

надо спросить на другом форуме.

#6 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 2 877 сообщений
1 485
  • ИзСанкт-Петербурга

Отправлено 03 Август 2018 - 15:52

Если я правильно понял, то есть список страниц, на которых стоят ссылки. Чтобы узнать анкор, нужно по-любому пропарсить программой страницу и вытащить анкор.
После этого можно что-нибудь обрабатывать.
Я сервисов таких не знаю.

#7 donc

donc

    Гай Юлий Калигула Сковородкер

  • Основатель
  • PipPipPipPipPip
  • 9 454 сообщений
7 961
  • Изсекты свидетелей Кецалькоатля

Отправлено 04 Август 2018 - 13:39

Просмотр сообщенияazsx сказал:

Сам смог придумать только спарсить страницу и прогнать её по списку стоп слов (и так постоянно делать).
Собственно так и делать, а как иначе. Чтоб быстрее - винком можно.

#8 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 829 сообщений
3 036

TC Отправлено 04 Август 2018 - 20:12

donc, и вы туда же? А если сайт сделан только под спам трафф и текста на нём нет? Ну вот тупо туб целиком грузиться без текста внутри, только анкоры на другие сайты всякие левые.
Понятно, что когда мне пишут комент на 4К символов максимум вполне можно блокировать в нём стоп слова. Но если дают линк на статью на 50К символов, там вполне могут быть стоп слова, при чём по делу. Коэффициенты вводить?
зы
в старт посте есть слово адалт. Всё -- блочить страницу?

#9 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 2 877 сообщений
1 485
  • ИзСанкт-Петербурга

Отправлено 06 Август 2018 - 15:41

Просмотр сообщенияazsx (04 Август 2018 - 20:12) писал:

в старт посте есть слово адалт. Всё -- блочить страницу?
Да. А как вы собрались блочить страницы с беками? В гугл.вебмастере?



Похожие темы


Количество пользователей, читающих эту тему: 3

0 пользователей, 3 гостей, 0 анонимных



© 2018 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва

Мы в соцсетях: twitter | вконтакте | facebook | livejournal