Перейти к содержимому

MOAB

- - - - -

Как определить регион сайта и/или страницы в интернете?


  • Войдите, чтобы ответить
Сообщений в теме: 8

#1 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 047 сообщений
2 593
  • ИзСанкт-Петербурга

Отправлено 13 Сентябрь 2022 - 12:11

Берем случайную страницу в интернете, скачиваем её содержимое. Как узнать, к какому региону она относится?
Может есть какие-нибудь сервисы, api?

У меня идея: брать теги title и description, в них искать часть города. Но есть проблема. Так как искать нужно по части слова, то могут быть значительные ошибки.
Как задать начало слова? Необязательно будет пробел перед словом. Например, ищем в коде "моск". Могут быть варианты
<p>Моск
<a>Моск
&nbsp;Моск
	Москв
И другое
И как всё это учесть?

#2 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 047 сообщений
2 593
  • ИзСанкт-Петербурга

TC Отправлено 14 Сентябрь 2022 - 23:03

Написал скрипт, как выше указано. Но результат плохой. Регион определяется в лучшем случае в 10%. Реально - меньше.

#3 c4e8ece0

c4e8ece0

    Ниггер на лошади

  • Участник
  • PipPipPipPipPip
  • 5 431 сообщений
7 012
  • Изцирка

Отправлено 15 Сентябрь 2022 - 01:03

По странице контактов, телефонам и местным названиям.
"Они не могут ничего, у них лапки котят"
mine.organic

#4 c4e8ece0

c4e8ece0

    Ниггер на лошади

  • Участник
  • PipPipPipPipPip
  • 5 431 сообщений
7 012
  • Изцирка

Отправлено 16 Сентябрь 2022 - 14:03

Просмотр сообщенияprotector сказал:

Так как искать нужно по части слова, то могут быть значительные ошибки.
И не надо по части слова, будет много ложных срабатываний. Нужны два списка - нормализованные (леммы, хуемы) для географических названий (ФИАС тут https://fias.nalog.ru/Updates) и текст страницы после аналогичной обработки. Если пересечения (или что-то посложнее) есть, то на странице возможно (фамилии могут быть просто фамилиями, а не названиями улиц, например) есть географические признаки.

Аналогично с номерами телефонов, станциями метро и улиц (есть в ФИАС, вроде бы).

Если какое-то кол-во/доля признаков набирается, то можно говорить о географической принадлежности.

Но можно пойти ещё дальше: набрать документов с хорошей географичностью и её отсутствием и посчитать на них векторные представления слов. Немножко матана и тогда уже, возможно, получится классифицировать тексты без геоназваний, но по всяким местным оборотам и локальным словечкам, типа булки, поребрика, садить и жменя.
"Они не могут ничего, у них лапки котят"
mine.organic

#5 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 047 сообщений
2 593
  • ИзСанкт-Петербурга

TC Отправлено 16 Сентябрь 2022 - 15:19

c4e8ece0, Нужно обдумать, как это реализовать и чтобы не скачивать много информации. У меня более 100 тыс. страниц (для прокачки ботов в сети) + ежедневно добавляются новые. Вот для них хочу определить регион.

Я надеялся, что есть какой-нибудь api сервис, которому скармливаешь урл страницы, а в ответ получаешь регион.

#6 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 047 сообщений
2 593
  • ИзСанкт-Петербурга

TC Отправлено 20 Октябрь 2022 - 12:17

Просмотр сообщенияprotector (16 Сентябрь 2022 - 15:19) писал:

Я надеялся, что есть какой-нибудь api сервис, которому скармливаешь урл страницы, а в ответ получаешь регион.
Нашел ответ на собственный вопрос. Самый лучший способ определить регион страницы (не только сайта) - использовать поиск Яндекса (желательно xml). В урл добавляем параметр со знаком "-"
&rstr=-region
Где region - номер нужного региона. Москва - 213, Спб - 2.. и так далее.
Сам запрос делаем как
url:domen.ru
Пример
Если данного сайта нет в регионе, то будет пустая выдача
<error code="15">]Искомая комбинация слов нигде не встречается</error>
Если в регионе только одна страница из всего сайта, то именно она будет в выдаче. Пример.


Вот ссылка на список кодов регионов России по Яндексу.

#7 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 047 сообщений
2 593
  • ИзСанкт-Петербурга

TC Отправлено 22 Октябрь 2022 - 12:27

Есть подоздрение, что отличаются выдача xml.yandex и обычная в яндексе по запросам из сообщения выше. Мой скрипт отработал всю ночь по определению регионов страниц, но он выдал странные результаты..
Нужно будет потом еще проверять.

#8 c4e8ece0

c4e8ece0

    Ниггер на лошади

  • Участник
  • PipPipPipPipPip
  • 5 431 сообщений
7 012
  • Изцирка

Отправлено 22 Октябрь 2022 - 19:21

Просмотр сообщенияprotector сказал:

Есть подоздрение, что отличаются выдача xml.yandex и обычная в яндексе по запросам из сообщения выше.
Да, давно уже ш
"Они не могут ничего, у них лапки котят"
mine.organic

#9 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 047 сообщений
2 593
  • ИзСанкт-Петербурга

TC Отправлено 24 Октябрь 2022 - 11:22

Просмотр сообщенияc4e8ece0 (22 Октябрь 2022 - 19:21) писал:

Да, давно уже ш
как я понимал, что отличия были в добавлении определенных сайтов, например, новости, от быстроробота, видео, предложения маркета и т.п.
Но основа, а тем более с операторами - должна быть одинаковая выдача. То есть по запросу
url:domain.ru/page1.html
с добавлением параметра rstr=-213 в обычной выдаче нет сайта, а в xml выдаче Яндекса - находится 30 сайтов.

Из-за этого (как мне кажется, но нужно еще ручками проверить) у меня скрипт по определению региона для отдельной страницы сайта работает не верно.

------------------------------------------------------------------------------------------
P.S. Нашел ошибку у себя в скрипте )) Наверное, Яндекс работает правильно).



Похожие темы


Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных



© 2023 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва
  • Top.Mail.Ru

Мы в соцсетях: twitter | вконтакте | facebook | livejournal