Перейти к содержимому

MOAB

- - - - -

Как определить регион сайта и/или страницы в интернете?


  • Войдите, чтобы ответить
Сообщений в теме: 4

#1 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 3 867 сообщений
2 484
  • ИзСанкт-Петербурга

Отправлено 13 Сентябрь 2022 - 12:11

Берем случайную страницу в интернете, скачиваем её содержимое. Как узнать, к какому региону она относится?
Может есть какие-нибудь сервисы, api?

У меня идея: брать теги title и description, в них искать часть города. Но есть проблема. Так как искать нужно по части слова, то могут быть значительные ошибки.
Как задать начало слова? Необязательно будет пробел перед словом. Например, ищем в коде "моск". Могут быть варианты
<p>Моск
<a>Моск
&nbsp;Моск
	Москв
И другое
И как всё это учесть?

#2 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 3 867 сообщений
2 484
  • ИзСанкт-Петербурга

TC Отправлено 14 Сентябрь 2022 - 23:03

Написал скрипт, как выше указано. Но результат плохой. Регион определяется в лучшем случае в 10%. Реально - меньше.

#3 c4e8ece0

c4e8ece0

    Ниггер на лошади

  • Участник
  • PipPipPipPipPip
  • 5 355 сообщений
6 912
  • Изцирка

Отправлено 15 Сентябрь 2022 - 01:03

По странице контактов, телефонам и местным названиям.
"Они не могут ничего, у них лапки котят"

#4 c4e8ece0

c4e8ece0

    Ниггер на лошади

  • Участник
  • PipPipPipPipPip
  • 5 355 сообщений
6 912
  • Изцирка

Отправлено 16 Сентябрь 2022 - 14:03

Просмотр сообщенияprotector сказал:

Так как искать нужно по части слова, то могут быть значительные ошибки.
И не надо по части слова, будет много ложных срабатываний. Нужны два списка - нормализованные (леммы, хуемы) для географических названий (ФИАС тут https://fias.nalog.ru/Updates) и текст страницы после аналогичной обработки. Если пересечения (или что-то посложнее) есть, то на странице возможно (фамилии могут быть просто фамилиями, а не названиями улиц, например) есть географические признаки.

Аналогично с номерами телефонов, станциями метро и улиц (есть в ФИАС, вроде бы).

Если какое-то кол-во/доля признаков набирается, то можно говорить о географической принадлежности.

Но можно пойти ещё дальше: набрать документов с хорошей географичностью и её отсутствием и посчитать на них векторные представления слов. Немножко матана и тогда уже, возможно, получится классифицировать тексты без геоназваний, но по всяким местным оборотам и локальным словечкам, типа булки, поребрика, садить и жменя.
"Они не могут ничего, у них лапки котят"

#5 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 3 867 сообщений
2 484
  • ИзСанкт-Петербурга

TC Отправлено 16 Сентябрь 2022 - 15:19

c4e8ece0, Нужно обдумать, как это реализовать и чтобы не скачивать много информации. У меня более 100 тыс. страниц (для прокачки ботов в сети) + ежедневно добавляются новые. Вот для них хочу определить регион.

Я надеялся, что есть какой-нибудь api сервис, которому скармливаешь урл страницы, а в ответ получаешь регион.




Количество пользователей, читающих эту тему: 1

0 пользователей, 1 гостей, 0 анонимных



© 2022 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва
  • Top.Mail.Ru

Мы в соцсетях: twitter | вконтакте | facebook | livejournal