Перейти к содержимому

MOAB

- - - - -

Решено: Где взять список "стоп слов"?


  • Войдите, чтобы ответить
Сообщений в теме: 5

#1 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 047 сообщений
2 593
  • ИзСанкт-Петербурга

Отправлено 14 Февраль 2023 - 19:45

Есть у меня список "1 млн самых частотных запросов". Как из него автоматически выпилить "негативные" запросы, по которым боту не стоит ходить, а также парсить выдачу для собирания списков урлов?

Есть какой-нибудь онлайн словарь с такими "стоп словами"?

#2 Personalab

Personalab

    Продвинутый

  • Старожил
  • PipPipPip
  • 491 сообщений
382
  • ИзМосквы

Отправлено 14 Февраль 2023 - 20:10

Хоть не миллиард, но всё равно, очень Масштабно.

#3 c4e8ece0

c4e8ece0

    Ниггер на лошади

  • Участник
  • PipPipPipPipPip
  • 5 431 сообщений
7 012
  • Изцирка

Отправлено 14 Февраль 2023 - 21:27

  • Придумать правило фильтрации
  • Отфильтровать
  • ...
  • Профит
Я понимаю что в голове этот вопрос звучит логично. Это нормально для потокового состояния. Но мы то вне контекста и читаем бред сумасшедшего :D
"Они не могут ничего, у них лапки котят"
mine.organic

#4 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 047 сообщений
2 593
  • ИзСанкт-Петербурга

TC Отправлено 15 Февраль 2023 - 13:44

ясно.. Самому написать скрипт и придумать сочетания, по которым выкидывать запросы))
Я надеялся где-нибудь скачать эти паттерны

Просмотр сообщенияPersonalab (14 Февраль 2023 - 20:10) писал:

Хоть не миллиард, но всё равно, очень Масштабно.
Ну мне и 100 тыс слов хватит, наверное.. Но вручную отбирать 100 тыс слов - очень лень.
Цель - напарсить 600 тыс.урлов с метрикой для прокачки ботов и периодически их обновлять.

#5 Serg_pnz

Serg_pnz

    Hanswurst

  • Старая гвардия
  • PipPipPipPipPip
  • 2 197 сообщений
1 890
  • Из*** гонец? Гонец из Пензы?... Нет – реальный гонец!

Отправлено 15 Февраль 2023 - 15:07

Есть сервис (вот не скажу урл. не помню...) и как-то я писал для себя аналогичный для отбора плохих фраз для директа. Суть: все словосочетания разбираются на слова и анализируются слова и их словоформы, а не фразы. Слов в любом случае будет меньше.
Не все кальсоны с оторванными пуговицами – брюки. © Serg_pnz

#6 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 047 сообщений
2 593
  • ИзСанкт-Петербурга

TC Отправлено 15 Февраль 2023 - 16:09

вот нашел тему со списком стоп-слов. В частности там есть список адалт слов

Собственно вот моя функция (рабочая) на php для очистки ключевых слов от стоп-слов
$stop_words_file="stop_words.txt";//список запретных слов, с новой строки
$words_file="words.csv"//Список ключевиков, с новой строки
$words=file($words_file);
$words=array_diff($words, array('',' ',null, 0));
clean_words($stop_words,$words);


function clean_words($stop_words_file, &$words) :bool{
	$stop_words=array_diff(file($stop_words_file), array('',' ',null, 0));
	foreach ($words as $k=>$word_str) {
		$word_str=trim($word_str," \n\r\t\v\x00");
		foreach ($stop_words as $stop_word) {
			$stop_word=trim($stop_word," \n\r\t\v\x00");
			if ((!empty($stop_word))&&(str_contains($word_str, $stop_word) )) {
				unset($words[$k]);
				break;
			}
		}
	}
	return true;
}





Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных



© 2023 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва
  • Top.Mail.Ru

Мы в соцсетях: twitter | вконтакте | facebook | livejournal