

Решено: Где взять список "стоп слов"?
автор темы protector, 14 02 2023 19:45
Сообщений в теме: 5
#1
Отправлено 14 Февраль 2023 - 19:45
Есть у меня список "1 млн самых частотных запросов". Как из него автоматически выпилить "негативные" запросы, по которым боту не стоит ходить, а также парсить выдачу для собирания списков урлов?
Есть какой-нибудь онлайн словарь с такими "стоп словами"?
Есть какой-нибудь онлайн словарь с такими "стоп словами"?
#2
Отправлено 14 Февраль 2023 - 20:10
Хоть не миллиард, но всё равно, очень Масштабно.
МИРАЛИНКС | Проверить текст на уникальность TEXT.RU | Проверяйте позиции сайта в Яндекс, Google, Спутник, go.Mail, Yahoo, Bing
#3
Отправлено 14 Февраль 2023 - 21:27
- Придумать правило фильтрации
- Отфильтровать
- ...
- Профит

"Они не могут ничего, у них лапки котят"
mine.organic
mine.organic
#4
TC Отправлено 15 Февраль 2023 - 13:44
ясно.. Самому написать скрипт и придумать сочетания, по которым выкидывать запросы))
Я надеялся где-нибудь скачать эти паттерны
Ну мне и 100 тыс слов хватит, наверное.. Но вручную отбирать 100 тыс слов - очень лень.
Цель - напарсить 600 тыс.урлов с метрикой для прокачки ботов и периодически их обновлять.
Я надеялся где-нибудь скачать эти паттерны
Personalab (14 Февраль 2023 - 20:10) писал:
Хоть не миллиард, но всё равно, очень Масштабно.
Цель - напарсить 600 тыс.урлов с метрикой для прокачки ботов и периодически их обновлять.
#5
Отправлено 15 Февраль 2023 - 15:07
Есть сервис (вот не скажу урл. не помню...) и как-то я писал для себя аналогичный для отбора плохих фраз для директа. Суть: все словосочетания разбираются на слова и анализируются слова и их словоформы, а не фразы. Слов в любом случае будет меньше.
Не все кальсоны с оторванными пуговицами – брюки. © Serg_pnz
#6
TC Отправлено 15 Февраль 2023 - 16:09
вот нашел тему со списком стоп-слов. В частности там есть список адалт слов
Собственно вот моя функция (рабочая) на php для очистки ключевых слов от стоп-слов
Собственно вот моя функция (рабочая) на php для очистки ключевых слов от стоп-слов
$stop_words_file="stop_words.txt";//список запретных слов, с новой строки $words_file="words.csv"//Список ключевиков, с новой строки $words=file($words_file); $words=array_diff($words, array('',' ',null, 0)); clean_words($stop_words,$words); function clean_words($stop_words_file, &$words) :bool{ $stop_words=array_diff(file($stop_words_file), array('',' ',null, 0)); foreach ($words as $k=>$word_str) { $word_str=trim($word_str," \n\r\t\v\x00"); foreach ($stop_words as $stop_word) { $stop_word=trim($stop_word," \n\r\t\v\x00"); if ((!empty($stop_word))&&(str_contains($word_str, $stop_word) )) { unset($words[$k]); break; } } } return true; }
Похожие темы
РКН будет отвечать за ведение реестра провайдеров хостингаАвтор azsx, 18 сент. 2023 |
|
![]() |
||
YouTube собирается убрать некоторые элементы управления рекламой для авторовАвтор azsx, 08 сент. 2023 |
|
![]() |
Количество пользователей, читающих эту тему: 0
0 пользователей, 0 гостей, 0 анонимных
© 2023 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг
По вопросам рекламы на форуме и цены на рекламу
По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на
webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.
Россия,
г. Москва