Перейти к содержимому

MOAB

* * * * * 2 Голосов

Список некоммерческих стоп-слов


  • Войдите, чтобы ответить
Сообщений в теме: 18

#1 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 558 сообщений
1 858
  • Изгалактики Мле́чный Путь

Отправлено 09 Январь 2014 - 12:47

Когда у тебя набирается больше 10.000 ключей для коммерческого сайта, полезно сразу отсечь лишнее. Для этого нужен список стандартных стоп-слов.

Вот мой:
Спойлер


Конечно можно еще добавить разные характеристики из того же маркета…но это отдельная работа, на несколько дней, т.к. придется хорошо все отсеивать.
Делитесь своим списком, или пишите варианты, после можно все собрать в один и добавить сюда.

p/s не забываем еще фильтровать не нужные города и страны :)
p/s/2 перед применением проконсультируйтесь с врачом прошу внимательно проверить список. Не все слова одинаково бесполезны!
«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#2 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 733 сообщений
5 854
  • ИзКрии

Отправлено 09 Январь 2014 - 13:50

ну вот ты взял так и лёгким движением руки снёс 80% текстового какчества :D

#3 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 558 сообщений
1 858
  • Изгалактики Мле́чный Путь

TC Отправлено 09 Январь 2014 - 13:59

Просмотр сообщенияc4e8ece0 сказал:

ну вот ты взял так и лёгким движением руки снёс 80% текстового какчества
Ты о "живой воде" для текста на сайте? Или? :huh:
«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#4 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 733 сообщений
5 854
  • ИзКрии

Отправлено 09 Январь 2014 - 14:18

Просмотр сообщенияИлья (09 Январь 2014 - 13:59) писал:

Ты о "живой воде" для текста на сайте? Или? :huh:
наверно да, про покрытие интересов искателей :) видишь кнопачхе вверху? http://yandex.ru/yan...юмия 520&lr=213

#5 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 558 сообщений
1 858
  • Изгалактики Мле́чный Путь

TC Отправлено 09 Январь 2014 - 14:39

Просмотр сообщенияc4e8ece0 сказал:

наверно да, про покрытие интересов искателей видишь кнопачхе вверху? http://yandex.ru/yan...юмия 520&lr=213

Вижу. Но я не о том. Данные стоп-слова могут сэкономить время при фильтрации списка ключей. Об оптимизации и проектирование сайт еще речь не идет.

Т.е. смотри. Берем фразу телефон (мы продаем телефоны), собираем все ключи по данному направлению. В итоге наберется тысяч 20-30 ключей. Наша задача как можно больше отсечь лишнего, что бы при ручной проверки не удалять по 100500 раз ключи по типу "телефон nokia lumia 920 фото", "телефон lg nexus 4 фото" и т.д. Когда мы убираем стандартные фразы клише, ключей остается на 30-40% меньше. Дальше конечно можно убрать города в которых мы не продаем (точный регион при сборе отсечет некоторые ключи даже в МСК, поэтому собираем по РФ), марки, модели которые тоже не продаем (или наоборот их только и оставляем) и т.д. Т.е. на "руки" мы получим не 20-30000 ключей, а 5000, которые можно проверить в 4-6 раз быстрее. Которые с той или иной вероятности дадут заказы.

Еще раз. Это нужно для фильтрации при сборе ключей, но никак не при оптимизации сайта, или его проектирования. Т.е. в нашем случае будут блоки ФОТО, ВИДЕО, таблица характеристик, Отзывы и все другое что может дать как можно больше инфы о товаре. Но целенаправленно продвигать их (оптимизация, ссылки, перелинковка, даже мониторинг позиций) не нужно. ИМХО.
«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#6 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 733 сообщений
5 854
  • ИзКрии

Отправлено 09 Январь 2014 - 15:11

жи есть иншалла, а то научишь плохому ещё :D

#7 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 558 сообщений
1 858
  • Изгалактики Мле́чный Путь

TC Отправлено 09 Январь 2014 - 15:23

Просмотр сообщенияc4e8ece0 сказал:

жи есть иншалла, а то научишь плохому ещё
Усс...аригато сэнсей! :ph34r:

ps если нет желающих помочь составить список, буду иногда его обновлять, вдруг кому пригодится.
«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#8 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 733 сообщений
5 854
  • ИзКрии

Отправлено 09 Январь 2014 - 15:40

посмотрел вот из последних зачисток (наиболее упоминаемые):

депозиты и вклады:
ВКЛАДЫШ
ВКЛАДКА
КАПИТАЛЬНЫЙ
БЕЗ
ДЕПОЗИТАРИЙ
ДЕПОЗИТАРНЫЙ
ФИНАНСОВЫЙ
ВКЛАДЧИК
СТРАХОВАНИЕ
РАЗВИТИЕ
КОМПЕНСАЦИЯ
БОНУС
КАПИТАЛОВЛОЖЕНИЕ
СКАЧАТЬ
БЕЗДЕПОЗИТНЫЙ
УЧЕТ
РЕФЕРАТ
ДОГОВОР
ОПЕРАЦИЯ
О
НЕ
СЕРТИФИКАТ
БИЗНЕС
МИНИМАЛЬНЫЙ
УКРАИНА

Всего таких 1476

промышленное оборудование:

ВЕНТЕЛЯТОР
ЭТО
ФОРУМ
ВАКУМНЫЙ
АРЕНДА
КРЕПЛЕНИЕ
ИСПОЛЬЗОВАНИЕ
САМОДЕЛЬНЫЙ
БЕЗ
АВТОМОБИЛЬ
СДЕЛАТЬ
ГОСТ
СОЕДИНЕНИЕ
ВАННАЯ
МЕХАНИЧЕСКИЙ
ОБВЯЗКА
МАРКИРОВКА
ПОДКЛЮЧИТЬ
РУКА
ВСЕ
ИННОВЕНТ
GRUNDFOSS
ВАЗ
СТАТЬЯ
СВОЕ

Всего = 2641

не помогает оно особо короче :(

#9 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 558 сообщений
1 858
  • Изгалактики Мле́чный Путь

TC Отправлено 09 Январь 2014 - 15:48

, это более тематический список. По идеи хотя бы часть такого списка нужно иметь до начала фильтрации. Но что бы его создать нужен алгоритм фильтрации свой, на который у меня мозгов пока не хватает :)

add: это, форум, сделать ;)
«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#10 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 733 сообщений
5 854
  • ИзКрии

Отправлено 09 Январь 2014 - 16:16

ну ща я по живым архивам счетану тогда чё :)

на вот развлекайся, почти весь мусор-2013 :) adsem.ru/extern/kw_cleaner-mostpopularshit.2014-01.xlsx
kw - запрос
sum(num) - отфильтровано запросов по всем проектам
count(kw) - кол-во проектов, где встретилось

=26598

#11 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 558 сообщений
1 858
  • Изгалактики Мле́чный Путь

TC Отправлено 09 Январь 2014 - 16:26

Просмотр сообщенияc4e8ece0 сказал:

ну ща я по живым архивам счетану тогда чё на вот развлекайся, почти весь мусор-2013 adsem.ru/extern/kw_cleaner-mostpopularshit.2014-01.xlsx kw - запрос sum(num) - отфильтровано запросов по всем проектам count(kw) - кол-во проектов, где встретилось =26598

Сколько же там хлама :shok:
«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#12 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 733 сообщений
5 854
  • ИзКрии

Отправлено 09 Январь 2014 - 16:32

Просмотр сообщенияИлья (09 Январь 2014 - 16:26) писал:

Сколько же там хлама :shok:
если на выходных напомнишь - посчитаю tf и wtf по большому корпусу прямого эфира (60-70 млн запросов), так наверно бодрее будет

#13 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 2 631 сообщений
1 259
  • ИзСанкт-Петербурга

Отправлено 10 Январь 2014 - 11:40

Когда набирается свыше 10к ключей, всё равно есть основные 5 штук (ВЧ), от которых набираются остальные 10к. Если это так, то вбиваем эти 5вч в вордстат(по очереди) и смотрим наиболее частотные "ненужные" слова. Их отсекаем и сразу конечный список слов сокращается в 2 раза.

Вот тут я писал про подбор ключей.

#14 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 558 сообщений
1 858
  • Изгалактики Мле́чный Путь

TC Отправлено 10 Январь 2014 - 12:22

Просмотр сообщенияprotector сказал:

Когда набирается свыше 10к ключей, всё равно есть основные 5 штук (ВЧ), от которых набираются остальные 10к. Если это так, то вбиваем эти 5вч в вордстат(по очереди) и смотрим наиболее частотные "ненужные" слова. Их отсекаем и сразу конечный список слов сокращается в 2 раза.
То что Вы написали - это индивидуальные стоп-слова. Их как правило тоже много, часть из них повторяются из темы в тему, вот поэтому и нужен универсальный список,о котором речь в первом посте.
«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#15 KaSH

KaSH

    Инструктор по счастью

  • Основатель
  • PipPipPipPip
  • 1 280 сообщений
2 115
  • Изморя и с гор

Отправлено 10 Январь 2014 - 15:20

Просмотр сообщенияИлья (09 Январь 2014 - 12:47) писал:

... Для этого нужен список стандартных стоп-слов. ...
Угу. А еще он для компаний в Директе нужен. Берешь в настройках компании, сразу такой список впендюриваешь, и... меньше протратишь денег, больше получишь CTR. Так что добавляй, всегда пригодится ;)
Есть вещи получше качалки, сноуборда, виндсерфинга, кайтсерфинга, роликов, батута, танцев... Но я о них никогда не слышал Изображение
Серьезные сайты размещаю на VPS, простые в TimeWeb. Старые, более ненужные мне сайты я продаю на Телдери. Бухгалтерию и отчеты в налоговую за меня делает Эльба.

#16 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 558 сообщений
1 858
  • Изгалактики Мле́чный Путь

TC Отправлено 10 Январь 2014 - 15:44

Просмотр сообщенияKaSH сказал:

Угу. А еще он для компаний в Директе нужен. Берешь в настройках компании, сразу такой список впендюриваешь, и... меньше протратишь денег, больше получишь CTR. Так что добавляй, всегда пригодится
бебебе..так не честно! Давайте помогайте :P
«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#17 protector

protector

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 2 631 сообщений
1 259
  • ИзСанкт-Петербурга

Отправлено 14 Январь 2014 - 18:11

Просмотр сообщенияИлья (10 Январь 2014 - 12:22) писал:

То что Вы написали - это индивидуальные стоп-слова. Их как правило тоже много, часть из них повторяются из темы в тему, вот поэтому и нужен универсальный список,о котором речь в первом посте.
Ясно. Только каждый раз нужно будет править его, чтобы лишнее не попалось в стоп-слова. Поэтому я лучше потрачу лишний часик для нового проекта.

#18 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 558 сообщений
1 858
  • Изгалактики Мле́чный Путь

TC Отправлено 14 Январь 2014 - 20:55

Просмотр сообщенияprotector сказал:

Ясно. Только каждый раз нужно будет править его, чтобы лишнее не попалось в стоп-слова. Поэтому я лучше потрачу лишний часик для нового проекта.
Хозяин барин конечно, я никого не заставляю, даже наоборот прошу помочь, но видимо мало кому интересно. -_-
Цель как раз составить такой список, который не нужно каждый раз проверять. Наподобие тех же городов, хотя там есть подвох, у нас оказывается есть такие креативные населенные пункты, вроде "Камень", когда ключи составляешь для искусственного камня, отфильтруется 100%. :D
«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#19 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 733 сообщений
5 854
  • ИзКрии

Отправлено 03 Февраль 2014 - 11:47

а не прошло и года как...
по базе 85 млн запросов из last20, ныне почившего fastkeywords.biz
  • частота слов с морфологией, 8 млн термов - adsem.ru/extern/_fkwb-2012-11-28.txt.morphy_count_stat.rar (cp1251, 55 мб)
  • частота слов без морфологии, 10 млн термов - adsem.ru/extern/_fkwb-2012-11-28.txt.strict_count_stat.rar (cp1251, 45 мб)
вторая часть уже с частотами запросов, а не частотой слов пока считается (не досчиталась, давай до свидания)



Похожие темы


Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных



© 2017 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва

Мы в соцсетях: twitter | вконтакте | facebook | livejournal