Перейти к содержимому

MOAB

ХАУС: Что бы это могло значить?

матан хаус мозг

  • Войдите, чтобы ответить
Сообщений в теме: 11

#1 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 643 сообщений
5 665
  • ИзКрии

Отправлено 19 Ноябрь 2016 - 13:54

Надо поиграть в доктора Хауса...

У нас есть список урлов/хостов по какому-то запросу.
И есть второй похожий список, но уже для запроса в точной форме.
Мы считаем для этих списков меру похожести. Для простоты: кол-во одинаковых урлов, делённое на суммарное кол-во урлов.
Спойлер

Всё сравнивается без учёта сортировки, тупо множества из первых 50 элементов.

Иногда результаты совпадают:
Спойлер

Иногда результаты совсем разные:
Спойлер

И ЧО?
Воу, воу! Батя в здании!!1

#2 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 553 сообщений
2 842

Отправлено 19 Ноябрь 2016 - 14:21

При этом сервера sas у пар запросов в обоих случаях одинаковые?

#3 Уоки-Токи

Уоки-Токи

    .

  • S.E.Syndicate
  • PipPipPipPipPip
  • 2 131 сообщений
3 713

Отправлено 20 Ноябрь 2016 - 11:28

:rofl: ботаны... :P

#4 donc

donc

    Гай Юлий Калигула Сковородкер

  • Основатель
  • PipPipPipPipPip
  • 9 071 сообщений
7 355
  • Изсекты свидетелей Кецалькоатля

Отправлено 20 Ноябрь 2016 - 12:58

вижу только, что первой группе частотность запросов ниже, чем во второй

#5 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 643 сообщений
5 665
  • ИзКрии

TC Отправлено 21 Ноябрь 2016 - 01:08

Просмотр сообщенияdonc (20 Ноябрь 2016 - 12:58) писал:

вижу только, что первой группе частотность запросов ниже, чем во второй
убедительно, но не подтвердилось
корреляция должна быть (например, есть с кол-ом доменов ~.25), но хочется чего-то такого же простого и покорреляристей
+++ ошибку нашёл, путается кол-во доменов для разных вариантов запроса, не зря значит это всё, спасибо :)

подкину очевидных вариантов: %яки в выдаче, витальность, геозависимость, %морд ... ещё варианты?
Воу, воу! Батя в здании!!1

#6 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 543 сообщений
1 811
  • Изгалактики Мле́чный Путь

Отправлено 21 Ноябрь 2016 - 06:00

Данные не подготовлены для "глаз".

А так можно взять больше запросов, набросать сотню признаков, взять бинарный классификатор и посмотреть..

-1 - от 0 до 0.3
1 - от 0.7 до 1
Скрупулёзное продвижение сайта от 5000000 10000 рублей (антикризисное предложение) :D

«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#7 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 643 сообщений
5 665
  • ИзКрии

TC Отправлено 21 Ноябрь 2016 - 07:46

Просмотр сообщенияИлья сказал:

А так можно взять больше запросов, набросать сотню признаков, взять бинарный классификатор и посмотреть..
Так каждый дурак может, а тут думать надо.
Воу, воу! Батя в здании!!1

#8 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 553 сообщений
2 842

Отправлено 21 Ноябрь 2016 - 10:24

Цитата

а тут думать надо.
Думать или угадывать?
зы
чо правда говорят, что марсоход упал так как в программе на java была ошибка с кодировками?

#9 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 643 сообщений
5 665
  • ИзКрии

TC Отправлено 17 Декабрь 2016 - 06:25

Раз вам так было интересно, то вот коэффициент корреляции из Экселя (хз какой, не суть) между коэффициентом Жаккара (для базового и точного запросов) и начальными цифрами про выдачу:

Изображение

Очень грубо говоря: чем конкурентней фид по точной форме запроса, тем больше рулит эта самая точная форма запроса (сюрприз, ага).
Ну или можно считать это КОЭФФИЦИЕНТОМ КОНКУРЕНЦИИ или ТРЕБОВАНИЕМ СТРОГОЙ ФОРМЫ ЗАПРОСА НА СТРАНИЦЕ (похожесть топов по урлам для обычной и строгой формам запроса)! :facepalm:
Ну или как хотите, так и интерпретируйте :lol:
Спойлер

# R:
tab <- read.table(file="T:\\klest\\cli\\jaccard_yandexxml\\relations-2.manual.tab", sep="	")
tt <- na.omit(tab[c("V2","V3","V4","V5","V6","V7","V10","V11","V12","V15","V16","V17")])
tt$V6 <- log(tt$V6)
tt$V7 <- log(tt$V7)
tt$V15 <- log(tt$V15)
tt$V17 <- log(tt$V17)
plot(tt)
Изображение

#R:
tab <- read.table(file="T:\\klest\\cli\\jaccard_yandexxml\\relations-2.manual.tab", sep="	")
tt <- na.omit(tab[c("V2","V3","V4","V5","V6","V7","V10","V11","V12","V15","V16","V17")])
svd(tt)$d
5.278497e+09 1.452808e+09 2.885354e+08 9.315967e+07 2.806307e+06 3.749082e+05 2.408536e+01 3.716435e+00 2.949272e+00 1.087933e+00 5.527609e-01 1.036077e-01

Воу, воу! Батя в здании!!1

#10 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 543 сообщений
1 811
  • Изгалактики Мле́чный Путь

Отправлено 17 Декабрь 2016 - 13:10

0.45...даже не 0.5 :)

Сингулярное разложение бы ещё описал, для потомков... А то на телефоне не удобно, а до ПК хрен знает когда доберусь :)

Ну и в шайтан машину бы ещё забросил, признаки уже собраны, сверстать 5 минут :)
Скрупулёзное продвижение сайта от 5000000 10000 рублей (антикризисное предложение) :D

«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#11 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 643 сообщений
5 665
  • ИзКрии

TC Отправлено 18 Декабрь 2016 - 05:54

Просмотр сообщенияИлья сказал:

0.45...даже не 0.5 :)
балбес!
Воу, воу! Батя в здании!!1

#12 uniks

uniks

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 3 134 сообщений
2 972
  • ИзИркутск

Отправлено 18 Декабрь 2016 - 08:40

Ну все, скоро заживем? :)



Похожие темы


Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных



© 2017 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва

Мы в соцсетях: twitter | вконтакте | facebook | livejournal