Перейти к содержимому

MOAB

ХАУС: Что бы это могло значить?

матан хаус мозг

  • Войдите, чтобы ответить
Сообщений в теме: 11

#1 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 548 сообщений
5 498
  • ИзКрии

Отправлено 19 Ноябрь 2016 - 13:54

Надо поиграть в доктора Хауса...

У нас есть список урлов/хостов по какому-то запросу.
И есть второй похожий список, но уже для запроса в точной форме.
Мы считаем для этих списков меру похожести. Для простоты: кол-во одинаковых урлов, делённое на суммарное кол-во урлов.
Спойлер

Всё сравнивается без учёта сортировки, тупо множества из первых 50 элементов.

Иногда результаты совпадают:
Спойлер

Иногда результаты совсем разные:
Спойлер

И ЧО?
Плачет барсук над трупом лося...
Тихону пить нельзя!

#2 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 459 сообщений
2 782

Отправлено 19 Ноябрь 2016 - 14:21

При этом сервера sas у пар запросов в обоих случаях одинаковые?

#3 Уоки-Токи

Уоки-Токи

    .

  • S.E.Syndicate
  • PipPipPipPipPip
  • 2 120 сообщений
3 683

Отправлено 20 Ноябрь 2016 - 11:28

:rofl: ботаны... :P

#4 donc

donc

    Гай Юлий Калигула Сковородкер

  • Основатель
  • PipPipPipPipPip
  • 8 916 сообщений
7 137
  • Изсекты свидетелей Кецалькоатля

Отправлено 20 Ноябрь 2016 - 12:58

вижу только, что первой группе частотность запросов ниже, чем во второй

#5 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 548 сообщений
5 498
  • ИзКрии

TC Отправлено 21 Ноябрь 2016 - 01:08

Просмотр сообщенияdonc (20 Ноябрь 2016 - 12:58) писал:

вижу только, что первой группе частотность запросов ниже, чем во второй
убедительно, но не подтвердилось
корреляция должна быть (например, есть с кол-ом доменов ~.25), но хочется чего-то такого же простого и покорреляристей
+++ ошибку нашёл, путается кол-во доменов для разных вариантов запроса, не зря значит это всё, спасибо :)

подкину очевидных вариантов: %яки в выдаче, витальность, геозависимость, %морд ... ещё варианты?
Плачет барсук над трупом лося...
Тихону пить нельзя!

#6 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 522 сообщений
1 783
  • Изгалактики Мле́чный Путь

Отправлено 21 Ноябрь 2016 - 06:00

Данные не подготовлены для "глаз".

А так можно взять больше запросов, набросать сотню признаков, взять бинарный классификатор и посмотреть..

-1 - от 0 до 0.3
1 - от 0.7 до 1
Скрупулёзное продвижение сайта от 5000000 10000 рублей (антикризисное предложение) :D

«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#7 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 548 сообщений
5 498
  • ИзКрии

TC Отправлено 21 Ноябрь 2016 - 07:46

Просмотр сообщенияИлья сказал:

А так можно взять больше запросов, набросать сотню признаков, взять бинарный классификатор и посмотреть..
Так каждый дурак может, а тут думать надо.
Плачет барсук над трупом лося...
Тихону пить нельзя!

#8 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 459 сообщений
2 782

Отправлено 21 Ноябрь 2016 - 10:24

Цитата

а тут думать надо.
Думать или угадывать?
зы
чо правда говорят, что марсоход упал так как в программе на java была ошибка с кодировками?

#9 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 548 сообщений
5 498
  • ИзКрии

TC Отправлено 17 Декабрь 2016 - 06:25

Раз вам так было интересно, то вот коэффициент корреляции из Экселя (хз какой, не суть) между коэффициентом Жаккара (для базового и точного запросов) и начальными цифрами про выдачу:

Изображение

Очень грубо говоря: чем конкурентней фид по точной форме запроса, тем больше рулит эта самая точная форма запроса (сюрприз, ага).
Ну или можно считать это КОЭФФИЦИЕНТОМ КОНКУРЕНЦИИ или ТРЕБОВАНИЕМ СТРОГОЙ ФОРМЫ ЗАПРОСА НА СТРАНИЦЕ (похожесть топов по урлам для обычной и строгой формам запроса)! :facepalm:
Ну или как хотите, так и интерпретируйте :lol:
Спойлер

# R:
tab <- read.table(file="T:\\klest\\cli\\jaccard_yandexxml\\relations-2.manual.tab", sep="	")
tt <- na.omit(tab[c("V2","V3","V4","V5","V6","V7","V10","V11","V12","V15","V16","V17")])
tt$V6 <- log(tt$V6)
tt$V7 <- log(tt$V7)
tt$V15 <- log(tt$V15)
tt$V17 <- log(tt$V17)
plot(tt)
Изображение

#R:
tab <- read.table(file="T:\\klest\\cli\\jaccard_yandexxml\\relations-2.manual.tab", sep="	")
tt <- na.omit(tab[c("V2","V3","V4","V5","V6","V7","V10","V11","V12","V15","V16","V17")])
svd(tt)$d
5.278497e+09 1.452808e+09 2.885354e+08 9.315967e+07 2.806307e+06 3.749082e+05 2.408536e+01 3.716435e+00 2.949272e+00 1.087933e+00 5.527609e-01 1.036077e-01

Плачет барсук над трупом лося...
Тихону пить нельзя!

#10 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 522 сообщений
1 783
  • Изгалактики Мле́чный Путь

Отправлено 17 Декабрь 2016 - 13:10

0.45...даже не 0.5 :)

Сингулярное разложение бы ещё описал, для потомков... А то на телефоне не удобно, а до ПК хрен знает когда доберусь :)

Ну и в шайтан машину бы ещё забросил, признаки уже собраны, сверстать 5 минут :)
Скрупулёзное продвижение сайта от 5000000 10000 рублей (антикризисное предложение) :D

«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#11 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 548 сообщений
5 498
  • ИзКрии

TC Отправлено 18 Декабрь 2016 - 05:54

Просмотр сообщенияИлья сказал:

0.45...даже не 0.5 :)
балбес!
Плачет барсук над трупом лося...
Тихону пить нельзя!

#12 uniks

uniks

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 2 903 сообщений
2 779
  • ИзИркутск

Отправлено 18 Декабрь 2016 - 08:40

Ну все, скоро заживем? :)



Похожие темы


Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных



© 2017 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва

Мы в соцсетях: twitter | вконтакте | facebook | livejournal