Перейти к содержимому

MOAB

* * * * * 2 Голосов

13.02.2014 видеовстреча в Google. Тема - структура сайтов

видеовстречи google

  • Войдите, чтобы ответить
Сообщений в теме: 64

#41 MAzZY

MAzZY

    Биоробот на 146%

  • Участник
  • PipPipPipPipPip
  • 4 753 сообщений
2 331
  • Извсегда здесь был

Отправлено 19 Февраль 2014 - 11:22

ksav, я вижу сервисы, агрегаторы и прочее. Собственных текстов там нет.
"Конечно, я умный человек, умнее очень многих, но счастье не в этом..." А.П. Чехов. "Три сестры"
Carpe diem / Memento mori / Ecce Homo
Под столетними сугробами библейских анекдотов...

#42 Spinne

Spinne

    Зануда™

  • Основатель
  • PipPipPipPipPip
  • 2 007 сообщений
3 427
  • Излесу, вестимо

Отправлено 19 Февраль 2014 - 17:00

Просмотр сообщенияАндрей Липатцев (19 Февраль 2014 - 00:06) писал:

Мне непонятно, почему ты решил, что у меня есть ответ на этот вопрос. Но раз уж решил, то сбрось мне адрес сервера в закрытой ветке и я постараюсь выяснить.
Допустим, я не решал, что есть готовый ответ. Но тебе уж точно есть где этот ответ взять, в отличие от меня. И потом, боты есть боты – все они обслуживают поиск, в выдачу идет всё, и http и ftp ресурсы, так что это никак нельзя назвать отдельной темой.

Конкретно – приведенные логи взяты на 62.109.4.31 (это VDS). Но я не соглашусь, что это "отдельный нетипичный частный случай" – это у меня не единственный подопечный, и бот лазит по всем. Исключение – те, где FTP сервер вообще не установлен, там у меня просто нет возможности увидеть, пытался ли бот стучать в 21 порт или нет.

И я с этим вопросом не одинок, другие тоже заметили такие визиты, так что это система, а не частный случай.
Ник не менял, подпись поменяю позже. Ваш Зануда. Он же AHP-net, но это уже там

#43 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 5 035 сообщений
3 145

Отправлено 19 Февраль 2014 - 17:07

я вот не совсем понял по струтуре сайтов. Можно писать в урл
site.ru/slony/bolshie/rozovye/slon_rozovyi_model-154.html или для няшек со структурой очень желательно писать site.ru/tip_produkcii=slony/razmer_produkcii=bolshie/cvet_produkcii=rozovye/slon_rozovyi_model-154.html
зы
запросную часть я всегда убираю.

#44 pyramida

pyramida

    Продвинутый

  • Участник
  • PipPipPip
  • 181 сообщений
68

Отправлено 19 Февраль 2014 - 21:44

azsx, не совсем понял вопрос :) Чем короче урл - тем лучше. Чем меньше параметров - лучше. До параметры иногда создают лишние дубли страниц. Вообще, для попадания страницы в индекс главное, что-бы урл был прочитан роботом.

#45 Андрей Липатцев

Андрей Липатцев

    Бывалый

  • Googler
  • 139 сообщений
235

Отправлено 19 Февраль 2014 - 22:47

Просмотр сообщенияiSeller сказал:

хотите заявить что тут написана не правда?

Хочу заявить, что мне совершенно непонятно, откуда на приведённой странице слова "запрещать к индексации". Я не говорю, что это "ложь", чтобы никого не обидеть. Но я говорю, что здесь об индексации нет ни слова.
Для протокола: я не придирался к Вашей грамматике - это сугубо Ваше дело, как Вы пишете. Но вот то, что Вы пишете - тенденциозно, необоснованно и переходит на личности. Вы уличаете меня во лжи, а за это надо уметь отвечать. Путать сканирование (доступ робота к контенту) с индексированием (занесением информации в индекс) для веб-мастера неграмотно, по меньшей мере.

На вопрос про sitemap, если мне не изменяет память, я ответил исчерпывающе. Но могу повториться для ясности: я не вижу ни причин по умолчанию эти файлы в индекс не вносить, ни вреда, который может причинить их там нахождение.

Для сообщений о спаме есть форма. Думаю, здесь об этом писать необходимости нет.

Какие страницы store35 необходимо удалить из индекса и что Вам мешает использовать инструмент для удаления URL, если они закрыты в robots.txt, а затем убедиться, что на них не ведут ссылки ни внутри сайта, ни снаружи? Или Вы предпочитаете не тратить свои усилия именно на это?

Просмотр сообщенияazsx сказал:

Можно писать в урл site.ru/slony/bolshie/rozovye/slon_rozovyi_model-154.html или для няшек со структурой очень желательно писать site.ru/tip_produkcii=slony/razmer_produkcii=bolshie/cvet_produkcii=rozovye/slon_rozovyi_model-154.html

Второй вариант мне не нравится только потому, что там структура директорий уж больно экзотическая, хотя само по себе это проблемой с точки зрения доступности контента (и тем более ранжирования) не является. Это скорее проблема для самого веб-мастера в плане отслеживания и управления структурой.
Первый вариант вполне себе "няшный". Почему вдруг возникли сомнения?

#46 iSeller

iSeller

    Мастер

  • Активный участник
  • PipPipPipPip
  • 1 241 сообщений
585

Отправлено 20 Февраль 2014 - 00:07

Просмотр сообщенияАндрей Липатцев сказал:

Хочу заявить, что мне совершенно непонятно, откуда на приведённой странице слова "запрещать к индексации". Я не говорю, что это "ложь", чтобы никого не обидеть. Но я говорю, что здесь об индексации нет ни слова.
Давайте так я признаю что ошибся с ссылкой на Англ ресурс, думаю Русскоязычный ресуср вполне доходчиво описал robots.txt, что это и для чего. "Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте." источник. Я как начинающий веб-мастер воспринимаю эту информацию как сигнал к действию. Вы не хотите отвечать касаемо источника на русском языке, но с удовольствием ткнули меня носом, в мою безграмотность относительно английского языка.

Просмотр сообщенияАндрей Липатцев сказал:

Вы уличаете меня во лжи, а за это надо уметь отвечать.
Вы либо солгали, либо по не осторожности заявили следующее: "Изначально составленный robots.txt должен запретить Гугл сканировать (я понимаю так же индексировать) страницу)". Сайт был размещен первоначально с robots.txt, однако роботу это не помешало просканировать и поставить в дополнительный индекс закрытые страницы.

Просмотр сообщенияАндрей Липатцев сказал:

На вопрос про sitemap, если мне не изменяет память, я ответил исчерпывающе.
Нет, вы предположили что у меня есть сайтмапы с другим содержанием. Я вам ответил что нет, на этом с вашей стороны диалог был закончен.

Просмотр сообщенияАндрей Липатцев сказал:

Но могу повториться для ясности: я не вижу ни причин по умолчанию эти файлы в индекс не вносить, ни вреда, который может причинить их там нахождение.
Ок я принял ваш ответ, значит ничего страшного в этом нет, исходя из ваших слов. Но мне все равно не понятно, зачем он в индексе, да еще и на первой странице основного индекса при запросе site:site.ru.

Просмотр сообщенияАндрей Липатцев сказал:

Какие страницы store35 необходимо удалить из индекса и что Вам мешает использовать инструмент для удаления URL, если они закрыты в robots.txt, а затем убедиться, что на них не ведут ссылки ни внутри сайта, ни снаружи?
Я по возможности потратил свои усилия на удаление из индекса того что я смог удалить, скажу честно оказалось это сделать не просто, так как постоянного адреса большая часть страниц не имеет так как это фильтры и переходя к форме авторизации регистрации, параметры при посещении меняются. Большую часть страниц я удалил из индекса где была возможность это сделать. Возникла проблема с удаление супер длинных урлов. Совет по кликнуть правой кнопкой и скопировать URL как то странно выглядят для меня так как при добавлении получается что то на подобии http://site.ru/http://www.google.ru...,d.bGE&cad=rjt. Лишнее на мой взгляд я выделил, но это лишь на мой взгляд, стоит дождаться удаления, что бы оценить качество проделанной работы. Я отношусь с любовью к собственным творениям и предпочитаю уделять внимание любым мелочам. С Дизайном, версткой и настройкой серверов увы у меня проблемы. Хотя на мой взгляд, все что надо, работает хорошо. Если у вас другое мнение, буду рад его услышать и поблагодарить вас за это.

Раз уж вы мне ответили, то объясните мне, какое отношение имеет адрес с HTTPS к ошибкам сканирования и упорным выкладыванием ненужной информации в индекс.

P.S. Убрать ссылки на страницы сравнение и филтр невозможно по определению. Для этого я и пытаюсь воспользоваться файлом robots.txt, что думаю вполне логично.

P.P.S. В соседней ветке идет обсуждение ошибки переадресации. Якобы все мои проблемы из-за не верной переадресации так на HTTPS не работает редирект с www на без www. По этой причине Гугл засунул в индекс сайт с www и без.

Сообщение отредактировал iSeller: 19 Февраль 2014 - 23:54

Продажа оригинальной продукции Apple в Москве Apple-Seller.ru

#47 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 5 035 сообщений
3 145

Отправлено 20 Февраль 2014 - 02:16

Цитата

Почему вдруг возникли сомнения?
потому что я не совсем понял данный вопрос на видеовстрече.

#48 donc

donc

    Гай Юлий Калигула Сковородкер

  • Основатель
  • PipPipPipPipPip
  • 9 765 сообщений
8 405
  • Изсекты свидетелей Кецалькоатля

TC Отправлено 20 Февраль 2014 - 02:37

Андрей Липатцев, А вопрос по сути, его точно не было. Считает ли гугль Аджакс подгрузку клоакингом?
Ну то есть у нас есть в html теле весь текст, но юзер его читает только часть, а потом нажимает на читать дальше (если ему вдруг стало интересно) и полное содержание раскрывается на странице

#49 pyramida

pyramida

    Продвинутый

  • Участник
  • PipPipPip
  • 181 сообщений
68

Отправлено 22 Февраль 2014 - 01:14

Spinne, ты еще с нами или отошел?

#50 Андрей Липатцев

Андрей Липатцев

    Бывалый

  • Googler
  • 139 сообщений
235

Отправлено 03 Март 2014 - 04:29

Просмотр сообщенияSpinne сказал:

приведенные логи взяты на 62.109.4.31 (это VDS).
я правильно понимаю, что это ftp на m-rnagiev? пока мне удалось установить, что мы о нём знаем вот отсюда: http://internetanaly...om/m-rnagiev.ru
Эта страница уже, кажется, померла, но есть и другие: https://www.google.r.../m-rnagiev.ru/"
То есть, причина, по которой бот пытается зайти по этому адресу мне кажется понятной. Или я здесь что-то упускаю?

#51 Zugagang

Zugagang

    Перзидент Синдиката

  • S.E.Syndicate
  • PipPipPipPipPip
  • 2 665 сообщений
1 754
  • ИзГМО

Отправлено 03 Март 2014 - 11:16

Андрей Липатцев, так получается напрасная трата ресурсов. Запретили б по дефолту лазать по всяким непонятным протоколам и было б няшно всем.

#52 Spinne

Spinne

    Зануда™

  • Основатель
  • PipPipPipPipPip
  • 2 007 сообщений
3 427
  • Излесу, вестимо

Отправлено 10 Март 2014 - 01:01

Просмотр сообщенияАндрей Липатцев (03 Март 2014 - 04:29) писал:

я правильно понимаю, что это ftp на m-rnagiev? пока мне удалось установить, что мы о нём знаем вот отсюда: http://internetanaly...om/m-rnagiev.ru
Эта страница уже, кажется, померла, но есть и другие: https://www.google.r.../m-rnagiev.ru/"
То есть, причина, по которой бот пытается зайти по этому адресу мне кажется понятной. Или я здесь что-то упускаю?
Допустим, здесь все верно – у домена богатое прошлое и не один хостинг за спиной. Следы остаются. В данном случае след тянется еще с Мастерхоста, вижу его тамошний IP на VDS и прочие давние дела.

Но это один частный случай, а вот другой:

Mar  4 23:10:21 proftpd[18328]: sketchee.net (crawl-66-249-78-175.googlebot.com[66.249.78.175]) - USER anonymous: no such user found from crawl-66-249-78-175.googlebot.com [66.249.78.175] to ::ffff:62.109.28.180:21
Mar  4 23:10:21 proftpd[18334]: sketchee.net (crawl-66-249-78-175.googlebot.com[66.249.78.175]) - USER anonymous: no such user found from crawl-66-249-78-175.googlebot.com [66.249.78.175] to ::ffff:62.109.28.180:21
По аналогичному запросу "Ничего не найдено" и предложение поискать без кавычек.

Сервер по этому адресу возник совсем недавно, еще и месяца не прошло. И что характерно, настраивая сервер (в т.ч. все связанное с DNS) я отдельно позаботился о том, чтобы "технические" поддомены вида ftp.domain.tld при добавлении домена не возникали. Напрочь выпилил. Они и не возникают.

То есть, в данном конкретном случае информацию о самом существовании там ftp невозможно получить даже по линии DNS. Вообще негде взять. И можно только предполагать, что там на 21-м порту кто-то ждет запроса, "потому что на нем обычно бывает FTP-сервер".
Добавлю, за это же говорит и второй факт: все такие обращения идут только к основному доменному имени сервера. К остальным доменам, размещенным на том же сервере, я никогда не видел гугловских обращений по FTP.

Как насчет комментариев по этому случаю?
Ник не менял, подпись поменяю позже. Ваш Зануда. Он же AHP-net, но это уже там

#53 pyramida

pyramida

    Продвинутый

  • Участник
  • PipPipPip
  • 181 сообщений
68

Отправлено 10 Март 2014 - 04:15

Просмотр сообщенияSpinne сказал:

Как насчет комментариев по этому случаю?
Вариант, что проверяется полноценность хостинга не рассматривался? Ты уж раз начал, то показывай тогда сайт. А то понять позу из камасутры без картинок не все могут :)

#54 Spinne

Spinne

    Зануда™

  • Основатель
  • PipPipPipPipPip
  • 2 007 сообщений
3 427
  • Излесу, вестимо

Отправлено 10 Март 2014 - 12:53

Просмотр сообщенияpyramida (10 Март 2014 - 04:15) писал:

Вариант, что проверяется полноценность хостинга не рассматривался? Ты уж раз начал, то показывай тогда сайт. А то понять позу из камасутры без картинок не все могут :)
Андрей, здесь не нужны картинки. И нет Кама-сутры. Есть выделенный сервер. В его домене вообще нет сайта, в нем есть только NS-ы – и это всё предназначение домена. Никакие боты в этот домен не допускаются изначально, по HTTP он стандартно "смотрит в сеть" одной страничкой, а robots.txt полностью запрещает доступ. Речи о HTTP вообще не было.

"Вариант, что проверяется полноценность хостинга" ты на ходу выдумал? Молодец, садись – два.

Домен открыто светится во фрагменте логов, на самом видном месте. Но у меня серьезные опасения, что ты на эти строки и не смотрел. И вообще не попытался понять, о чем речь. А если нет представления о вопросе – не может быть и ответа.
Вот тебе домен, если не разглядел – sketchee.net – иди и любуйся на техническую заглушку...
Ник не менял, подпись поменяю позже. Ваш Зануда. Он же AHP-net, но это уже там

#55 pyramida

pyramida

    Продвинутый

  • Участник
  • PipPipPip
  • 181 сообщений
68

Отправлено 11 Март 2014 - 22:49

Просмотр сообщенияSpinne сказал:

Молодец, садись – два.
я заплакал и ушел с темы :)

#56 Андрей Липатцев

Андрей Липатцев

    Бывалый

  • Googler
  • 139 сообщений
235

Отправлено 20 Март 2014 - 03:25

Просмотр сообщенияSpinne сказал:

Но это один частный случай, а вот другой:

Это заход бота по запросу пользователя. Я не знаю, кто, когда и зачем делал это запрос. Даже если бы знал, скорее всего, тут бы это не обсуждал. Но один из возможных сценариев --- я подчёркиваю - это необязательно то, что произошло именно здесь, это одна из возможностей --- так вот, один из возможных сценариев - кто-то добавил сайт в инструменты для веб-мастеров и пошёл запрос на получение той маленькой превьюшной картинки, что появляется слева от названия сайта. В таком случае сайт не надо ни подтверждать, ни что бы то ни было ещё, но бот сходит и попробует сделать снимок.

Следующий пример.

#57 donc

donc

    Гай Юлий Калигула Сковородкер

  • Основатель
  • PipPipPipPipPip
  • 9 765 сообщений
8 405
  • Изсекты свидетелей Кецалькоатля

TC Отправлено 20 Март 2014 - 03:40

Андрей Липатцев,Ну вот а мне не ответили:)

#58 Андрей Липатцев

Андрей Липатцев

    Бывалый

  • Googler
  • 139 сообщений
235

Отправлено 21 Март 2014 - 02:05

Просмотр сообщенияdonc сказал:

Считает ли гугль Аджакс подгрузку клоакингом?

Нет. Но рекомендую почитать вот это, чтобы "сделать всё хорошо"

#59 donc

donc

    Гай Юлий Калигула Сковородкер

  • Основатель
  • PipPipPipPipPip
  • 9 765 сообщений
8 405
  • Изсекты свидетелей Кецалькоатля

TC Отправлено 21 Март 2014 - 02:20

Просмотр сообщенияАндрей Липатцев сказал:

Но рекомендую почитать вот это
Ну не тот я язык учил в школе - СССР, я был хулиган, а их обычно сплавляли в немецкую группу. И почему гугль переводчик теперь в 2 клика?
Удобную на редкость штуку спрятали черти куда- смысл этого бы понять...

#60 Spinne

Spinne

    Зануда™

  • Основатель
  • PipPipPipPipPip
  • 2 007 сообщений
3 427
  • Излесу, вестимо

Отправлено 21 Март 2014 - 02:45

Просмотр сообщенияАндрей Липатцев (20 Март 2014 - 03:25) писал:

Это заход бота по запросу пользователя. Я не знаю, кто, когда и зачем делал это запрос. Даже если бы знал, скорее всего, тут бы это не обсуждал. Но один из возможных сценариев --- я подчёркиваю - это необязательно то, что произошло именно здесь, это одна из возможностей --- так вот, один из возможных сценариев - кто-то добавил сайт в инструменты для веб-мастеров и пошёл запрос на получение той маленькой превьюшной картинки, что появляется слева от названия сайта. В таком случае сайт не надо ни подтверждать, ни что бы то ни было ещё, но бот сходит и попробует сделать снимок.
Нереально. Визиты бота при добавлении в инструменты я давно знаю, они специфичны, но не особенно. И они опять-таки по протоколу HTTP. Превью тоже снимается по HTTP. И файл favicon.ico опять-таки по HTTP. Повадки бото⠘– моя слабость, на нескольких сайтах у меня полный архив визитов ботов за годы. :) Некоторых из этих ботов и в живых уже нет...

И к тому же:
1. Этот домен никогда не добавлялся в инструменты - он чисто технический и сайта там не было. Максимум заглушка, но в robots.txt всегда запрет от корня.
2. Снятие превью сайта просто невозможно путем входа по FTP с логином anonymous. Нигде и никогда директория анонимного FTP доступа не совпадает с DocumentRoot сайта, поэтому вытащить из нее превью нельзя никак. Вообще никак. Исключение – когда сайта (HTTP-ресурса) нет вообще, а есть FTP-ресурс с анонимным доступом.
3. Это не объясняет периодических повторных попыток. А они есть во всех случаях.
4. Во всех, повторяю – во всех этих случаях я вижу такие визиты только в один домен. В тот, который является доменным именем сервера. На сервере при этом может быть еще немало доменов, в них есть сайты, у них могут быть поддомены для FTP (ftp.domain.tld), но к ним обращений бота по FTP не было ни разу.

В общем, версия не проходит.
Ник не менял, подпись поменяю позже. Ваш Зануда. Он же AHP-net, но это уже там





Также с тегом видеовстречи google

Количество пользователей, читающих эту тему: 1

0 пользователей, 1 гостей, 0 анонимных



© 2019 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва

Мы в соцсетях: twitter | вконтакте | facebook | livejournal