Перейти к содержимому

MOAB

Как использовать базу спарсенных главных?


  • Войдите, чтобы ответить
Сообщений в теме: 2

#1 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 978 сообщений
3 115

Отправлено 24 Июль 2016 - 15:21

Чтобы повторить паскаль и основы БД (постгрес, будь он неладен) я неспешно написал рабочую программу, которая парсит главные и роботс. В день 250К ссылок, из них 80К нерабочие по разным причинам. Могу упереться до 1 миллиона на одном компе. Регион весь мир, сегодня спарсено 6 миллионов главных. Отмечу, что допустил непоправимые ошибки, так что если для чего то рабочего юзать эту базу, надо переделывать чуть более, чем всё. Но зато я знаю как надо сделать лучше :)
Тупо учусь. Сейчас сама структура БД исчерпала себя для моего обучения (разумнее бросить как есть) и ваще мне лучше оракле посмотреть внимательнее для учебы.
---
Я не знаю как использовать эти данные. Ну ясно, я сливаю альты у анкоров, могу вывести себе сайты рефов от определенных парнерок или найти кто юзает js определенные. Но как бы непонятно, нафига это? Как бы вы такое использовали?
Посоветуйте как можно использовать эти данные и надо ли улучшать алгоритм (парсинг всех страниц, а не только главных, масштабирование до уровня yacu, кодировки (азиаты и арабы).

#2 Матумба

Матумба

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 5 031 сообщений
6 298
  • ИзКрии

Отправлено 24 Июль 2016 - 22:11

Это всё что надо, чтобы сделать всё что надо.
Но цель можно придумать только в своей голове.
Можно, ради тренировки, разложить это всё по дмозу и сделать тематический классификатор документов. Хотя бы на основе Наивного Байеса.
Разгребать языки и кодировки - это долго и мучительно. Можно поискать решение как это сделать не долгим и не мучительным :D (например на основе ccTLD)
"Бескорыстие и любовь к ближнему в себе надо давить"
Почти правильный сеосервис

#3 donc

donc

    Гай Юлий Калигула Сковородкер

  • Основатель
  • PipPipPipPipPip
  • 9 609 сообщений
8 149
  • Изсекты свидетелей Кецалькоатля

Отправлено 25 Июль 2016 - 01:08

azsx, спарсить исходящие ссылки, хотябы по соломоно
Определить процент коммерческих анкоров в исходящих
Внезапно понять, что сайты с коммерческими исходящими отсутствуют в топе
Много думать :)




Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных



© 2019 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва

Мы в соцсетях: twitter | вконтакте | facebook | livejournal