Перейти к содержимому

MOAB

- - - - -

Подскажите парсер контента

парсер контента

  • Закрытая тема Тема закрыта
Сообщений в теме: 6

#1 snatch

snatch

    Почетный

  • Активный участник
  • PipPipPipPipPip
  • 1 516 сообщений
1 826
  • ИзFuturama

Отправлено 12 Июнь 2016 - 04:16

Привет всем
Подскажите парсер контента, желательно бесплатный, те что за деньги я и сам нашел)))
Попробовал Uni Parser он глючит, мне, надо спарсить часть большого сайта, а он не хочет парсить там где я ему сказал, он парсит все подряд.
Нашел ломаный SJS, но в архиве с парсером троян, парсер нужен на раз, и ради одного раза покупать не хочется.

#2 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 608 сообщений
1 901
  • Изгалактики Мле́чный Путь

Отправлено 12 Июнь 2016 - 12:57

php :D
«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#3 snatch

snatch

    Почетный

  • Активный участник
  • PipPipPipPipPip
  • 1 516 сообщений
1 826
  • ИзFuturama

TC Отправлено 12 Июнь 2016 - 14:32

Просмотр сообщенияИлья сказал:

php
вот почему то совсем не удивлен ответом.
Пока что нашел ломаный datacol пытаюсь его настроить

#4 c4e8ece0

c4e8ece0

    Ниггер на лошади

  • Участник
  • PipPipPipPipPip
  • 5 431 сообщений
7 012
  • Изцирка

Отправлено 12 Июнь 2016 - 22:35

Просмотр сообщенияsnatch сказал:

вот почему то совсем не удивлен ответом.
ну в самом деле, надо лишь освоить пару функций и жизнь станет прекрасна
искать каждый раз корявый софт, чтобы изучить корявые настройки как-то нелогично

вот, например, проходчик по всем урлам вебимхи, написан за 10 минут (не запускал, возможно есть небольшие ошибки):
сам пхп можно освоить за пару дней с полного нуля или пару часов после другого языка
<?php

// Сбор страниц на webimho.ru

$pref = 'http://webimho.ru';
$arr = array($pref.'/');

for($i=0; $i<count($arr); $i++) {
	$url = $arr[$i];
	$page = @file_get_contents($url)
	if(!$page) {
		continue;
	}
	if(!preg_match_all('/href="(.*)"/isu', $page, $m, PREG_SET_ORDER)) {
		continue;
	}

	foreach($m as $k=>$v) {
		$new = $pref . $v[1];
		if(array_search($new, $arr)) {
			continue;
		}
		$arr[] = $new;
	}
}

?>

вот так можно без гемора выкачать какой-нибудь сайтик из линуксовой консоли:
 wget -nc -r http://webimho.ru/

хватит придумывать себе лишний геморрой
"Они не могут ничего, у них лапки котят"
mine.organic

#5 isay777

isay777

    смурфосеошнег

  • Модератор
  • PipPipPipPipPip
  • 2 290 сообщений
2 443
  • ИзМосква

Отправлено 12 Июнь 2016 - 23:15

datacol !
И есть второй, донк на нем сидит content downloader
мое портфолио - Дешевый и надежный хостинг c SSD --- СНИМАЕМ ПОЗИЦИИ ЧЕТКО

#6 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 5 441 сообщений
3 487

Отправлено 13 Июнь 2016 - 01:39

по свету donc я также купил КД, но не осилил егошнего интерфейса. Ссылки то еще генерировать на получение мог, но вот парсинг сложных страниц методом привязки - для меня нечто.
мой выбор на сегодня, httrack + lazarus.
зы
а по теме я хз какой парсер лучше.

#7 snatch

snatch

    Почетный

  • Активный участник
  • PipPipPipPipPip
  • 1 516 сообщений
1 826
  • ИзFuturama

TC Отправлено 13 Июнь 2016 - 01:51

Просмотр сообщенияДартаньян сказал:

ну в самом деле, надо лишь освоить пару функций и жизнь станет прекрасна искать каждый раз корявый софт, чтобы изучить корявые настройки как-то нелогично
Может быть и проще освоить, не стану спорить, но мне кажется если по каждому случаю что то учить, вникать долго и не продуктивно, спецом точно не стану за пару дней, да и со временем выученное без повторения забуду, я себя знаю. И за участие в любом случае спасибо.

Просмотр сообщенияisay777 сказал:

datacol !
Вроде разобрался с ним более менее, но что то он не все записывает, любые части текста, все вроде парсит, но вот если это набор однотипных ссылок, он парсит первую по списку и все, остальные не пишет в файл. При этом смотрю логи, пишет все ок, ошибок нет.

Просмотр сообщенияazsx сказал:

а по теме я хз какой парсер лучше.
Не мне не нужен лучший, просто нужно было спарсить часть сайта, причем даже без картинок.




Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных



© 2023 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва
  • Top.Mail.Ru

Мы в соцсетях: twitter | вконтакте | facebook | livejournal