Перейти к содержимому

MOAB

- - - - -

Подскажите парсер контента

парсер контента

  • Закрытая тема Тема закрыта
Сообщений в теме: 6

#1 snatch

snatch

    Мастер

  • Активный участник
  • PipPipPipPip
  • 1 273 сообщений
1 401
  • ИзFuturama

Отправлено 12 Июнь 2016 - 05:16

Привет всем
Подскажите парсер контента, желательно бесплатный, те что за деньги я и сам нашел)))
Попробовал Uni Parser он глючит, мне, надо спарсить часть большого сайта, а он не хочет парсить там где я ему сказал, он парсит все подряд.
Нашел ломаный SJS, но в архиве с парсером троян, парсер нужен на раз, и ради одного раза покупать не хочется.

#2 Илья

Илья

    Матаноадептикс

  • Основатель
  • PipPipPipPipPip
  • 1 549 сообщений
1 820
  • Изгалактики Мле́чный Путь

Отправлено 12 Июнь 2016 - 13:57

php :D
«функция подсчёта длины каждого вектора в векторе векторов, на выходе вектор длин векторов-векторов» © 先生

#3 snatch

snatch

    Мастер

  • Активный участник
  • PipPipPipPip
  • 1 273 сообщений
1 401
  • ИзFuturama

TC Отправлено 12 Июнь 2016 - 15:32

Просмотр сообщенияИлья сказал:

php
вот почему то совсем не удивлен ответом.
Пока что нашел ломаный datacol пытаюсь его настроить

#4 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 670 сообщений
5 719
  • ИзКрии

Отправлено 12 Июнь 2016 - 23:35

Просмотр сообщенияsnatch сказал:

вот почему то совсем не удивлен ответом.
ну в самом деле, надо лишь освоить пару функций и жизнь станет прекрасна
искать каждый раз корявый софт, чтобы изучить корявые настройки как-то нелогично

вот, например, проходчик по всем урлам вебимхи, написан за 10 минут (не запускал, возможно есть небольшие ошибки):
сам пхп можно освоить за пару дней с полного нуля или пару часов после другого языка
<?php

// Сбор страниц на webimho.ru

$pref = 'http://webimho.ru';
$arr = array($pref.'/');

for($i=0; $i<count($arr); $i++) {
	$url = $arr[$i];
	$page = @file_get_contents($url)
	if(!$page) {
		continue;
	}
	if(!preg_match_all('/href="(.*)"/isu', $page, $m, PREG_SET_ORDER)) {
		continue;
	}

	foreach($m as $k=>$v) {
		$new = $pref . $v[1];
		if(array_search($new, $arr)) {
			continue;
		}
		$arr[] = $new;
	}
}

?>

вот так можно без гемора выкачать какой-нибудь сайтик из линуксовой консоли:
 wget -nc -r http://webimho.ru/

хватит придумывать себе лишний геморрой

#5 isay777

isay777

    смурфосеошнег

  • Модератор
  • PipPipPipPipPip
  • 2 246 сообщений
2 353
  • ИзМосква

Отправлено 13 Июнь 2016 - 00:15

datacol !
И есть второй, донк на нем сидит content downloader
мое портфолио - Дешевый и надежный хостинг c SSD

#6 azsx

azsx

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 4 567 сообщений
2 844

Отправлено 13 Июнь 2016 - 02:39

по свету donc я также купил КД, но не осилил егошнего интерфейса. Ссылки то еще генерировать на получение мог, но вот парсинг сложных страниц методом привязки - для меня нечто.
мой выбор на сегодня, httrack + lazarus.
зы
а по теме я хз какой парсер лучше.

#7 snatch

snatch

    Мастер

  • Активный участник
  • PipPipPipPip
  • 1 273 сообщений
1 401
  • ИзFuturama

TC Отправлено 13 Июнь 2016 - 02:51

Просмотр сообщенияДартаньян сказал:

ну в самом деле, надо лишь освоить пару функций и жизнь станет прекрасна искать каждый раз корявый софт, чтобы изучить корявые настройки как-то нелогично
Может быть и проще освоить, не стану спорить, но мне кажется если по каждому случаю что то учить, вникать долго и не продуктивно, спецом точно не стану за пару дней, да и со временем выученное без повторения забуду, я себя знаю. И за участие в любом случае спасибо.

Просмотр сообщенияisay777 сказал:

datacol !
Вроде разобрался с ним более менее, но что то он не все записывает, любые части текста, все вроде парсит, но вот если это набор однотипных ссылок, он парсит первую по списку и все, остальные не пишет в файл. При этом смотрю логи, пишет все ок, ошибок нет.

Просмотр сообщенияazsx сказал:

а по теме я хз какой парсер лучше.
Не мне не нужен лучший, просто нужно было спарсить часть сайта, причем даже без картинок.




Количество пользователей, читающих эту тему: 1

0 пользователей, 1 гостей, 0 анонимных



© 2017 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва

Мы в соцсетях: twitter | вконтакте | facebook | livejournal