Воскресенье, 27.07.2025, 20:45

Мой сайт

Меню сайта
Статистика

Онлайн всего: 1
Гостей: 1
Пользователей: 0

Каталог програм

Главная » Статьи » Парсеры контента

Парсер контента Content Downloader
Скачать бесплатно

Недавно по наводке Сеоштейна мне удалось приобрести замечательный парсер контента, который значительно экономит моё время при копировании материалов с других сайтов (а куда без копипаста?).

Хочется отметить, что автор программы всегда готов помочь и продолжает активную работу над усовершенствованием продукта, учитывая пожелания пользователей.

Помимо парсера, в программе есть ещё и много дополнительных полезностей, например: экспорт в WordPress и Zebrum, массовая обработка файлов, работа с изображениями.


Давайте попробуем что-нибудь спарсить. Чтобы никого не обидеть, будем экспериментировать на моём блоге.

Парсинг контента

Откроем программу, нажмём на иконку настроек — откроются две вкладки, выберем «ссылки».

В список ссылок (самое нижнее окошко) добавим карту сайта и посмотрим, какие ссылки предполагается получить.

Как видите, здесь много лишних для нас страниц. Попробуем исправить ситуацию, задав границы парсинга. Для этого выделим ссылку в списке и в опции задать границы парсинга нажмём на троеточие.

Укажем кодировку utf-8, зададим начало парсинга:

и конец:

Теперь откроем «Фильтры» и настроим их следующим образом:

Замечу, что данные настройки актуальны именно для моего блога, для других сайтов придётся подгонять их индивидуально.

Далее введём стартовый url для сканирования всего сайта и нажмём на кнопку «получить ссылки».

Удаляем из списка полученных ссылок категории и другие непойманные мелочи, и имеем в итоге только ссылки на статьи. Так как однажды мне пришлось изменить шаблон ссылок на блоге, мне придётся ещё и удалить из списка образовавшиеся в следствие этого дубли.

Теперь перейдём на вкладку «контент», выберем любую ссылку и зададим границы парсинга для содержимого. Начало:

и конец:

Сошлёмся на первоисточник, укажем путь сохранения и выберем формат html. Включим загрузку картинок, да так, чтобы они сохранялись в одну папку. Если нажать «дополнительно», то в открывшемся окне можно будет указать имя этой папки и выбрать что, как и в каком количестве сохранять.

Теперь настроим заголовок. Укажем границы парсинга:

и настроим всё так, как на картинке:

Сделаем предпросмотр любого элемента из списка (двойной клик либо иконка с лупой), порадуемся тому, что скоро получим, и начнём парсинг нажатием на зелёную двойную стрелочку.

Откроем папку, в которую мы сохранили контент, проверим качество работы и приступим к экспорту.

Экспорт контента

Нажимаем на иконку «Обработка и импорт в КМС», там жмём на плюсик (расширенная функция добавления файлов), и в открывшемся окне добавляем всё, что мы только что спарсили.

Выбираем массовую обработку файлов, переходим на вкладку «автозаполнение полей», в заголовке выбираем «брать из тегов h», отмечаем удаление строки из текста и нажимаем «заполнить».

Если вы копируете контент для сателлитов под Sape, то совсем не лишним будет изменить заголовки на собственные. Метки желательно проставлять самостоятельно.

Можно автоматически вставить во все статьи тег < !--more-- >, это делается на вкладке «автопростановка тегов».

Переходим на вкладку «чистка документов» и удаляем пустые строки в начале документов.

На вкладке «преобразование < img >» сначала удаляем все префиксы, а затем добавляем примерно следующий префикс ко всем картинкам:

/wp-content/uploads/2010/05/

Если ваш сайт находится не в корневом каталоге, то придётся указать адрес полностью, например:

http://localhost/wordpress/wp-content/uploads/2010/05/

Если на сайте нет этой папки, то смело создаём её и заливаем туда все спарсенные изображения.

Вернёмся в программу и нажмём на иконку «сохранить всё», после чего можем приступить к созданию файла импорта нажатием на соответствующую иконку (документ с направленной вверх стрелочкой).

В открывшемся окне укажем путь сохрания, нужную CMS, и запланируем публикацию так, как нам нравится. Например:

Очень удобно, что система предсказывает дату последней публикации.

Нажимаем на кнопку «создать файл импорта» и переходим к импорту материалов на сайт.

Мы создали файл импорта для WordPress, поэтому заходим в панель администратора этой CMS и переходим на страницу Инструменты → Импорт → WordPress. Импортируем файл и наслаждаемся результатом.

Желаю вам всего самого доброго. Скачать бесплатно



Источник: http://gamescatalogue.ru/
Категория: Парсеры контента | Добавил: Admin (21.02.2011) W
Просмотров: 1844 | Теги: Парсинг контента | Рейтинг: 0.0/0