
Недавно по наводке Сеоштейна мне
удалось приобрести замечательный парсер
контента, который значительно экономит моё время при копировании
материалов с других сайтов (а куда без копипаста?).
Хочется отметить, что автор программы всегда готов помочь и
продолжает активную работу над усовершенствованием продукта, учитывая
пожелания пользователей.
Помимо парсера, в программе есть ещё и много дополнительных
полезностей, например: экспорт в WordPress и Zebrum, массовая обработка
файлов, работа с изображениями.
Давайте попробуем что-нибудь спарсить. Чтобы никого не обидеть, будем
экспериментировать на моём блоге.
Парсинг контента
Откроем программу, нажмём на иконку настроек — откроются две вкладки,
выберем «ссылки».
В список ссылок (самое нижнее окошко) добавим карту сайта и
посмотрим, какие ссылки предполагается получить.

Как видите, здесь много лишних для нас страниц. Попробуем исправить
ситуацию, задав границы парсинга. Для этого выделим ссылку в списке и в
опции задать границы парсинга нажмём на троеточие.
Укажем кодировку utf-8, зададим начало парсинга:

и конец:

Теперь откроем «Фильтры» и настроим их следующим образом:

Замечу, что данные настройки актуальны именно для моего блога, для
других сайтов придётся подгонять их индивидуально.
Далее введём стартовый url для сканирования всего сайта и
нажмём на кнопку «получить ссылки».

Удаляем из списка полученных ссылок категории и другие непойманные
мелочи, и имеем в итоге только ссылки на статьи. Так как однажды мне
пришлось изменить шаблон ссылок на блоге, мне придётся ещё и удалить из
списка образовавшиеся в следствие этого дубли.
Теперь перейдём на вкладку «контент», выберем любую ссылку и зададим
границы парсинга для содержимого. Начало:

и конец:

Сошлёмся на первоисточник, укажем путь сохранения и
выберем формат html. Включим загрузку картинок, да
так, чтобы они сохранялись в одну папку. Если нажать
«дополнительно», то в открывшемся окне можно будет указать имя этой
папки и выбрать что, как и в каком количестве сохранять.

Теперь настроим заголовок. Укажем границы парсинга:

и настроим всё так, как на картинке:

Сделаем предпросмотр любого элемента из списка (двойной клик
либо иконка с лупой), порадуемся тому, что скоро получим, и начнём
парсинг нажатием на зелёную двойную стрелочку.
Откроем папку, в которую мы сохранили контент, проверим качество
работы и приступим к экспорту.
Экспорт контента
Нажимаем на иконку «Обработка и импорт в КМС», там жмём на плюсик
(расширенная функция добавления файлов), и в открывшемся окне добавляем
всё, что мы только что спарсили.
Выбираем массовую обработку файлов, переходим на вкладку
«автозаполнение полей», в заголовке выбираем «брать из тегов
h», отмечаем удаление строки из текста и нажимаем «заполнить».
Если вы копируете контент для сателлитов под Sape, то совсем не
лишним будет изменить заголовки на собственные. Метки желательно
проставлять самостоятельно.
Можно автоматически вставить во все статьи тег < !--more-- >,
это делается на вкладке «автопростановка тегов».
Переходим на вкладку «чистка документов» и удаляем пустые строки в
начале документов.
На вкладке «преобразование < img >» сначала удаляем все
префиксы, а затем добавляем примерно следующий префикс ко
всем картинкам:
/wp-content/uploads/2010/05/
Если ваш сайт находится не в корневом каталоге, то придётся указать
адрес полностью, например:
http://localhost/wordpress/wp-content/uploads/2010/05/
Если на сайте нет этой папки, то смело создаём её и заливаем туда все
спарсенные изображения.
Вернёмся в программу и нажмём на иконку «сохранить всё», после чего
можем приступить к созданию файла импорта нажатием на
соответствующую иконку (документ с направленной вверх стрелочкой).
В открывшемся окне укажем путь сохрания, нужную CMS, и запланируем
публикацию так, как нам нравится. Например:

Очень удобно, что система предсказывает дату последней публикации.
Нажимаем на кнопку «создать файл импорта» и переходим к импорту
материалов на сайт.
Мы создали файл импорта для WordPress, поэтому заходим в панель
администратора этой CMS и переходим на страницу Инструменты → Импорт
→ WordPress. Импортируем файл и наслаждаемся результатом.
Желаю вам всего самого доброго.
Скачать бесплатно
Источник: http://gamescatalogue.ru/ |