В версии ничего нового от предыдущей, пользователи начали жаловаться, что парсер перестал работать. Действительно, полез посмотреть – гугл много чего поменял. Все переделано, и как я обрадовался, что гугл выводит на экран сразу все страницы картинок. Теперь 1 тыс картинок можно спарсить примерно за 1-2 секунды ![]()

Скачать
Парсер цитат из сайта citaty.info

Можно применять, к примеру в дорвеях. Результаты парсинга записываются в файл в нужной (выбирается) кодировке.
Имя цитаты “разделитель” текст цитаты
Пару мелких изменений

Скачать
Допустим, у Вас есть файл из спарсеным неважно откуда контентом, и Вам нужно выдрать оттуда предложения, начинающиеся с большой буквы, и заканчивающиеся точкой. Тогда моя программа Вам в помощь.

Скачать
По просьбам немного модернизировал парсилку, теперь есть возможность в результаты парсинга вывести название ролика (добавил чекбокс): формат: код для вставки или айди ролика ; название ролика.

Скачать
UPD: По просьбе сделал конвертер выходных данных из “код;название” в “название;код”. Скачать можно здесь: Скачать
Откроем для примера любую запись любого блога:
http://last-m.livejournal.com/166433.html
Смотрим на оставленые коментарии. Текст нас не интересует, смотрим на никнейм оставившего комент: это прямая ссылка на его блог. По этой ссылке поисковики быстрее проиндексируют блог человека, который оставил коментарий.
Извините за некрасивое размещение кода пхп. В редакторе он красивый, но после копипаста табы ломаются.
Недавно я подсчитал свои затраты за осень\зиму\весну на распознавание каптчи (у негров антикаптча), и немного прибалдел. В общем, я начал работать в направлении ocr, и в качестве тренировки выбрал sape.ru
Вот такие каптчи (4 шт):

Далеко не все доргены делают файл, который потом можно импортировать в FileZilla, а те, которые делают (например рдорген) – делают по 1 файлу импорта на каждый сайт, что не совсем удобно, ведь приходится каждый файл отдельно импортировать в FileZilla.
Я написал программу, которая как раз подготовит 1 файл для импорта, настроенный хоть на 100 разных сайтов. В программе есть как простой режим для генерации 1 сайта, так и пакетный (см. файл packet.txt)
С одним сайтом все ясно, про пакетный немного поясню:
Пример задания для генератора:
login;password;ftp;local_folder;remote_patch
Каждое задание с новой строки.
login,password,ftp – данные для подключения
local_folder – Путь до папки с файлами на Вашем компьютере
remote_patch – Удаленная папка, куда залить файлы. Например public_html, без кавычек и т.д.
Все Ваши предложения и пожелания с удовольствием выслушаю на vocheretko@gmail.com
Пустых строчек не делайте в файле пакетного задания
Я понимаю, что удобно было бы сразу из пакетки доргена скопипастить данные, или с другого места. В будущем я напишу маленькую универсальную программу для конвертации Вашего формата (логин\пасс\фтп и тд) в мой формат (не забываем подписатся на РСС, чтоб быть вкурсе выхода софта), а пока за символическую плату я сделаю Вам конвертор индивидуально, именно под Ваши нужды, писать в ICQ: 252-240463
UPD: Только что обнаружилось, что в пакетном режиме предыдущий файл задания FileZilla не перезаписывается при следующей генерации, а дописывается. Но уже лень править\компилировать – сделаю завтра
Работает по аналогии парсера Яндекс картинок. Запрос – кнопка – получение результатов ![]()
Скачать
http://clubseo.su/2010/06/24/parser-kartinok-google/
UPD (21.08.2010): Обновилась версия парсера (эта версия не работоспособна). Подробнее на странице блога http://clubseo.su/2010/08/21/parser-google-kartinok-vtoraya-versiya/
В рубрике :
Авг.21,2010
Теги :
