В районе 22 числа нынешнего месяца произошло изменение формата выдачи у гугла (может это произошло и раньше , но заметил я только тогда). В результате чего парсер наотрез отказался выдирать урлы из выдачи.
Что бы вернуть все как было (ну в смысле чтоб парсило без проблем ) , проделываем следующие манипуляции:
Открываем на редактированние файл /cgi-bin/aura/mod/Aura/Google.pm , ищем там строки :
my $RESULT_TEMPLATE = qq[<div class=g>];
my $RESULT_TEMPLATE2 = qq[<div class=g ];
и меняем на :
my $RESULT_TEMPLATE = qq[<h3 class=r>];
my $RESULT_TEMPLATE2 = qq[<h3 class=r];
В принципе настройка парсинга выполнена в модулях , которые находятся в этой папке, так что немного поковыряв код можно настроить Ауру на парсинг всего что угодно.

August 30th, 2008 at 2:14 pm
Спасибо, я как-то давненко не пользовался этим парсером Гугла, все болше AllSub помогает. Но все равно буду иметь в виду, что код страниц выдачи изменился. Это важно для меня тоже.
Автораспознавание капчи Says:September 12th, 2008 at 10:30 am
Предлагаю модули распознавания капчи. В наличии много движков, в частности google, yahoo, mail.ru. Возможно написание распознавалки под ваш проект. Также пишем софт на си++ для win, nix
icq 5-786-656