Help

Дизайн-Студия, Воронеж. E-Mail:

Allsubmitter BaseFix Help.

Утилита позволяет удобно обрабатывать базы для Allsubmitter любой версии - накладывать, пересекать, разбивать базы и т.п.

К тому же соответствующей опцией можно сгенерить кучу статистики по базе, удалить из базы нерусские каталоги, проверить что отвечает сервер по запросу по ссылкам в базе (мертвые каталоги), проверить какие из каталогов забанены Яндексом, узнать тИЦ.



Все довольно просто. Есть два режима:

Double mode - основной, предназначен для апдейта базы. Все сталкивались с тем, что при апдейте в уже проверенную базу валятся мусорные ссылки, которые потом трудно "выковыривать". Вот два способа решить проблему в Double mode.

1) Берете исходную базу, проверенную. Вторым файлом указываете добавляемую. По итогам получаете вторую базу, разбитую на две части - в верхнем окне уникальные ссылки (с точностью до домена), в следующем - дубликаты, для удобства тоже собранные вместе. Теперь у вас есть база чисто уникальных каталогов, вы ее проверяете и

Внимание, вопрос! При таком методе придется много раз проверять уже ранее проверенные "плохие" каталоги, т.к. в вашей чистой базе их нет и ссылки на них пройдут, как уникальные. Потому полезно иметь (и всегда можно сделать) базу из всех ваших каталогов вместе взятых и по ней пробивать уникальные.

2) Собирайте базу "плохих" ссылок и по ней всегда проверяете новую базу. Сразу отпадают все ссылки, которые у вас уже были отсеяны. Потом еще проверка по "рабочей" базе - остается немного ссылок, которые надо будет уже проверить "руками".

Внимание, вопрос! Как собрать базу "плохих" ссылок. Берете любую базу. Делайте резервную копию оригинала. Проходя по каталогам удаляете "плохие" ссылки напрочь. В итоге получаете базу только хороших, заходите сюда и пересекаете ее с оригиналом. Готово!

3) Придумайте сами - напишите, будет выложено тут в помощь другим.

Есть два вида сравнения баз - когда новые ссылки из второй базы сразу добавляются к первой базе и выдаются в окне, и когда в окне выдачи показываются ТОЛЬКО новые ссылки (основной режим).

Опция "Показывать подробную статистику" позволяет при выдаче результатов видеть детальное описание базы. Очень удобно для оценки базы.



Выдача баз. Версии.

По умолчанию база сохраняет даные в xml формата AllSubmitter 2.5. Для совместимости с различными версиями предусмотрена опция сохранения в новый xml-формат последней версии сабмитера. При сохранении в новом формате в xml будут добавлены все поля, в том числе autofill, yandex и xmldsc, и будет использована кодировка UTF.

Есть опция сохранения в текстовый режим. Для чего - сообразите сами.
Реально удобно бывает.

Сортировка выдачи.

Сортировка в основном актуальна для тИЦ и позволяет получить самые важные сайты в начале списка базы. Но сортировка довольно долго работает, рекомендуется не совмещать ее одновременно с проверкой тИЦ и другими режимами slow. Лучше прогоните сортировку позже отдельно.

Брать не файл, а из выдачи

Позволяет сразу дальше обрабатывать только что полученную базу, не выгружая ее в файл. База берется из формы с итоговой выдачей. Удобно, если нужно по полученной выдаче провести новый фильтр. Особенно удобно для сканирования тИЦ небольшими порциями - включаете скан до 100 адресов, ставите "не сканировать известные" и крутите базу, собирая тИЦ. Аналогично полезно с другими опциями.

Если у вас плохое соединение можно крутить не по 100, а меньше за один раз - всеравно быстрее. Рекомендуется периодически выгружать полученную выдачу на случай, если вдруг будет превышено время ожидания. Кстати, если такое случится - жмите F5 и ждите, пока запрос будет повторен.



Дополнительные возможности.

Есть много фильтров, которые накладываются уже после отбора уникальных ссылок (или в режиме одной базы сразу применяются к загруженной базе). Удобно еще и тем, что "удаление" ссылок из базы позволяет включи опцию "показывать удаленнные", получать отдельные куски базы с удаленными каталогами.

Фильтры позволяют почистить и рассортировать базу по PR и тИЦ, разбить на части по выбранному принципу. Известно, например, что отобрать из базы каталоги с PR ниже определенного уровня гораздо сложнее, чем наоборот :-) Заодно из базы можно удалить чужие или ненужные комментарии, тайтлы, англ. каталоги, просканировать тИЦ для базы, проверить каталоги на бан и т.п.

Solo mode.

Работает с одной базой (второй файл не грузите).
Позволяет почистить, просканировать, оценить и побить базу на куски.



Обозначения.

База: a(b) ---- всего в считанной базе найдено записей, в скобках указано число ошибочных (некорректных) записей (на всякий случай проверяется).

-D: a/b/c ---- отсеяно мертвых ссылок (сервер не отвечал или выдавал код ошибки), a - удалено ссылок, b - проверено а текущем проходе ссылок, c - всего в базе проверенных ссылок

-B: a/b/c ---- отсеяно забаненых яндексом ссылок, a - удалено ссылок, b - проверено а текущем проходе ссылок, c - всего в базе проверенных ссылок

-C ---- отсеяно по фильтру *.com

-S ---- отсеяно по первому символу

-M: a/+b ---- отсеяно по маске (a - отсеяно, b - было бы отсеяно, но спасено по 2й маске)

-PR ---- отсеяно по уровню PR (Если используете фильтр по PR, сначала прогоните в самбитере PR check. Данная утилита берет PR из полей базы)

-Y ---- отсеяно по уровню тИЦ

-E: a/b+c/-d ---- нерусские каталоги. a - всего найдено доменов, отличных от .ru, b - сколько из них уже ранее проверено и помечено русскими, c - сколько из остальных подозрительных (a без b) проверено, d - сколько из проверенных оказались не русскими и были удалены.



Проверка тИЦ.

Утилита умеет залазить на Яндекс и таскает оттуда тИЦ для каталогов. Это быстрее и удобнее, чем в сабмитере смотреть каждый сайт или ходить на Яндекс вручную. Для удобства скрипт добавляет тИЦ в комментарии (именно добавляет, а не затирает) в специальном формате, который потом умеет распознавать. Внимание, если включить опцию очистки комментариев, все полученные тИЦ будут затерты тут же!) Аналогично при выдаче в текстовом формате). Чтобы при очистке комментариев эти данные не были затерты, включите соотв. опцию ниже. Так же можно перенести эти поля в заголовки - удобно, т.к. Сабмитер показывает заголовки при просмотре базы, а комментарии только при входе на каждую ссылку.

В демке проверка работает максимум для 10 первых сайтов. В полноценной версии - любое количество. Но при большом количестве существенно дольше ждать, так что рекомендуется для проверки тИЦ базу предварительно обкатать и отфильтровать по остальным параметрам, а затем порциями по 300-500 штук прогнать.

В параметре "не более" указываете сколько сайтов должно быть проверено, чтобы не гонять на всю базу, если не надо. Если это число более, чем всего в базе есть, понятно, что проверится вся база.

Опция "Пропускать известные тИЦ от" позволяет ускорить работу скана, если у вас в базе уже есть проверенные на тИЦ каталоги или вся база уже с тИЦ и надо только актуализировать - может какие тИЦ уже поменялись. Чтобы не гонять лишнее, для каталогов с высоким тИЦ можно отключить проверку - они и так важные и плюс/минус 20 пунктов для них не существенно. Вы лучше проверьте не подросла ли мелочь :)

Опция "сканировать только неизвестные" пропустит все каталоги, для которых тИЦ уже есть в базе. Таким образом если база "тяжелая", а соединение с Яндексом не очень, можно прогнать базу на тИЦ несколько раз, сохраняя на каждом этапе результат, и получить все тИЦ (см. выше опцию "Брать из выдачи"). Даже в таком варианте это на много быстрее, т.к. даже если у вас модем, на Яндекс лазить не вам, а скрипту, а он шустрый ;-)

Опция "Пометить нулевые тИЦ, как неизвестные" срабатывает при загрузке базы, снимает метку с каталогов с тИЦ = 0, т.о. они становятся как бы не проверенные и можно использовать опцию "Сканировать только для неизвестных", чтобы сканируя неизвестные тИЦ сразу пересканировать и нулевые. Удобно, если вы не уверены, что нули определены верно и хотите пересканировать.



Фильтрация.

Вы можете задать нужный диапазон PR и тИЦ и на выдаче получите каталоги, которые подходят под заданные условия. PR и тИЦ берутся из описания, но тИЦ может быть налету получен ПЕРЕД ФИЛЬТРАЦИЕЙ, если задействована опция "Сканировать тИЦ".

Если включена опция "Удалять неопределенные тИЦ", то все каталоги, для которых тИЦ не определено, будут удалены из выдачи. В противном случае данный фильтр на них не подействует. (Неопределенный PR считается равным нулю).

Как этим пользоваться? Просто. Просканили тИЦ, можете удалить всю мелочь из базы. А вдруг эта мелочь через месяц вырастет? Тогда сначала сохраните полученную базу (рекомендуется всегда), а потом загрузите ее и сначала удалив все крупные, получите базу мелочи - сможете позже ее еще прогнать и глянуть кто "подрос".

Другой случай - надо удалить все сайты с неизвестным тИЦ. Ставите опцию для тИЦ от 0 до 999999 и включаете удаление неопределенных. Готово! Или наоборот, отключаете удаление неопределенных тИЦ, ставите фильр на тИЦ от 999999 до 999999 и получаете базу из одних неопределенных. Еще варианты придумайте сами :)



Использование маски.

Для гибкой работы с адресами можно использовать маску. Вы можете наложить любые маски по аналогу регулярных выражений. Будут удалены все каталоги, ардес которых подходит по маске, кроме тех, которые подходят под маску исключения. Примечание - вместо . используйте * - в остальном полный аналог регулярных выражений, например, работает такая маска: (v*+s)|(bb). Опция позволяет удобно и гибко разбивать базы по адресам и выковыривать из базы мусор. Например, удалить каталоги на бесплатном хостинге можно маской .h1.ru



Удаление нерусских каталогов.

Режим "Удалять английские каталоги (*.com)" просто удаляет из выдачи ссылки, у которых домен .com.

А вот в wise-режиме программа сканирует все каталоги, у которых домен отличается от .ru и определяет их язык на основе собранных данных. В скобках указывается лимит каталогов на проверку - чтобы не ожидать слишком долго можно проверять всю базу постепенно небольшими порциями, используя опцию "брать из выдачи". (см. по аналогии как работать со сканером тИЦ).

Программа запоминает уже проверенные "подозрительные" каталоги, помечает их в комментариях признаком RUS и при следующей проверке игнорирует их. Так же действует режим ограничения проверки (см. ниже). Выдача E: Всего найдено нерусских доменов/из них уже проверенных + проверено/-удалено



Удаление "мертвых" ссылок.

Опция позволяет задать коды ответов сервера, которые вы считаете за "мертвую" ссылку (404, 403 и т.п. по вашему усмотрению), и потом проверяет каталоги на этот признак, удаляя каталоги с указанными кодами ответов сервера. Проверенные ссылки помечаются кодом ответа и больше не проверяются. Проверить их повторно можно, указав опцию "Снять пометки с проверенных". Она действует сразу и "мертвые" ссылки и на забаненные каталоги (не затрагивает проверку на "русскость" - OK.RUS). Так же действует режим ограничения проверки (см. ниже).



Удаление забаненых Яндексом ссылок.

Опция позволяет удалить из базы каталоги, которые Яндекс забанил по разным причинам. Известно, что многие каталоги забанены за спам. Ссылки с них для тИЦ роли не играют и при желании вы можете отсеять такие каталоги из базы, получив их список в окне "Удаленные каталоги". Проверенные ссылки помечаются "OK" и больше не проверяются. Проверить их повторно можно, указав опцию "Снять пометки с проверенных". Она действует сразу и "мертвые" ссылки и на забаненные каталоги (не затрагивает проверку на "русскость" - OK.RUS). Так же действует режим ограничения проверки (см. ниже).

Как это работает можете увидеть сами, подставив базу с парой забаненных каталогов и парой действующих.



Режим ограничения проверки BAN&DEAD.

При использовании опций проверки бана и "мертвых" ссылок, по аналогии со сканером тИЦ (см. выше) можно обрабатвать за один проход не всю базу сразу, а указанный кусок. Параметр действует сразу на обе опции.



Оценка базы.

Покупая базу часто спрашивают - можно увидеть кусочек, сравнить со своей? Так или иначе все хотят убедиться, что база для них окажется достаточно уникальной, но до покупки продавец не рискует показать базу, т.к. по сути отдаст товар.

Данная утилита позволяет зашифровать базы и затем сравнить их безопасно передав другому человеку. Шифрованные базы не могут быть использованы, но на 100% дают увидеть их новизну в сравнении с другими базами. Программа может сравнить как шифрованные базы, так и открытые или открытые с шифрованными. И сама же может шифровать базы для передачи другим людям. Поддерживаются все популярные форматы баз.

Для получения шифрованной базы выберите опцию "Выдавать шифр базы" в самом низу раздела "Опции выдачи". Тогда все выдаваемые программой базы будут в зашифрованном виде.

Для сравнения зашифрованной базы просто загрузите файл с ней, как обычный файл с базой для сравнения.

Облегченная версия, предназначенная только для сравнения и шифрования баз, находится здесь.



Есть идеи - пишите. Удачи!