Посты с тэгом seo


Автоблоггинг. Python скрипт для автопостинга в блоги.

Здравствуй мир! В общем забегая немного вперед, хотелось бы анонсировать парочку проектов, которые в скором времени окажутся в постах этого блога =). Сегодня написал граббер статей с RSS лент, с поддержкой плагинов. Хотя началось все с того, что хотелось разобраться, с API blogger. В общем я думаю все сделаю в одном, то есть граббер, постер, [...]



Grab , Grablib — Proxy Grab [ Прокси граббер ]. Python tips and tricks

Yandex and Google proxy Grabber В общем все наверное помнят, что я хотел написать автореггер mail.ru в прошлой теме, так вот мы знаем, что для таких целей нам нужны прокси / proxy. Есть простой вариант купить их, но опять же это упирается в финансы, время (на регистрацию, ожидания, одобрения и т.д.) , поэтому многие используют бесплатные [...]



Python Grab / Grablib , правильный парсинг или как собрать базу имен

Давненько ничего не постил в блог, надо исправляться =). [ Intro ] …………….    В общем понадобилось написать автореггер для mail.ru, но прежде чем начать его написание, надо собрать базу имен и фамилий. По запросу «имена», google выдал http://vseimena.com, в общем на нем я и остановился. [ Theme ] И так, приступим: Ссылка на страницы выглядит [...]



Мониторинг позиций своими руками

Делаем мониторинг позиций запросов в поисковой системе, начало.


Обычно мы заинтересованны в увеличении клиентов.
А что-бы увеличить что-то, нужно это сначало оценить.
А так уж исторически сложилось, что часть клиентов на интернет-магазины приходит с поисковых систем.
( Про работу с контекстной рекламой и прайс-агрегаторами напишу в слудующих статьях, если кому будет интересно. )
А для оценики своего состоянии в поисковиках, обычно нужно собрать с них статистику по положению запросов в выдаче.

Наш инструмент будет состоять из 2-х частей:
  • скрипт для парсинга поисковой выдачи, с помощью Curl и lxml
  • веб-интерфейс для управления и отображения, на Django

Читать дальше →


grab.spider tricks.

1) Дефолтный valid_status для всех заданий. Нужно переопределить метод valid_response_code, например таким образом:

def valid_response_code(self, code, task):
    return True

В данном примере все ответы будут считаться валидными.

2) Список стартовых урл, initial_urls, может оказаться просто ненужным. Чтобы не делать лишнее действие, можно запускать spider не через task_initial, а через task_generator:

class MainSpider(Spider):
    #initial_urls = ['http://www.google.com/']

    def task_generator(self):
        url = "http://www.google.com/"
        yield Task(name='page', url=url)

Это один из способов, но далеко не единственный.



Разработка mini-cms для MFA сайтов.

Soooo, mini-cms for mfa sites – на жанге! Джанго отличный фреймворк (говорят даже что это один из лучших продуктов что сейчас вообще есть), там предусмотрено все что нужно для быстрой разарботки веб-сайтов, каждая мелоч, а философия фрэймворка предполагает многократно использовать приложения (apps почти как плагины в вордпрессе) которых наваяли уже тысячи и почти все что [...]



Генерация xml карты.

Иногда требуется сгенерировать xml карту для заданных ссылок. Сначала делал это за счет метода строки format, но вот решил попробовать модуль для работы с xml и набросал простенькую функцию:

import StringIO
from xml.sax.saxutils import XMLGenerator
def create_sitemap(cnagfreq,priority,*links):
    st = StringIO.StringIO()
    g = XMLGenerator(st,encoding="UTF-8")
    g.startDocument()
    g.startElement('urlset', {'xmlns':"http://www.sitemaps.org/schemas/sitemap/0.9"})
    for lnk in links:
        g.characters("\n")
        g.startElement("url", {})
        g.characters("\n")
        g.startElement("loc", {})
        g.characters(lnk)
        g.endElement("loc")
        g.characters("\n")
        g.startElement("changefreq", {})
        g.characters(cnagfreq)
        g.endElement("changefreq")
        g.characters("\n")
        g.startElement("priority", {})
        g.characters(priority)
        g.endElement("priority")
        g.characters("\n")
       


Пример скрипта.

Решил выложить видео работы простенького скрипта для регистрации акков в ЖЖ. Для работы этого скрипта необходимо установить Python и PyCurl. После этого можно запускать скрипт, предварительно указав нужные параметры (ключ от антикапчи, количество потоков, адрес почтового ящика и т.д.):