Pywc 0.3 (antes PyCrawler) @ Código para llevar [blog]

El cambio de nombre viene porque con una búsqueda en Google por "PyCrawler" se encuentran choporrocientos scripts, asi que para evitar confusiones... Python Web Client -> Pywc

Por lo demás, los añadidos son pocos, un poco de DOM con las funciones website.getElementById(element_id), website.getElementsByName(name) y website.getElementsByTagName(tag), y un nuevo atributo de los website, website.title, todo esto se usaría igual que desde JavaScript (que es la idea).

Además hay algunas correcciones, como los elementos que no sean tags (element.tag == False) tienen un atributo element.text que guarda (obviamente) el propio texto. Si se llama a crawlsite con el segundo parámetro (save_raw) a True, se guarda una copia del site original en el atributo web.raw. Por último, se arregló un problema con las URL.

Aquí el ZIP con esto: [pywc_03.zip] El crawler actualizado: [fastcrawler_03.py] Y el descargador de lista de proxies actualizado: [proxylist_03.py]

Codigo para llevar [blog]

Pywc 0.3 (antes PyCrawler)