/modulos/get_page_urllib.py

https://bitbucket.org/alfonsodg/curso_python_basico · Python · 26 lines · 11 code · 4 blank · 11 comment · 0 complexity · ddd5bbce419f3c8d2aad7d6516a35cc3 MD5 · raw file

  1. # -*- coding:utf-8 -*-
  2. import urllib, urllib2
  3. import re
  4. #Constantes
  5. #Expresiones regulares
  6. BODY_EXP = r"""<body.*?>(?P<contents>.*)</body>"""
  7. TAG_EXP = r"""<.*?>"""
  8. URL = 'http://paginasblancas.com.pe/resultados.asp?'
  9. #-- Conexion con URL --
  10. #Parametros del URL
  11. params = urllib.urlencode({'ap':'de la borda'})
  12. opener = urllib2.build_opener()
  13. #Lectura del URL dentro de una variable/objeto
  14. contenido = opener.open(URL, params).read()
  15. #-- Metodos de ER para extraer contenidos --
  16. #Empleando el metodo search, se nos devuelve un grupo con las coincidencias
  17. strip_1 = re.search(BODY_EXP, contenido, re.IGNORECASE| re.DOTALL).group(0)
  18. #Empleando el metodo compile, quitamos los tags restantes
  19. strip_1 = re.compile(TAG_EXP).sub('',strip_1)
  20. #Escribo el resultado en un archivo, pero lo mejor es simplificarlo aún más
  21. #e incluso grabar los registros extraidos en un archivo csv
  22. open('texto_extraido.txt','w').write(strip_1)