PageRenderTime 43ms CodeModel.GetById 16ms RepoModel.GetById 1ms app.codeStats 0ms

/modulos/get_page_urllib.py

https://bitbucket.org/alfonsodg/curso_python_basico
Python | 26 lines | 20 code | 3 blank | 3 comment | 0 complexity | ddd5bbce419f3c8d2aad7d6516a35cc3 MD5 | raw file
  1. # -*- coding:utf-8 -*-
  2. import urllib, urllib2
  3. import re
  4. #Constantes
  5. #Expresiones regulares
  6. BODY_EXP = r"""<body.*?>(?P<contents>.*)</body>"""
  7. TAG_EXP = r"""<.*?>"""
  8. URL = 'http://paginasblancas.com.pe/resultados.asp?'
  9. #-- Conexion con URL --
  10. #Parametros del URL
  11. params = urllib.urlencode({'ap':'de la borda'})
  12. opener = urllib2.build_opener()
  13. #Lectura del URL dentro de una variable/objeto
  14. contenido = opener.open(URL, params).read()
  15. #-- Metodos de ER para extraer contenidos --
  16. #Empleando el metodo search, se nos devuelve un grupo con las coincidencias
  17. strip_1 = re.search(BODY_EXP, contenido, re.IGNORECASE| re.DOTALL).group(0)
  18. #Empleando el metodo compile, quitamos los tags restantes
  19. strip_1 = re.compile(TAG_EXP).sub('',strip_1)
  20. #Escribo el resultado en un archivo, pero lo mejor es simplificarlo aún más
  21. #e incluso grabar los registros extraidos en un archivo csv
  22. open('texto_extraido.txt','w').write(strip_1)