Desbloque esta y miles de clases más
Premium de Código Facilito

Módulo 1 | 8 clases

Scrapper

Clase 1

1.- Introducción

Clase 2

2.- Obtener página

Clase 3

3.- Obtener títulos

Clase 4

4.- Expresiones regulares

Clase 5

5.- BeautifulSoup

Clase 6

6.- Threads

Clase 7

7.- Obtener artículo

Clase 8

8.- Integrar MongoDB

3 comentario(s)

Franco

22 Abril 20

#para la version 3.8.2 de Python, usar este codigo:
import urllib.request
import re

def getPage():
open_file = open(filePath, 'wb')
html_file = urllib.request.urlopen("http://econpy.pythonanywhere.com/ex/001.html")
html_file = html_file.read()
open_file.write(html_file)
open_file.close()

def getTitulo(filePath):
open_file = open('econpy.html', 'r')

regex = '<div title="buyer-name">'
regexEnd = '</div>'

for line in open_file.readlines():
sentence = line.strip('\n')
if regex in sentence:
initialPos = sentence.find(regex)
initialPos = initialPos + len(regex)
finalPos = sentence.find(regexEnd)
print(sentence[initialPos: finalPos])

def getTituloRegex():
html_file = urllib.request.urlopen("http://econpy.pythonanywhere.com/ex/001.html")
html_file = html_file.read()

regex = rb'<div title="buyer-name">(.+?)</div>'
titulo = re.findall( regex, html_file )
for tit in titulo:
print(tit)

if __name__ == '__main__':
filePath = 'econpy.html'
#getPage()
#getTitulo(filePath)
getTituloRegex()

@fridarfp

18 Septiembre 19

Hola una pregunta, obtengo el siguiente error:
titles = re.findall(regex, html_file)
File "D:\Programas\Python\lib\re.py", line 223, in findall
return _compile(pattern, flags).findall(string)
TypeError: cannot use a string pattern on a bytes-like object

A que se debe??

Ver respuestas (1)

Fredy Guibert フレディ

27 Agosto 19

En la primera parte del video NO estás usando expresiones regulares, simplemente estás buscando un pedazo de texto... Evita dar información errónea.

Estás equivocado, las expresiones regulares NO están optimizadas para que no tarde demasiado. Las expresiones regulares sirven para agilizar la búsqueda de patrones, sin embargo, al hacer malas expresiones regulares puede tumbarse un sistema, por citar un ejemplo:
Cloudflare tuvo esa falla.

Referencias:

https://blog.securityinnovation.com/cloudflare-dos-blackout
https://www.owasp.org/index.php/Regular_expression_Denial_of_Service_-_ReDoS

Ver respuestas (2)

Clase 4

Expresiones regulares

4/8

Crea un scraper web con Python