Desbloque esta y miles de clases más
Premium de Código Facilito

Módulo 1 | 8 clases

Scrapper

Clase 1

1.- Introducción

Clase 2

2.- Obtener página

Clase 3

3.- Obtener títulos

Clase 4

4.- Expresiones regulares

Clase 5

5.- BeautifulSoup

Clase 6

6.- Threads

Clase 7

7.- Obtener artículo

Clase 8

8.- Integrar MongoDB

2 comentario(s)

@admc09

06 Junio 21

Python 3.8

#importamos la libreria beautifulsoup4

from bs4 import BeautifulSoup

import requests

# Importamos para tener una tarea asincrona

import threading

google_news_url = 'https://news.google.com/'

def set_robot(article):

title = article.find('a', { 'class' : 'DY5T1d RZIKme'}).getText()

url = article.find('a').get('href')

#print(' - ', title)

print(' - ', url)

def scraping_site():

re = requests.get( google_news_url )

if re.status_code == 200:

# re.text : captura todo el contenido

# html.parser : nos parcea todo el contenido

soup = BeautifulSoup( re.text, 'html.parser' )

if soup is not None:

articles = soup.find_all('h3', { 'class' : 'ipQwMb ekueJc RD0gLb' })

for article in articles:

robot = threading.Thread( name=set_robot(article) ,target=set_robot, args=(article,))

robot.start

if __name__ == '__main__':

scraping_site()

Ver respuestas (1)

Marcos Alejandro

02 Octubre 16

Que ventajas tengo de utilizar threads, no lo explica el video. gracias

Ver respuestas (1)

Clase 6

Threads

6/8

Crea un scraper web con Python