# web scraping en portales como idealista



## makaveli_sano (1 May 2020)

Según sus normas o condiciones esta prohibido hacer scraping en su portal web, para extraer datos.

Mi idea es hacerlo para mostrar info(en un sitio web) sobre la evolución de precios de las viviendas en españa, sin dar muchos detalles.

¿es realmente ilegal? ¿voy pillando un abogado?


----------



## brent (1 May 2020)

en qué parte dicen eso de que no es legal?


----------



## makaveli_sano (1 May 2020)

brent dijo:


> en qué parte dicen eso de que no es legal?




"Acceder, controlar o copiar cualquier información incluida en esta Web y apps utilizando para ello cualquier tipo de robot, spider, scraper u otro medio automático o proceso manual para cualquier propósito, sin nuestro permiso expreso y por escrito. "


https://www.idealista.com/ayuda/articulos/terminos-y-condiciones-generales-de-idealista/


----------



## miau2020 (1 May 2020)

makaveli_sano dijo:


> Según sus normas o condiciones esta prohibido hacer scraping en su portal web, para extraer datos.
> 
> Mi idea es hacerlo para mostrar info(en un sitio web) sobre la evolución de precios de las viviendas en españa, sin dar muchos detalles.
> 
> ¿es realmente ilegal? ¿voy pillando un abogado?



saca datos de otras webs tambien.


----------



## bondiappcc (2 May 2020)

Yo extraería unos cuantos datos nada más.

Poquitos para que no se enfaden.


----------



## Máximo Décimo Hispanio (2 May 2020)

miau2020 dijo:


> saca datos de otras webs tambien.



Si, filtrar y crear las tablas de datos con varias fuentes, a correr


----------



## tremenk (4 May 2020)

No.

Vi una startup financiada por BBVA. Donde recogían datos de los precios de productos de todo un sector era tan bueno el software que te decían cuando hacian las ofertas y todo...encima con un histórico de precios y ofertas...

Eso si este software picaba un poco y dependiendo de cuanto pagaras te dejaban acceder al historico de precios de X empresas y X cantidad de productos.

Si fuera ilegal el BBVA no lo hubiera financiado...

Si la encuentro la startup esta te la paso por MP.


----------



## hanschristian (4 May 2020)

Cualquier cosa que está en Internet es de dominio público.

Ellos pueden decir misa. Otra cosa es que quieras copiar su web y comerciar con una réplica de idealista, y encima en un alojamiento de legislación europea.


----------



## makaveli_sano (5 May 2020)

tremenk dijo:


> No.
> 
> Vi una startup financiada por BBVA. Donde recogían datos de los precios de productos de todo un sector era tan bueno el software que te decían cuando hacian las ofertas y todo...encima con un histórico de precios y ofertas...
> 
> ...




gracias, por lo que comentan, sería ilegal si se trataría de un plagio como tal, pero en este caso, es solo para tema estadístico y ni mucho menos tumbar el servidor haciendo peticiones constantes.


----------



## Rodolfo Langostino (5 May 2020)

Podrías explicar a grandes rasgos como se puede hacer lo que comentas? Estaría bien incluso para uso casero si no es demasiado complicado


----------



## anonimocobarde (5 May 2020)

makaveli_sano dijo:


> Según sus normas o condiciones esta prohibido hacer scraping en su portal web, para extraer datos.
> 
> Mi idea es hacerlo para mostrar info(en un sitio web) sobre la evolución de precios de las viviendas en españa, sin dar muchos detalles.
> 
> ¿es realmente ilegal? ¿voy pillando un abogado?



Yo intenté hacerlo y tienen protección, no dediqué mucho tiempo a intentar romperla porque, teniendo medidas expresas para evitar el scrapping, me parece que legalmente es bastante pantanoso. Luego vi que tienen una API pública, pedi acceso y me lo dieron, pero muy limitado (100 peticiones al mes si no recuerdo mal, que no me llega para lo que quería hacer). 

https://www.idealista.com/labs/

Con fotocasa sí que funciona el scrapping. Les escribí para ver si tienen una API para controlar accesos o algo así para fastidiarles lo menos posible y me dijeron que no. Al final tampoco hice nada, pero bueno.


----------



## anonimocobarde (5 May 2020)

Rodolfo Langostino dijo:


> Podrías explicar a grandes rasgos como se puede hacer lo que comentas? Estaría bien incluso para uso casero si no es demasiado complicado



¿Sabes programar?

Python tiene una librería muy famosa, scrappy, para estas cosas. Es lo que se usa hoy en día, pero no la controlo.

Pero bueno, se puede acceder con cualquier lenguaje que tenga una librería cliente para web (hoy en día, prácticamente todos). Básicamente el programa hace una petición a la web (como si fuera un navegador), y extrae los datos que interesen. es un coñazo porque en cuanto cambien el formato de la página se va todo tu trabajo a la puta.


----------



## Máximo Décimo Hispanio (6 May 2020)

anonimocobarde dijo:


> Yo intenté hacerlo y tienen protección, no dediqué mucho tiempo a intentar romperla porque, teniendo medidas expresas para evitar el scrapping, me parece que legalmente es bastante pantanoso. Luego vi que tienen una API pública, pedi acceso y me lo dieron, pero muy limitado (100 peticiones al mes si no recuerdo mal, que no me llega para lo que quería hacer).
> 
> https://www.idealista.com/labs/
> 
> Con fotocasa sí que funciona el scrapping. Les escribí para ver si tienen una API para controlar accesos o algo así para fastidiarles lo menos posible y me dijeron que no. Al final tampoco hice nada, pero bueno.



Necesitas cambiar de proxy con herramientas de pago

Crawlera - The World's Smartest Rotating Proxy Web Scraping Network

Scrapy Cloud - The Most Advanced Platform for Running Web Crawlers


----------



## pelotazo_especulativo (5 Jul 2021)

Máximo Décimo Hispanio dijo:


> Necesitas cambiar de proxy con herramientas de pago
> 
> Crawlera - The World's Smartest Rotating Proxy Web Scraping Network
> 
> Scrapy Cloud - The Most Advanced Platform for Running Web Crawlers



Te dedicas al tema de scrapping?
Ultimamente lo he estado mirando y de oidas se de algunas personas que supuestamente viven de ello, pero la verdad es que parece un poco jodido poder vivir de algo así.


----------



## MiNombreEsFantasma (5 Jul 2021)

Tienen un sistema de análisis de logs que detecta scrapping y banea las IPs. Lo sé porque tengo un excompañero de trabajo que actualmente trabaja allí y formó parte de ese desarrollo. Te lo banearán en poco tiempo.

Es decir, antes te caparán el bot que denunciarte y cosas así. No les compensa tanto.

Pasa igual en muchos otros sitios, como casas de apuestas, donde el scrapping está muy vigilado y algunos sites son realmente buenos detectándolo.


----------



## Espectrum (5 Jul 2021)

no lom permiten en su pollítica pero haces un puto script y te bajas todo 1 vez por semana o así y ya. no lo van a notar.


----------



## basura_inmunda (8 Jul 2021)

pelotazo_especulativo dijo:


> Te dedicas al tema de scrapping?
> Ultimamente lo he estado mirando y de oidas se de algunas personas que supuestamente viven de ello, pero la verdad es que parece un poco jodido poder vivir de algo así.



Yo hago scraping desde hace años.

A no ser que trabajes de programador para una empresa no se si eso da mucho dinero, es bastante "asequible" sacar info de cualquier página. Y para los bloqueos, se usan proxis.


----------



## Paddy McAloon (8 Jul 2021)

El hilo tendría que haber empezado con este enlace:






Web scraping - Wikipedia, la enciclopedia libre







es.wikipedia.org


----------



## FilibustHero (8 Jul 2021)

Los scrapers son vistos por la web como un navegador normal, si eres mínimamente hábil te bajas la información que quieras y no se entera nadie. Hablo de los cambios y datos más recientes, otra cosa es que quieras bajarte la web entera en 10min. (y pillo sitio a ver si decís algo interesante).

edito
Por cierto, os dejo este video que me parece muy ilustrativo, en este caso sobre como escrapear fotos de instagram con Selenium. Pero hay muchos más ejemplos.
NOTA: no saquéis una idea equivocada antes de ver el video A pesar del aspecto shorteen premium de la programadora la chica controla un huevo (y no es tan chortina como aparenta).


----------



## lowfour (8 Jul 2021)

Idealista tiene un sistema comercial antiscrapping. Lo sé porque lo he investigado.

si quieres hacerlo tienes que simular un browser y comportamiento humano. Algo como puppeteer y tal


----------



## FilibustHero (8 Jul 2021)

lowfour dijo:


> Idealista tiene un sistema comercial antiscrapping. Lo sé porque lo he investigado.
> 
> si quieres hacerlo tienes que simular un browser y comportamiento humano. Algo como puppeteer y tal



Yo cuando hago escraping voy "navegando" con mi ratón por donde me interesa y según descargo se va guardándo todo en la base de datos (fotos incluidas). No me estoy bajando todo (está claro) pero guardo la información que me vale a mí y además con un histórico de años que eso vale su peso en oro.


----------



## Don Redondón (8 Jul 2021)

mientras el robot no les tire el sitio, puedes hacer lo que quieras.


----------



## alexxxmf (8 Jul 2021)

makaveli_sano dijo:


> Según sus normas o condiciones esta prohibido hacer scraping en su portal web, para extraer datos.
> 
> Mi idea es hacerlo para mostrar info(en un sitio web) sobre la evolución de precios de las viviendas en españa, sin dar muchos detalles.
> 
> ¿es realmente ilegal? ¿voy pillando un abogado?



Y porque no capturas las peticiones generadas por la app movil usando como puente tu portatil? En la app movil no te hace falta estar registrado para buscar propiedades y demas. Vas inspeccionando las llamadas y vas viendo como aprovechar su API.









A Tutorial for Reverse Engineering Your Software's Private API: Hacking Your Couch


How to use reverse engineering as a tool to find the flaws and advance our software in many aspects? This article shows us how to reverse-engineer a private API and find out more about its internal implementation.




www.toptal.com





En instagram esto es jodido de cojones pero en algo que no te pide ni estar logueado como idealista seguramente sea muy facil hacerle ingenieria inversa.


----------



## jorobachov (8 Jul 2021)

No es ilegal copiar datos de un documento html mediante scraping. Sería ilegal acceder a sus bases de datos sin su consentimiento. Pueden decir misa.


----------



## lowfour (8 Jul 2021)

jorobachov dijo:


> No es ilegal copiar datos de un documento html mediante scraping. Sería ilegal acceder a sus bases de datos sin su consentimiento. Pueden decir misa.



no si ilegal no es pero es su negocio y date por seguro que te van a joder. Ya te digo que cargan un script que analiza comportamientos de scrappers y si te identifican te meten un ban que te cagas. Por eso hace 10 años con scrapebox Se usaban listados de proxies. Y por eso los scrapper de LinkedIn son extensiones de chrome que simulan un humano.

yo lo haría con un browser en node y programaría un comportamiento bastante random. Jodido.


----------



## jorobachov (8 Jul 2021)

lowfour dijo:


> no si ilegal no es pero es su negocio y date por seguro que te van a joder. Ya te digo que cargan un script que analiza comportamientos de scrappers y si te identifican te meten un ban que te cagas. Por eso hace 10 años con scrapebox Se usaban listados de proxies. Y por eso los scrapper de LinkedIn son extensiones de chrome que simulan un humano.
> 
> yo lo haría con un browser en node y programaría un comportamiento bastante random. Jodido.



No se , a mi phantomjs me ha funcionado siempre bien y he combinado selenium y librerías de Python para pasear html. Un ban te lo puedes saltar con la chorra eliminando cookies y mandando al router una orden de renegociado de la IP vía telnet o puedes usar proxies de pago , que no son caros y son IPS que no están quemadas ni metidas en bases de datos de servicios antiscraping.


----------



## lowfour (8 Jul 2021)

jorobachov dijo:


> No se , a mi phantomjs me ha funcionado siempre bien y he combinado selenium y librerías de Python para pasear html. Un ban te lo puedes saltar con la chorra eliminando cookies y mandando al router una orden de renegociado de la IP vía telnet o puedes usar proxies de pago , que no son caros y son IPS que no están quemadas ni metidas en bases de datos de servicios antiscraping.



si claro, pero ya te digo que tienen un sistema antiscrapping comercial y eso no va solo por IP y agent, eso seguro que have perfilado de patrones de navegación, fingerprinting y mil cosas más. Probaré a ver


----------



## lowfour (8 Jul 2021)

Vamos tengo contacto con una startup de Tel Aviv que hacen soft anti fraude de click ppc y hacen casi 1000 tests para validar la autenticidad de los visitantes. Con eso te lo digo todo.


----------



## jorobachov (8 Jul 2021)

Busca negociar IP con proveedor de servicios o algo así. La cuestión es que si accedes al sistema Unix del router a través de una sesión telnet o SSH , tienes acceso a un montón de funciones , incluida solicitar la nueva IP pública. Yo con routers neutros hacia virguerías. En temas de scraping y resolución de sistemas captcha he trabajado mucho.


----------



## basura_inmunda (10 Jul 2021)

Con el aprendizaje automático hoy en día cualquier jugador que tenga el dinero puede pagar tecnología para bloquear accesos automatizados.


----------



## elepwr (10 Jul 2021)

Hoy en día esos marketplaces están muy protegidos.

Tu igual ves idealista pero detrás está una empresa que tiene webs como esa en 10 paises y pueden tener fácil 10 tíos solo dedicandose a que no les hagan eso.

Hacen un sistema de la virgen y lo ponen en sus 30 webs.

Si es un portal paco podrás scrapear lo que quieras pero normalmente un portal paco no tiene el volumen suficiente como para que te compense montar todo el tinglao.


----------

