Sigo con mi araña. He hecho una pequeña modificación, porque por defecto, el crawler almacena en memorias el contenido completo de todas las páginas que se baja. Claro está, según el sitio, puede llegar a ser un montón y el bicho se quedaba sin memoria antes de haber terminado.
Lo que hay que hacer es muy simple. Se mira primero si ha terminado de procesar un enlace y se le dice en ese caso que se deshaga de la página que se ha bajado. Así modificado, cuenta ligeramente por debajo de 79.000 enlaces externos en mi sitio (incluyendo repeticiones, claro).
La cifra me parecía de escándalo. Yo había estimado el número de páginas en unas 300, y claro, con unos 50 enlaces (otra estimación), por página, pues salen unos 15.000. Pero resulta que no, modificando ligeramente la araña de nuevo, salen 920 páginas. Es decir, unos 86 enlaces externo por página, que entra dentro de lo posible.
La cifra de páginas es más alta de lo que debiera, porque resulta que hay varias formas de acceder a la misma página. Tendré que corregirlo y obtener una cifra más ajustada a la realidad.
Hola, he visto tus comentarios sobre la araña que estás haciendo, yo estoy haciendo una y lo que me pasa es que cuando la ejecuto varias veces llega un momento en el que usa la cpu al 100% no se si es exactamente lo que te pasa a ti, podrías decirme como lo has solucionado??