Acabo de subir la nueva versión de Boris, la araña.
Aunque la pinta externa sea la misma, la he reconstruido por dentro. Ahora uso el plugin acts_as_taggable_on_steroids para asociar Keywords a Paginas, en lugar de hacerlo con un modelo estándar. Me encanta este plugin para etiquetar, es justo lo que necesitaba.
Mi pequeña librería de scraping, MetaInspector, usa ahora exclusivamente Hpricot para extraer los datos de las páginas visitadas (title, meta description, meta keywords y enlaces externos).
Por la parte de background, he probado rake tasks, pero a la hora de meterlo en cron no parece gustarle mucho a Dreamhost (te mata los procesos en cuanto duran un ratito), así que seguiré tirando de script/runner, a razón de 1 página por minuto. Total, no hay prisa ninguna, como se pueden ver en las estadísticas de portada:
“Quedan 304 años para terminar de indexar la Web, aunque para dentro de 49 años ya tendremos todos los dominios en cola. :)”
Finalmente me hubiera gustado usar acts_as_ferret como motor de búsqueda, pero no he conseguido hacerlo funcionar en Dreamhost, así que he deshabilitado las búsquedas hasta que lo consiga, o me haga una búsqueda estándar sin ese plugin.
Y para acabar y hacer las cosas bien desde el principio, he borrado todos los datos recopilados en estos 5 meses (231.255 páginas y 114.236 keywords) y vuelto a empezar.
A ver cuántos sitios web es capaz de visitar Boris de aquí al día de su presentación en la Conferencia Rails… ![]()
2 comments ↓
Hola Jaime,
Una pregunta tonta: (desde el desconocimiento
Para buscar varias palabras clave, ¿se podría utilizar la proximidad entre éstas? No es lo mismo que las dos palabras estén en la misma oración (ó +/- N palabras), en el mismo párrafo, texto, … Supongo que se complicaría bastante más; no se siquiera si Google lo estará haciendo. De hecho, Google suele mostrar páginas que tienen una palabra en un post, otra en los enlaces laterales, … que no parece lo más adecuado, aunque puede que sí mucho más manejable
¿Qué opinas?
Nos vemos en la conferencia. Saludos.
Hola Héctor, si, creo que esto de la proximidad sí que lo hace Google.
Boris es mucho menos pretenciosa, y sólo clasifica las palabras clave que aparecen en las meta keywords, no en el contenido del texto principal de la página.
Leave a Comment