Acabo de soltar en la wild wild web a Boris, la araña, un buscador web programado con Ruby on Rails a modo de experimento personal…
Boris es una araña web que cataloga las páginas de acuerdo a las keywords que tienen declaradas.
Está constantemente rastreando páginas en la Web, y para cada una se apunta su título, descripción y keywords (palabras clave). Además, es capaz de leer los enlaces a otros sitios web, para añadirlos a su cola de páginas por visitar, y así ad nauseam.
En media hora lleva ya rastreadas más de 250 sitios web, está en plan salvaje… Aún no he conseguido amaestrarla para que reconozca el charset de algunas webs, pero espero que con la ayuda de Amaia Castro, de Dabne, y un poco de paciencia, logremos hacer de Boris una araña más lista.
5 comments ↓
Interesante proyecto!
¿De dónde obtienes las keywords? ¿Del tag meta (name=”keywords”) en las cabeceras de las páginas?
Un saludo!
Hola Sergio, si, es una araña old school
que lee las meta keywords, dentro de la cabecera del html, con open-uri cojo la página y con una expresión regular saco las keywords. Funciona bien en la mayoría de los casos aunque hay algunas que fallan y salen cosas raras, tengo que afinar mejor la expresión regular.
Además, coge también la meta description y el titulo, que los empleo en los listados (no para catalogar como keywords). Y los enlaces salientes, claro, para rastrearlos.
[...] Fuente: Articulo Jaime Iniesta [...]
Buen invento Jaime, yo estuve un tiempo buscando información sobre como hacer un spider en Rails y no encontré mucho, pero de eso ya hace bastante. Ya nos dirás como lo has hecho
Gracias Emili, iré contando por aquí mis avances. Mi idea es hacer después un taller para contarlo todo, y liberar el código. Por ahora tengo que pulirlo porque ando probando varias maneras de hacer las cosas, por ejemplo para el tema del background y con el tema de usar hpricot en lugar de open-uri, etc.
Leave a Comment