Recursos > indexación

    sortFiltrar Ordenar
    3 resultados

    Página Web

    /

    Publicado el 19.2.2013 por Equipo GNOSS

    ¿En qué consiste el método de indexación por latencia semántica?

    El método de indexación por latencia semántica agrega un paso importante a la indexación de los buscadores, el emparejamiento de las palabras clave que un documento contiene con sinónimos y familias de palabras en torno a esas palabras clave. De esta manera, este método examina colecciones de palabras y sus relaciones, comparándolas a su vez con otros documentos que tengan correlaciones y estén catalogados con autoridad sobre el asunto. Así pues, los documentos que tengan muchas palabras en común tienen una clasificación similar y aquellos que tengan pocas palabras en común resultarán semánticamente distantes. Cuanto más se acerque la amplitud de vocabulario de tu texto con una lista conocida de vocabulario relevante en torno a un tema, más probabilidades tiene tu contenido de aparecer en primera posición, pues se considerará más relevante y de confianza. Por lo tanto, la LSI trata de la amplitud de vocabulario relevante, y no sólo de palabras clave. Y por supuesto, la densidad de palabras clave no juega ningún papel.

    ...

    Página Web

    /

    Publicado el 24.1.2011 por Equipo GNOSS

    Squiggle - Conceptual Indexing

    Squiggle es un framework que soporta la construcción de un buscador semántico sobre un dominio de conocimiento específico

    Squiggle es multilingüe e independiente del dominio de conocimiento. Squiggle utiliza: 

    • Sesame como sistema de búsqueda semántica para consultar la base de conocimiento, descrito en RDF basado en el vocabulario SKOS
    • Lucene como sistema de búsqueda sintáctica

    'Squiggle is a framework that supports the building of a domain-aware semantic search engine. Squiggle represents an abstraction for people who want to build a search engine in a particular domain and do not want to deal with low-level indexing and storing processes.

    Squiggle seamlessly combines the speed of syntactic search tools with improved recall and precision. This is because Squiggle is able to trace any alternative/multilingual/misspelled labels back to the corresponding concepts, i.e. Squiggle can identify and recognize meanings.

    The Squiggle framework is domain independent and can thus be instantiated with and adapted to any domain specific context and ontology. Among the constituents of SquiggleSesame is used as the semantic engine that queries the knowledge base, described in RDF with regard to the SKOS model, whereas the syntactic search engine Lucene is used, among other things, to quickly perform text searches in literals, which is something that semantic search tools typically cannot do well. Therefore the Squiggle architecture lends itself well both to overcome the limitations of purely syntactic approaches and to improve the performance of semantic engines.'


    ...

    Página Web

    /

    Compartido el 27.8.2010 por Equipo GNOSS

    Artículo del blog oficial de Google que detalla cómo funciona la tan anunciada y esperada nueva arquitectura de Google para indexar datos de la web ( fue lanzada en Julio del 2010).

    Google ha desarrollado un nuevo índice de búsquedas, llamado Caffeine que funciona de forma distinta al anterior. El previo tenía varias capas, algunas de las cuales se refrescaban más rápido que otras (p.e la capa principal se actualizaba cada dos semanas) el nuevo motor analiza la web en pequeñas porciones y actualiza el índice de forma continua y global. Aseguran que genera resultados de búsqueda un 50 % más recientes  (mas "tiempo real" ) y además más extensos y relevantes.

    Desde hace tiempo se comenta que "algunos de los nuevos factores que Google podría tener en cuenta a la hora de establecer el ranking de una web: 

    Velocidad de carga de la página. Google favorecería los site cuya carga es más rápida.

    - Penalizará en el ránking los sites que contengan enlaces rotos “Broken links“.

    - Penalizará el envío de enlaces a webs “no deseables”.

    Tomará relevancia la calidad global de la página web. Poseer contenido único, diseño de página, facilidad de navegación, con especial atención a los títulos, meta tags, descripción, densidad de palabras clave, tags, tiempo que el usuario pasa en la página,   tomarán aún más relevancia.

    - Se especula también, que los links recibidos desde redes sociales(Twitter, Meneames, Facebok) etc… ponderarán más que un link normal de otra web, al entender que en estos sitios es más complicado poner en práctica la compra de links, al entender que es mucho más fácil comprar 1.000 links que obtener 1.000 retweets." Fuente: GurusBlog

    ...