Recursos > cross-lingual+dictionary

    sortFiltrar Ordenar
    1 resultados

    Página Web

    /

    Publicado el 21.5.2012 por Equipo GNOSS

    Google ha anunciado un recurso muy interesante para la investigación sobre la extracción de información de un texto. 175 millones de cadenas de texto cortos y únicos que se han utilizado para referirse a 7.6 millones de artículos de Wikipedia.

    Los investigadores de google consideran cada artículo de Wikipedia como la representación de un concepto (una entidad o una idea), identificado por su dirección URL. El conjunto de datos contiene triples, cada uno consistente en (i) el texto, una cadena corta en lenguaje natural (ii) url del artículo habitual de Inglés Wikipedia; y  (iii), un entero que indica el número de veces que el texto se ha observado conectado con el concepto de la url. A este entero le llaman medida de la asociación.

    La base de datos puede ser descargada aquí.

    ...