Published by Equipo GNOSS
21/05/2012
Google ha anunciado un recurso muy interesante para la investigación sobre la extracción de información de un texto. 175 millones de cadenas de texto cortos y únicos que se han utilizado para referirse a 7.6 millones de artículos de Wikipedia. Los investigadores de google consideran cada artículo de Wikipedia como la representación de un concepto (una entidad o una idea), identificado por su dirección URL. El conjunto de datos contiene triples, cada uno consistente en (i) el texto, una cadena corta en lenguaje natural (ii) url del artículo habitual de Inglés Wikipedia; y (iii), un entero que indica el número de veces que el texto se ha observado conectado con el concepto de la url. A este entero le llama...