facetas

Recursos > mapreduce

    sortFiltrar Ordenar
    4 resultados

    Página Web

    /

    Publicado el 4.10.2010 por Equipo GNOSS

    Google presenta su nuevo sistema de indexación a tiempo real: Large-scale Incremental Processing Using Distributed Transactions and Notifications - Percolator

    Para poder soportar su sistema de búsquedas "instantáneo", Google abandona su tecnología mapreduce como sistema de indexación de la web, desarrollando una nueva tecnología de indexación y reindexación más rápida, que funciona sobre pequeñas unidades de la Web, que llaman Percolator (ver Percolación para entender el porqué del nombre).

    Cabe señalar que mapreduce es parte importante del proyecto Hadoop, en los que participan Yahoo o Powerset/Microsoft.

    La presentación será realizada el martes 5 de octubre, en el 9º USENIX Symposium on Operating Systems Design and Implementation, por Daniel Peng y Frank Dabek.

    El resumen/abstract del "paper" es:

    "Updating an index of the web as documents are crawled requires continuously transforming a large repository of existing documents as new documents arrive. This task is one example of a class of data processing tasks that transform a large repository of data via small, independent mutations. These tasks lie in a gap between the capabilities of existing infrastructure. Databases do not meet the storage or throughput requirements of these tasks: Google's indexing system stores tens of petabytes of data and processes billions of updates per day on thousands of machines. MapReduce and other batch-processing systems cannot process small updates individually as they rely on creating large batches for efficiency.

    We have built Percolator, a system for incrementally processing updates to a large data set, and deployed it to create the Google web search index. By replacing a batch-based indexing system with an indexing system based on incremental processing using Percolator, we process the same number of documents per day, while reducing the average age of documents in Google search results by 50%."

     

    ...

    Categorías:

    Página Web

    /

    Publicado el 24.5.2010 por Equipo GNOSS

    MapReduce y el zumo de Manzana

    Metafórica (y un poco "friki") presentación de la tecnología MapReduce. Según Google, MapReduce es:

    "MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with the same intermediate key. Many real world tasks are expressible in this model, as shown in the paper."

    Según esta presentación se trata de reducir un conjunto de pares de clave/valor (frutas) a una lista de valores (zumos). Son sólo 9 pantallas que dejan realmente claro el concepto.

     

     

    ...

    Categorías:

    Página Web

    /

    Compartido el 30.11.2009 por Francisco Javier Ridruejo Pérez

    Podemos definir CouchDB como una base de datos documental sin 'esquema', consultable al estilo MapReduce, accesible por REST y con una funcionalidad de replicación integrada. Casi nada... será mejor que veamos cada una de estas características en más detalle».

    ...

    Página Web

    /

    Compartido el 3.11.2009 por Francisco Javier Ridruejo Pérez

    La comunidad de NoSQL, un grupo de personas que comparten la idea de destronar la tiranía de las bases de datos relaciones lentas, costosas y lentas, en favor de una alternativa mucho más eficiente y barata para manipular datos.

    ...