facetas

Recursos > hadoop

    sortFiltrar Ordenar
    3 resultados

    Página Web

    /

    Publicado el 4.10.2010 por Equipo GNOSS

    Google presenta su nuevo sistema de indexación a tiempo real: Large-scale Incremental Processing Using Distributed Transactions and Notifications - Percolator

    Para poder soportar su sistema de búsquedas "instantáneo", Google abandona su tecnología mapreduce como sistema de indexación de la web, desarrollando una nueva tecnología de indexación y reindexación más rápida, que funciona sobre pequeñas unidades de la Web, que llaman Percolator (ver Percolación para entender el porqué del nombre).

    Cabe señalar que mapreduce es parte importante del proyecto Hadoop, en los que participan Yahoo o Powerset/Microsoft.

    La presentación será realizada el martes 5 de octubre, en el 9º USENIX Symposium on Operating Systems Design and Implementation, por Daniel Peng y Frank Dabek.

    El resumen/abstract del "paper" es:

    "Updating an index of the web as documents are crawled requires continuously transforming a large repository of existing documents as new documents arrive. This task is one example of a class of data processing tasks that transform a large repository of data via small, independent mutations. These tasks lie in a gap between the capabilities of existing infrastructure. Databases do not meet the storage or throughput requirements of these tasks: Google's indexing system stores tens of petabytes of data and processes billions of updates per day on thousands of machines. MapReduce and other batch-processing systems cannot process small updates individually as they rely on creating large batches for efficiency.

    We have built Percolator, a system for incrementally processing updates to a large data set, and deployed it to create the Google web search index. By replacing a batch-based indexing system with an indexing system based on incremental processing using Percolator, we process the same number of documents per day, while reducing the average age of documents in Google search results by 50%."

     

    ...

    Categorías:

    Página Web

    /

    Publicado el 30.6.2010 por Equipo GNOSS

    Exploring the software behind Facebook, the world’s largest site | Royal Pingdom

    A la escala que Facebook opera, muchos de enfoques tradicionales de arquitecturas web han demostrado no ser válidos o prácticos. El desarfío de los ingenieros de Facebook ha sido mantener el sitio web funcionando sin problemas con 500 millones de usuarios activos. Este artículo da un repaso de parte software y algunas de las técnicas que utilizan para conseguir esto.

    At the scale that Facebook operates, a lot of traditional approaches to serving web content break down or simply aren’t practical. The challenge for Facebook’s engineers has been to keep the site up and running smoothly in spite of handling close to half a billion active users. This article takes a look at some of the software and techniques they use to accomplish that.

    ...

    Página Web

    /

    Compartido el 3.11.2009 por Francisco Javier Ridruejo Pérez

    La comunidad de NoSQL, un grupo de personas que comparten la idea de destronar la tiranía de las bases de datos relaciones lentas, costosas y lentas, en favor de una alternativa mucho más eficiente y barata para manipular datos.

    ...