Le moteur de recherche visuel pour téléphone protable
Utilisez l’appareil de photo de votre téléphone portable comme périphérique de saisie, envoyez la photo générée comme critère de recherche, et recevez en retour les résultats par email sur votre portable.
Cette technologie dénommée ViPR (Visual Pattern Recognition) a été développée par la société Evolution Robotics.
La démo suivante se réalise avec un iPhone, mais cette technologie ViPR pourrait tourner à priori sur n’importe quel type de téléphone portable.
Via Fred Cavazza
Comment désindexer vos pages de Google
Les quelques techniques de base pour faire en sorte que Google ne référence pas vos pages:
Anatomie du moteur de recherche de Google

Suite à mon précédent billet sur l’anatomie du noyau Linux, voici un article sur l’anatomie du moteur de recherche de Google ou plus précisément The Anatomy of a Large-Scale Hypertextual Web Search Engine
L’article date de 1997 et a été rédigé par les deux créateurs de Google, Sergey Brin et Larry Page. Le document résume l’anatomie, le fonctionnement et le futur du moteur de recherche de Google:
- Web Search Engines — Scaling Up: 1994 - 2000
- Google: Scaling with the Web
- Design Goals
- PageRank: Bringing Order to the Web
- Anchor Text
- Other Features
- Information Retrieval
- Differences Between the Web and Well Controlled Collections
- Google Architecture Overview
- Major Data Structures
- Crawling the Web
- Indexing the Web
- Searching
- Storage Requirements
- System Performance
- Search Performance
- Future Work
- High Quality Search
- Scalable Architecture
- A Research Tool
La vision de Sergey Brin et Larry Page en 1997 peut se résumer ainsi:
People are still only willing to look at the first few tens of results. Because of this, as the collection size grows, we need tools that have very high precision (number of relevant documents returned, say in the top tens of results). Indeed, we want our notion of “relevant” to only include the very best documents since there may be tens of thousands of slightly relevant documents.
There is quite a bit of recent optimism that the use of more hypertextual information can help improve search and other applications. In particular, link structure and link text provide a lot of information for making relevance judgments and quality filtering. Google makes use of both link structure and anchor text.
L’article présente aussi une formule pour calculer le PageRank:
We assume page A has pages T1…Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
The Anatomy of a Large-Scale Hypertextual Web Search Engine donne des réponses à tout ce que vous avez toujours voulu savoir sur le moteur de Google et que vous n’avez jamais osé demander.
Via le Blog de José Duenas
Google’s Last Dance?
La recherche sémantique annoncerait-elle la fin de Google? C’est la question que se pose Titus Hoskins au travers d’un article publié sur SiteProNews.
Les moteurs de recherches sont sans aucun doute le coeur, l’âme et le cerveau du Web. Etre référencé sur les premières pages de ces moteurs en fonction de certains mots-clé est le casse-tête journalier des webmasters et autres spécialistes SEO.
La Wikipedia définit la recherche sémantique comme “the evolving process of taking all the content on the world wide web and expressing it not only in natural language, but also in a form that can be understood, interpreted and used by software agents, thus permitting them to find, share and integrate information more easily”.
Trouver et construire les formats et frameworks au travers desquels toutes ces données puissent être traitées, compilées et obtenir des résultats sensés en fonction de la signification naturelle d’une requête est l’objectif des moteurs de recherche sémantique. Des technologies comme RDF, OWL et les microformats auront très certainement un rôle important à jouer dans le futur du Web sémantique.
Google devrait-il se diriger vers la recherche sémantique s’il veut avoir un chance de survivre dans le futur des recherches sur le Web?
On peut d’ailleurs déjà constater que des recherches sur des moteurs de blogs comme Technorati ou sur les marqueurs sociaux de type del.icio.us offrent souvent des résultats plus pertinents et intéressants que les requêtes effectuées sur Google. En allant encore plus loin, les moteurs basés sur la signification des requêtes (questions, phrases…) comme Hakia vont-ils être plus performants que les moteurs basés sur des simples mots comme le propose Google?
L’algorithme de Google qui définit le ranking des résultats reste obscur et sujet à de nombreuses discussions et interprétations. Les différents exemples de Google bombing ont aussi démontré la faiblesse de cet algorithme. Google reste un système élitiste où les sites et contenus sont jugés par leur Page Rank. On voudrait croire le moteur de Google démocratique, où les contenus de meilleure qualité apparaissent en première page, mais faut-il le croire? L’information est une chose, mais les opinions et la qualité de celles-ci en est une autre.
Les moteurs sémantique ont devant eux un sacré challenge:
- Savoir interpréter le langage naturel des humains.
- Avoir à disposition un World Wide Web organisé qui rassemble des contenus formatés et identifiés de manière standard.
- Etre capables de retourner des résultats en fonction de leur qualité et pertinence.
La difficulté de formater et standardiser le WWW est un obstacle important. Va-t-on voir naître une nouvelle branche sémantique du WWW qui évoluera en parallèle avec le WWW anarchique actuel? Le moteur de recherche de Google sera-t-il capable de s’adapter au Web sémantique?
La dernière danse de Google n’est pas pour demain, mais pourrait arriver tôt ou tard…























