La fouille de données multimédias représente la plus grande partie de l'activité d'Internet. Ce document présente de façon simple et selon plusieurs axes un système de fouille de données multimédia, en se basant sur l'ultra populaire 'Google'. On y retrouve les notions suivantes : architecture et performance du stockage, principe d'indexation et de recherche, pageRank, critère de pertinence, recherche d'image et de vidéo, interface.
[...] Un lien depuis un site malhonnête ferait baisser la note alors qu'un lien depuis un site honnête la ferait monter. Ainsi en définissant une base de site malhonnêtes, on pourrait obtenir un meilleur classement. La pertinence La pertinence est une notion floue. Pour un automate de recherche, la pertinence relève de la statistique (combien de fois un mot de la requête apparaît dans le document - ce qui est l'occurence) et de sa place dans le document (dans le méta-titre, le titre et les sous-titres du document, dans l'URL, dans le titre des images, dans le corps du document (visible ou invisible - le code source et dans la proximité des termes de recherche La pondération entre tous ces éléments permettra un classement des pages selon les mots clés choisis. [...]
[...] Ceux-ci peuvent être différent selon les types de vidéos : Recherche sur les images Comme pour les vidéos et les textes, on peut indexer les images avec les données textuelles qui entourent celles–ci : - url - titres - légendes - métadonnées - . Mais il y d'autres méthode d'indexation qui peuvent être mis en place : - selon les couleurs majoritaires - selon les textures - selon les formes - selon l'histogramme de l'image - par reconnaissance de visages Dans cette méthode d'indexation, il faut donner un image de départ afin d'effectuer la recherche d'images s'en rapprochant. [...]
[...] Pour cela, on fait tourner des programmes qui vont parcourir le web (robots). Pour chaque page visitée, on retient : - l'adresse de chaque page trouvée - le contenu de cette page (titre, texte, balises meta, noms des images, textes des images, etc.) - la liste des liens allant de cette page vers d'autres pages Une fois la lecture de la page terminée, le robot parcours les pages liées et les indexe à leur tour. Il y a plusieurs paramètres qui font qu'une page va être classée devant une autre page. [...]
[...] Cela signifie qu'il faut gérer une quantité de données gigantesque, de l'ordre de plusieurs dizaines de téra octets (environ Go). Pour stocker les données et répondre aux requêtes, il faut faire le choix entre des très gros serveurs ou un grand nombre de PC traditionnels. Voici une comparaison des coûts de deux solutions étudiées : - Serveur IBM eServer xSeries 440 o 8 processeurs Xeon de 2 GHz o 65 Go de RAM o 8 To de disque o $ - Rack de 88 machines o 176 processeurs Xeon de 2 GHz (88 x o 176 Go de RAM (88 x o 7 To de disque o $ Chaque jour dans les data centers, plusieurs machines tombent en panne ! [...]
[...] Pour ne pas excéder 0,5 seconde, Il faut déployer des data centers dans le monde entier afin de rapprocher les serveurs des utilisateurs. Schéma des serveurs utilisés pour répondre aux requêtes En moyenne 1000 machines sont utilisées pour chaque requête, dont le temps moyen de réponse est de 0,25 seconde. Pour s'adapter entièrement à ses contraintes particulières, il faut développer ses propres applications. Voici quelques exemples d'applications développées par Google: - Google File System (GFS) : pour le stockage. Gestion de plusieurs Po Peta octets = 1024 Tera octets = Giga octets). [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture