Architecture scalable, architecture technique, gestion d'évènements, Solr, Riak, Spark, SQL, base de données, NoSQL, données massives, BDP Basho Data Platform, variables, planification, grappe de serveur, partitionnement, réplication, importation du dataset, test de performance, test de requêtes, arbre décisionnel, traitement analytique, modèle word2vec, matrice TF-IDF
Le cadre général de cette présente étude est d'étudier et de décrire l'intégration d'un processus dans une architecture scalable permettant d'avoir une base de données d'évènements culturels et de divertissements ayant lieu dans le monde entier.
Afin de traiter ce cadre général, nous réaliserons l'étude sur une base de données (réduite à l'échelle de Paris et ses environs uniquement) d'évènements du site https://opendata.paris.fr/, qui offre des données publiques sur Paris à des fins d'exploitation et d'analyse.
Un évènement est décrit par un ensemble de variable noté T : son ID, son titre, sa catégorie, son chapeau (texte court introduisant l'évènement), sa description textuelle, son code postal, sa ville, ses coordonnées géographiques 2D, le nom et l'adresse de son lieu, ses dates de début et de fin, son URL Facebook et ses mots clés.
[...] Supposons que l'on ait une requête q issue de Spark : 1. Le nœud gestionnaire du cluster driver (responsable d'allouer des nœuds) contacte le cluster Riak (sans maître) afin d'obtenir, grâce au nœud Riak coordinateur (Claimant), une liste des nœuds Riak où se trouvent les partitions relatives à q. Le driver fournit cette liste aux spark worker Les spark workers établissent des connexions (paramétrées par le connecteur) avec les nœuds Riak associés, afin de traiter par la suite ces données afférant à q. [...]
[...] Nous remarquons que r et w valent bien par défaut 2 (règle du quorum). Installation de Riak KV et création de la grappe de serveur Nous utilisons macOSX après avoir tenté de lancer une grappe de serveur sous centOS (la commande make devrel ne fonctionne pas, après de nombreuses recherches sur les forums). SOURCE: https://docs.riak.com/riak/kv/latest/setup/installing/mac-osx/index.html [HYPERLINK: https://docs.riak.com/riak/kv/latest/setup/installing/mac-osx/index.html] Afin d'augmenter la taille de fichiers à l'ouverture sous macOSX, ce que Riak exige dès son lancement, nous suivons la procédure en annexe 3. [...]
[...] Il offre aussi une certaine cohérence des données bien que la dernière version ne soit pas toujours effective. Riak, plus amélioré que Redis, développe les capacités de requêtage sur des données non structurées en offrant la possibilité, via des index secondaires, d'aller requêter dans la valeur. Basho Technologies, l'éditeur qui développe Riak, fait de la tolérance aux pannes et de la haute disponibilité des différentiateurs par rapport aux bases existantes. Par ailleurs, Riak est adopté par de grosses entreprises telles que the water company, plus gros fournisseur météo dans le monde. [...]
[...] Ceci est fait en vue de visualiser nos mots word2vec dans le projecteur. Le script Python est fourni en Annexe 6bis. Nous ouvrons un navigateur à l'adresse : localhost :8000. Dans l'interface du projecteur, nous appliquons une ACP sur 3 axes afin de visualiser nos mots en 3D. Nous pouvons remarquer qu'après ACP, la variance retenue est de 44% par rapport à la variance expliquée (visible en bas à gauche dans l'interface) Chaque point de l'espace représente donc le vecteur associé word2vec et labélisé par le mot en question. [...]
[...] Nous nous intéressons à l'index gettinstarted sur lequel nous avons déjà établi des tests. "solr.core.gettingstarted":{ "UPDATE./update.requestTimes":{ "count":15, "max_ms": "mean_ms": 27.6065686 p75_ms": "p95_ms": "p99_ms": "p999_ms": 139.72257 Nous remarquons notamment que nous avons fait 15 requêtes depuis la création de l'index, que la moyenne des temps de retour des requêtes vaut 27.6 ms (attribut mean_ms). Source: https://lucene.apache.org/solr/guide/7_0/performance-statistics-reference.html Annexe 5 : Dans Spark, nous exécutons ce script, en partant de notre texte à analyser input et nous obtenons en sortie notre texte sans stop words. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture