Notre travail rentre dans le domaine de la recherche d'informations, car il vise à
[...] Extraction des mots simples A. Extraction des termes (tokenization) : les règles d'extraction dépendent de la langue B. Suppression des mots vides (stop words) : ce sont des mots trop fréquents mais inutiles. Exemple : le, un, de, or, on, il 2. Normalisation A. Lemmatisation (radicalisation) : par exemple inter + classe + ment, ici le radical est classe. B. Règles de transformation : suppression des terminaisons des pluriels. C. [...]
[...] Il n'y a pas de règle absolue pour cela. L'indexation automatique permet [Hadj henni, 08] : de limiter les choix parfois subjectifs de l'indexeur. d'alléger le travail requis par une indexation manuelle. d'éviter les incohérences résultant des interprétations différentes entre plusieurs indexeurs. de réaliser une recherche exhaustive des sujets traités dans l'information analysée L'indexation semi-automatique Les deux techniques précédentes peuvent être combinées, un premier processus automatique permet d'extraire les termes du document. Cependant le choix final reste au spécialiste du domaine ou au documentaliste pour établir les relations sémantiques entre les mots clés et choisir les termes significatifs en utilisant un thésaurus ou une base terminologique, qui est une liste organisée de descripteurs (mots clés) obéissant à des règles terminologiques propres. [...]
[...] Si la même série d'opérations n'est pas appliquée, la recherche ne trouvera pas les mots indexés, ce qui n'est pas si utile! Basé sur le langage commun entre l'indexation et la recherche, la troisième opération (recherche de documents) lit les index et recherche l'information d'index associées à chaque mot correspondant. N'oubliez pas que pour chaque mot, l'index peut stocker la liste des documents correspondants, la fréquence, les positions du mot dans un document, et ainsi de suite. L'accord implicite ici est que le document en lui-même n'est pas chargé, et c'est une des raisons pour laquelle la recherche à texte intégral (full-text search) est efficace : le document n'a pas à être chargé pour savoir s'il correspond. [...]
[...] Ensuite on compte les fréquences des n-grammes trouvés. Par exemple la phrase "La nourrice nourrit le nourrisson" se représente par : Tableau 4 : N-gram index Ensemble des n-grammes la_ a_n _no nou our urr rri ric ice _ce e_n rit it_ t_l le Fréquences le_ ris iss sso son la_ a_n _no nou Nous avons utilisé le caractère à la place des blancs, pour faciliter la lecture. [Jalam, 02] L'un des avantages des n-grammes est la capture automatique des racines les plus fréquentes [Grefenstette, 95] : dans l'exemple précédent, grâce aux techniques basées sur les n-grammes nous trouvons la racine commune de : Nourrir, nourri, nourrit, nourrissez, nourriture, etc. [...]
[...] Différentes formes d'indexes Document Index L'index des documents conserve des informations sur chaque document. Il est un index ISAM (Index sequential access mode) d'une largeur fixe, ordonné par l'ID du document. Les informations stockées dans chaque entrée comprennent des données, une somme de 17 contrôle de documents et diverses statistiques. Si le document a été exploré, il contient aussi un pointeur vers un fichier d'une largeur variable appelé les informations du document qui contient l'URL et le titre. Cette décision de conception a été guidée par le désir d'avoir une structure de données relativement compact, et la possibilité de chercher un enregistrement dans une seule parcoure du disque, lors d'une interrogation [Brin, 98] Le tableau suivant est une illustration simplifiée d'un index des documents : Tableau Document Index Document ID texte Document 1 The cow says moo Document 2 The cat and the hat Document 3 The dish ran away with the spoon lien /ex/doc1.txt /ex/doc2.txt /ex/doc3.txt Forward Index Forward index (ou index transmis) stocke une liste de mots pour chaque document. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture