Pour être en mesure d'étudier les outils de recherche dans les documents non structurés, il faut tout d'abord définir ce qu'est un document non structuré. Cette notion est peu connue et nécessite donc des recherches spécifiques en amont. Le document non structuré est, selon le site www.kofax.com, « Un type de document pour lequel, avant la numérisation, à la fois le type et l'emplacement de l'information qu'il contient est inconnu. Les documents qui ne peuvent pas être identifiés comme structurés ou semi-structurés sont affectés à cette catégorie, ils pourraient être pratiquement n'importe quel type de document : correspondance, pétitions, publicités, manuels, brochures ou rapports annuels. Selon certaines estimations, jusqu'à 80% du papier en circulation en entreprise correspond à des documents non structurés. » Cette définition est en fait la plus claire que l'on puisse trouver, que ce soit sur le web ou dans les livres. C'est dire s'il est difficile d'en comprendre les enjeux (...)
[...] Les documents qui ne peuvent pas être identifiés comme structurés ou semi-structurés sont affectés à cette catégorie, ils pourraient être pratiquement n'importe quel type de document: correspondance, pétitions, publicités, manuels, brochures ou rapports annuels. Selon certaines estimations, jusqu'à 80% du papier en circulation en entreprise correspond à des documents non structurés. Cette définition est en fait la plus claire que l'on puisse trouver, que ce soit sur le web ou dans les livres. C'est dire s'il est difficile d'en comprendre les enjeux ! [...]
[...] Finalement, j'ai trouvé ce thème intéressant et j'ai bien compris que l'élaboration de ces outils de recherches dans les documents non structurés est vraiment révolutionnaire pour le monde de l'entreprise et pour la technologie en général. Pour conclure, je pense que faire de la recherche d'informations dans un centre de documentation n'est pas aussi facile que l'on peut l'imaginer, surtout lorsque l'on a pas de connaissances en la matière que l'on doit traiter. Il a donc été intéressant de se confronter à une telle situation d'autant plus avant la spécialisation en Documentation ou lecture publique à la rentrée prochaine. [...]
[...] 5/7 Pour ce qui est du text mining, le fonctionnement se développe lui aussi en trois étapes : La récupération des documents et leur déformatage c'est-à-dire qu'on les extrait de leur support source. L'analyse du texte et l'identification des données qui permet d'obtenir l'information recherchée. La création de données viables en produisant un fichier XML des données classées. Ce document est pertinent puisqu'il nous montre concrètement à quoi servent les outils de recherches dans les documents non structurés. Disponible sur : http://www.onyme.com/semantique/analyse-semantique.php pour l'analyse sémantique et http://www.onyme.com/semantique/text-mining.php pour le text mining. III Synthèse Le premier document demande une lecture attentive et la lecture de quelques documents avant d'être compris. [...]
[...] De là sont nés les moteurs de recherche que nous connaissons tous aujourd'hui comme Google, HotBot ou Echo qui a crée les moteurs Voilà et Extense. Article disponible sur : www.les-infostrateges.com/article/031059/informatique-documentaire 3/7 Document 2 Le deuxième document traite des données non structurées. C'est en fait une définition de wikipedia en anglais. Il y est expliqué qu'une donnée non structurée est soit une donnée qui n'a pas de modèle de données, soit une donnée qui a un modèle mais qui n'est pas facile à utiliser par un système informatique. [...]
[...] J'ai même réussi à trouver une définition du document non structuré en anglais, ce qui m'a permis de me rassurer sur ma compréhension du sujet. II Les Résultats Document 1 Le document Informatique documentaire publié en 2003 sur le site www.lesinfostrateges.com dans la rubrique technologies de l'information nous explique, après nous avoir fait un bref compte-rendu de l'histoire, quels sont les outils de recherches dans les documents numériques. L'auteur est Didier Frochot, qui est en fait le concepteur-rédacteur et directeur de publication du site. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture