JDONREFv4 Query : Différence entre versions
(→Exemples) |
(→Principe) |
||
Ligne 52 : | Ligne 52 : | ||
=====Principe===== |
=====Principe===== |
||
− | ElasticSearch étant un moteur d'indexation à plat, il ne fait pas nativement de distinction entre les termes qu'il indexe. |
+ | ElasticSearch étant un moteur d'indexation à plat, il ne fait pas nativement de distinction entre les termes qu'il indexe. ElasticSearch s'appuie par exemple sur la fréquence des termes dans l'ensemble du corpus. |
− | Toutefois, dans une adresse, les éléments qui la compose peuvent avoir une importance très différente dans l'adresse. |
+ | Toutefois, dans une adresse, les éléments qui la compose peuvent avoir une importance très différente dans l'adresse. Notamment, ce n'est pas toujours leur fréquence qui guide leur importance. |
Par exemple concernant la requête : |
Par exemple concernant la requête : |
||
Ligne 63 : | Ligne 63 : | ||
75 rue de paris 57 L HOPITAL (la ville l'hopital en moselle, la voie n'existe pas il s'agit d'un exemple) |
75 rue de paris 57 L HOPITAL (la ville l'hopital en moselle, la voie n'existe pas il s'agit d'un exemple) |
||
⚫ | |||
+ | L'exactitude du numéro d'adresse a ici une importance qui dépasse sa fréquence élevée d'apparition dans le corpus. |
||
+ | |||
⚫ | Pour mettre en avant les résultats les plus pertinents, ElasticSearch s'appuie sur le moteur lucene qui attribue une note à chaque résultat. JDONREFv3ES surcharge ce système de notation et attribue une nouvelle note à chaque résultat. En réalité, le plugin ne met pas en avant les bons résultats, il dégrade les mauvais. |
||
=====Notation===== |
=====Notation===== |
Version du 6 septembre 2014 à 21:01
La requête jdonrefv3es du plugin éponyme permet de chercher efficacement des adresses correspondant aux types de JDONREFv3.
{ "query": { "jdonrefv3es" : { "value" : "24 BOULEVARD DE L HOPITAL 75 PARIS" } } }
Les résultats de la requête dépendent de la configuration du plugin.
Filtres
Il est possible de la combiner avec des filtres, par exemple pour limiter les résultats à un département précis :
{ "filtered" : { "query": { "jdonrefv3es" : { "value" : "24 BOULEVARD DE L HOPITAL 75 PARIS" } }, "filter": { "term" : { "departement" : "75" } } } }
Ou de restreindre la recherche à une zone géographique :
{ "filtered" : { "query": { "jdonrefv3es" : { "value" : "24 BOULEVARD DE L HOPITAL 75 PARIS" } }, "filter" : { "geo_shape": { "geometrie" : { "shape" : { "type" : "enveloppe", "coordinates": [[13,53],[14,52]] } } } } } }
Principe
ElasticSearch étant un moteur d'indexation à plat, il ne fait pas nativement de distinction entre les termes qu'il indexe. ElasticSearch s'appuie par exemple sur la fréquence des termes dans l'ensemble du corpus.
Toutefois, dans une adresse, les éléments qui la compose peuvent avoir une importance très différente dans l'adresse. Notamment, ce n'est pas toujours leur fréquence qui guide leur importance.
Par exemple concernant la requête :
57 BD DE L HOPITAL 75 PARIS
A la saisie de cette adresse, on ne s'attendrait pas à retrouver des résultats tels que :
75 BD DE L HOPITAL 75013 PARIS (le numéro de voie 75) 75 rue de paris 57 L HOPITAL (la ville l'hopital en moselle, la voie n'existe pas il s'agit d'un exemple)
L'exactitude du numéro d'adresse a ici une importance qui dépasse sa fréquence élevée d'apparition dans le corpus.
Pour mettre en avant les résultats les plus pertinents, ElasticSearch s'appuie sur le moteur lucene qui attribue une note à chaque résultat. JDONREFv3ES surcharge ce système de notation et attribue une nouvelle note à chaque résultat. En réalité, le plugin ne met pas en avant les bons résultats, il dégrade les mauvais.
Notation
Le système de notation mis en oeuvre par JDONREFv3ES a plusieurs objectifs :
- mettre en avant les résultats les plus pertinents
- disposer d'une notation absolue, permettant à un ordinateur d'effectuer un choix objectif parmi les propositions de résultats (avec le mode bulk)
L'algorithme de notation reprend celui de JDONREFv2 et JDONREFv3, adapté à une recherche par index inversé.
Plutôt que d'affecter un poids à chaque élément de l'adresse, il s'appuie simplement sur une version légèrement adapté de la classe DefaultSimilarity d'ElasticSearch. Il est (sera) possible de choisir les éléments qui participent à cette notation.
Le mode bulk permet de disposer d'un notation absolue, c'est à dire dont la note maximale est 200. Le plafond est déterminé par la note maximale qu'il est possible d'avoir pour chaque document. Le score est ensuite rapporté sur 200 par une simple règle de trois, par simple commodité (sinon tous les scores seraient inférieurs ou égaux à 1). A noter que ce mode bulk nécessite un peu plus de calcul que la note traditionnelle, c'est pourquoi il s'agit d'une option.
Pour le moment, les éléments pris en compte sont présentés dans le tableau ci-dessous.
éléments | remarque |
ligne 4 | Elle peut ou pas contenir le numéro d'adresse. La présence du numéro conditionne un malus. |
codes | Il est construit à partir des champs code postal / code insee / code departement / code arrondissement. Contrairement aux autres champs, il suffit d'avoir l'un d'entre eux présent pour obtenir la note maximale. |
commune | |
ligne 7 | |
code_pays | Le code pays n'est actuellement pas pris en compte, mais aura probablement le même poids que la ligne7. |
Deux malus différents sont ensuite appliqués à la somme totale :
- si l'ordre des termes appartenant à un élément ne sont pas consécutifs. La valeur par défaut est de 0.5 pour chaque terme discordant. C'est très pénalisant.
- si le numéro d'adresse n'est pas présent dans l'adresse saisie. La valeur par défaut est de 0. Les résultats disposant d'un numéro d'adresse erroné ne sont donc pas retournés (le nombre de faux positif est trop important).
Exemples
Les exemples qui suivent ne sont pas exhaustifs mais présentent le comportement recherché par la requête. La note donnée ici est indicative, car en réalité elle s'appuie sur la fréquence des termes recherchés et trouvés, suivant la logique du moteur à indexation inverse.
requête | résultat | note indicative | calcul |
130 RUE REMY DUHEM 59500 DOUAI | 130 RUE REMY DUHEM 59500 DOUAI FRANCE | 200 | Tous les éléments de ligne4, code postal, et commune sont présents. Le pays est absent, mais son poids est de 0. |
130 RUE REMY DUHEM 59 DOUAI | 130 RUE REMY DUHEM 59500 DOUAI FRANCE | 200 | Tous les éléments de ligne4 et commune sont présents. Le code de département est correct. Le pays est absent, mais son poids est de 0. |
130 RUE REMY 59500 DOUAI DUHEM | 130 RUE REMY DUHEM 59500 DOUAI FRANCE | 166 = ((50 + 50 + 50 + 50)*0.5/4 + 50 + 50 + 0)*200/150 | Tous les éléments de ligne4 (50+50+50+50), code postal et commune (50+50) sont présents. Le pays est absent, mais son poids est de 0. L'ordre des éléments de la ligne 4 n'est pas respecté (*0.5). Le tout pondéré (/150) et ramené à 200 (*200). |
RUE REMY DUHEM 59500 DOUAI | RUE REMY DUHEM 59500 DOUAI FRANCE | 200 | Tous les éléments de ligne4, code postal, et commune sont présents. Le pays est absent, mais son poids est de 0. |
RUE REMY DUHEM 59500 DOUAI | 130 RUE REMY DUHEM 59500 DOUAI FRANCE | 0 | Tous les éléments du code postal et commune sont présents. Le pays est absent, mais son poids est de 0. Un malus est toutefois appliqué du fait de l'absence du numéro d'adresse dans la requête, ce qui attribue une note de 0 au total. |
RUE REMY 59 DOUAI | RUE REMY DUHEM 59500 DOUAI FRANCE | 177 = ((50 + 50)/3 + 50 + 50 + 0) * 200 / 150 | Le code postal et la commune sont présent (50 + 50). Le pays est absent, mais son poids est de 0. Seuls 2 termes sur 3 sont présents dans la ligne 4 ((50 + 50)/3). Le tout pondéré (/150) et ramené à 200 (*200). |
RUE REMY 59 DOUAI | RUE REMY DUHEM 59500 DOUAI FRANCE | 177 = ((50 + 50)/3 + 50 + 50 + 0) * 200 / 150 | Le code postal et la commune sont présent (50 + 50). Le pays est absent, mais son poids est de 0. Seuls 2 termes sur 3 sont présents dans la ligne 4 ((50 + 50)/3). Le tout pondéré (/150) et ramené à 200 (*200). |
RUE REM DUH 59 DOUAI | RUE REMY DUHEM 59500 DOUAI FRANCE | 163 = ((50*75/100 + 50*60/100)/3 + 50 + 50 + 0) * 200 / 150 | Le code postal et la commune sont présent (50 + 50). Le pays est absent, mais son poids est de 0. Seuls 2 termes sur 3 sont présents dans la ligne 4, et partiels ((50*75/100 + 50*60/100)/3). Le tout pondéré (/150) et ramené à 200 (*200). |
59500 DOUAI | 59500 DOUAI FRANCE | 200 | Le code postal et la commune sont présent. Le pays est absent, mais son poids est de 0. |
59500 DOUAI | RUE REMY DUHEM 59500 DOUAI FRANCE | 133 = (0 + 50 + 50 + 0) * 200 / 150 | Le code postal et la commune sont présent (50+50). La ligne 4 est absente (0). Le pays est absent, mais son poids est de 0. Le tout pondéré (/150) et ramené à 200 (*200). |
59505 DOUAI | 59500 DOUAI FRANCE | 100 = (0 + 50 + 0) * 200 /100 | La commune est présente (50), mais le code postal est faux (0). Le pays est absent, mais son poids est de 0. NB: pour améliorer cette note (le code postal est très proche), une évolution du TokenFilter de JDONREF devrait être effectuée). |
59 | 59 FRANCE | 200 | Le code département est présent. |
FRANCE | FRANCE | 200 | La ligne 7 est présente. |
Ces exemples ne présentent pas la prise en compte de la phonétique, qui n'intervient pas dans la notation. Deux requêtes qui disposent de la même phonétique ont les mêmes résultats.
Effets de bord
Les exemples présentés ci-dessus induisent nécessairement des effets de bords compréhensibles sur certaines recherches.
Par exemple :
- Il ne faut pas s'attendre à trouver comme meilleur résultat l'avenue de France en effectuant une recherche sur le seul mot clé "FRANCE". C'est bien entendu le pays qui aura la meilleure note ...