JDONREFv4 plugin GettingStarted : Différence entre versions

Version du 27 février 2016 à 01:03

Cette page est destinée aux utilisateurs confirmés d'ElasticSearch qui souhaitent utiliser JDONREF. Si des éléments vous échappent dans cette page, je vous invite à revoir la page des débutants.

L'utilisation du plugin JDONREFv4 nécessite :

de disposer d'un cluster elasticsearch !
d'installer le plugin JDONREFv4 (voir ici)
de créer le ou les index nécessaires
de créer les mappings
puis d'indexer le contenu

Vous êtes ensuite libre d'effectuer les recherches souhaitées ! L'API elasticsearch peut bien sûr être utilisée, mais le plugin jdonrefv4 fourni un moyen de chercher efficacement des adresses (c'est à dire avec les résultats auxquels on devrait s'attendre). Cette page suppose que le cluster elasticsearch et que le plugin jdonref (et éventuelles dépendances) sont installés.

Création de l'index

La version débutant de la création de l'index propose :

 curl -XPUT 'http://localhost:9200/jdonref/' -d @/usr/share/elasticsearch/plugins/jdonrefv4-0.3/jdonrefv4-settings_beginner.json

Vous pouvez noter plusieurs choses au sujet de cette configuration d'index :

Les analyzers jdonrefv4_synonyme et jdonrefv4_nGram sont des versions améliorées des analyzers correspondant d'Elasticsearch. Si vous souhaitez utiliser des synonymes ou des nGrams avec JDONREF, ces variantes doivent être utilisées. Elles sont simplement compatibles avec les payloads.
A noter que le metaphone n'est plus utilisé pour le moment, car combiné au ngram, il introduit un trop grand nombre de faux positifs. Vous pouvez toutefois le mettre en place à votre guise.
Le "french_keywords" peut être rétabli si vous notez quelques mots auxquels l'application du stemmer ne fournis pas de bons résultats.

Dans le reste de cette page, cette installation est plusieurs fois remise en cause. Lisez jusqu'au bout.

Un alias

Ces remarques signifient surtout que ce plugin n'est qu'un outil. Vous pouvez l'utiliser à votre guise, modifier le fichier de configuration fourni, et adapter les analyzers à votre propre cas de figure.

A titre d'exemple, vous souhaiterez sans doute effectuer des mises à jour de JDONREF. Si vous effectuez une mise à jour en masse de l'ensemble de vos adresses, vous aurez une interruption de service. Plutôt que d'utiliser un index, elasticsearch vous propose d'utiliser un alias :

 curl -XPUT 'http://localhost:9200/jdonref_20141201/' -d @/usr/share/elasticsearch/plugins/jdonrefv4-0.3/jdonrefv4-settings_beginner.json
 ... indexation ...
 curl -XPOST 'http://localhost:9200/_aliases/' -d '{ "actions" : [ {"add" : {"index" : "jdonref_20141201", "alias" : "jdonref"}}]}'

Ce qui vous permettra d'utiliser l'alias "jdonref" tout comme un index, et de réindexer sous un autre nom pour effectuer une mise à jour :

 curl -XPUT 'http://localhost:9200/jdonref_20141202/' -d @/usr/share/elasticsearch/plugins/jdonrefv4-0.3/jdonrefv4-settings_beginner.json
 ... réindexation ...
 curl -XPOST 'http://localhost:9200/_aliases/' -d '{ "actions" : [ {"add" : {"index":"jdonref_20141202", "alias":"jdonref"}}, {"remove" : {"index":"jdonref_20141201", "alias":"jdonref"}}]}'

Si vous avez bien compris, il va vous falloir doubler votre DD, soit 200 Go pour la France entière.

Bon. Cela dit j'avais présupposé dans l'introduction que vous étiez familiers de elasticsearch ... Vous ne m'y reprendrez plus. Passons aux choses sérieuses !

@@ Ligne 47 : / Ligne 47 : @@
 Bon. Cela dit j'avais présupposé dans l'introduction que vous étiez familiers de elasticsearch ... Vous ne m'y reprendrez plus. Passons aux choses sérieuses !
-==== Optimisation ====
-   Le reste de cette page est en cours de rédaction
-Pour utiliser le paramètre maxSizePerType de la requête JDONREF, il est conseillé (obligatoire) de répartir les types sur de multiples index.
-D'une manière générale, il est même plus que conseillé de répartir les communes, départements et pays sur un unique shard (avec des réplicats, et potentiellement sur différents index).
-A cet effet, et pour simplifier le fonctionnement de l'ensemble, il est possible d'utiliser des alias elasticsearch.
-Un alias permet de "contenir" différent index.
-Lorsqu'une requête est faite sur un alias, tous les index de l'alias sont requêtés (et le résultat aggrégé).
-Les index de mon cluster sont répartis ainsi (via un batch) :
-# alias jdonref
-# index pays, 1 shard + 1 réplica
-# index departement, 1 shard + 1 réplica
-# index commune, 1 shard + 1 réplica
-# index voie, 5 shards + 1 réplica
-# index adresse, 5 shards + 1 réplica
-# index poizon, 5 shards + 1 réplica
-NB: Je n'indexe pas les troncons, je n'en ai pas l'usage.
-NB: Notez que vous pourriez aussi choisir de regrouper pays, departement et commune. Il faut savoir que dans un même index, les fréquences des termes sont cumulés. Dans le même index, les communes auront donc une influence sur la fréquence des termes des pays. A vous de voir.
-Cela me permet de définir maxSizePerType à 5000 (voir [[JDONREFv4_Query#Optimisation | optimisation]]), pour éviter de polluer certaines requêtes avec des résultats d'adresse superflus.
-Bien sûr, il est nécessaire d'adapter les requêtes de création des index, des mappings, et d'ajouter la création d'un alias.
-Par exemple pour les index de pays, departement, commune, il s'agit simplement d'ajouter "number_of_shards" et "number_of_replicas". Ici l'exemple incomplet de l'index des pays :
-  curl -XPUT 'http://localhost:9200/jdonref_pays/' -d '{
-     "index" : {
-        "number_of_shards" : 1,
-        "number_of_replicas" : 1,
-        "analysis" : {
-            "analyzer": {
-                "jdonrefv4_index" : {
-                    "type" : "custom",
-                    "tokenizer" : "whitespace",
-                    "filter" : ["delimited_payload_filter", "lowercase", "french_elision", "french_stop", /*/"french_keywords",*/ "french_stemmer","jdonrefv4_synonyme", "jdonrefv4_nGram"]
-                },
-                "jdonrefv4_codes_index" : {
-                    "type" : "custom",
-                    "tokenizer" : "standard",
-                    "filter" : ["standard", "lowercase"]
-                },
-  ...
-Le mapping du pays doit bien sûr être réalisé sur l'index du pays ...
-  $ curl -XPUT 'http://localhost:9200/jdonref_pays/pays/_mapping' -d '{
-    "pays": {
-       "_type": {"store": true},
-      "_source": {"excludes": ["geometrie"]},
-      "properties" : {
-                           "code_pays" : { "type" : "string" , "term_vector" : "with_positions_offsets", "index_analyzer":"jdonrefv4_codes_index","search_analyzer":"jdonrefv4_search", "similarity":"jdonrefv4"},
-                           "pays" : { "type" : "string" , "index": "no"},
-                           "t0" : { "type" : "date", "format": "YYYY-MM-dd HH:mm:ss", "index":"not_analyzed"},
-                           "t1" : { "type" : "date", "format": "YYYY-MM-dd HH:mm:ss", "index":"not_analyzed"},
-                           "ligne7" : { "type" : "string", "term_vector" : "with_positions_offsets", "index_analyzer":"jdonrefv4_index","search_analyzer":"jdonrefv4_search", "similarity":"jdonrefv4"},
-                           "pin" : { "properties" : { "centroide" : { "type" : "geo_point" , "fielddata" : { "format" : "compressed" , "precision" : "1cm"}}}},
-                           "geometrie" : { "type" : "geo_shape", "precision": "1cm", "tree": "quadtree"},
-                           "fullName" : {"type": "string", "term_vector" : "with_positions_offsets_payloads", "index_analyzer":"jdonrefv4_index_token_count","search_analyzer":"jdonrefv4_search", "similarity":"jdonrefv4"}
-                      },
-      "transform" : {
-          "lang" : "groovy",
-          "script" : "ctx._source['fullName'] = ; if (ctx._source['ligne7']!=null) { def tokens = ctx._source['ligne7'].split(' '); for(x in tokens) ctx._source['fullName'] += ' ' + x + '|9'; }; if (ctx._source['code_pays']!=null) { def tokens = ctx._source['code_pays'].split(' '); for(x in tokens) ctx._source['fullName'] += ' ' + x + '|10'; };"
-      }
-  }
- }'
-et enfin le pays peut être rattaché à l'alias jdonref :
-  $ curl -XPOST 'http://localhost:9200/_aliases' -d '{
-  {"actions":[{"add":{"index":"jdonref_pays","alias":"jdonref"}}]}'
-Idem pour les autres types (n'oubliez pas d'ajouter des shards pour les voies, adresses et poizon).
-Vous êtes alors prêt à utiliser une requête avec maxSizePerType comme [[JDONREFv4_Query#Optimisation | ici]].
-Pour être clair, avec maxSizePerType défini à 10 000, d'après les statistiques de fréquence fournies par elasticsearch sur la base IGN 2013, les adresses composées exclusivement des 84 termes suivant nécessiteront la saisie du code postal ou du code insee (sauf 6 communes pour lesquels le code insee est trop fréquent, voir la liste).
-Chaque terme est présenté avec sa fréquence.
-*france      18934777
-*rue          12000419
-*avenue    1520128
-*saint        2726561
-*chemin    1357589
-*route       1289752
-*bis           1068563
-*mont         726556
-*impasse   724520
-*jean      557596
-*boulevard    475745
-*grand   430452
-*chateau      409622
-*place   399026
-*arondi   284874
-*pont   247505
-*tour   223095
-*paul   222773
-*cour   217926
-*moulin   215612
-*fer   215394
-*champ   212369
-*ter   211768
-*general   199648
-*george   197359
-*pari   194572
-*loui   193026
-*marti   176915
-*mare   173454
-*mars   168783
-*eglis   163259
-*bourg   162933
-*fontain   157604
-*petit   151460
-*martin   148328
-*gaul   140728
-*marseil   132682
-*henri   126197
-*75056   126166
-*toulo   124260
-*marechal   121251
-*13055   121706
-*francoi   95722
-*vileneuv   88587
-*leclerc   86265
-*michel   84657
-*toulous    82922
-*principal   79712
-*cote   77054
-*mauric   76601
-*joseph   76017
-*albert   75560
-*rose   73350
-*nation   72777
-*national   70177
-*germain   64366
-*havr   63465
-*33063   63202
-*foret   62521
-*76351   60353
-*laure   60243
-*verdun   60034
-*robe   59093
-*lauren   58637
-*mine   58423
-*provenc   58235
-*claud   57540
-*colomb   56648
-*sabl   55834
-*lyon   55469
-*chatel   55437
-*laurent   55078
-*quai   53053
-*44109   52810
-*epi   52666
-*aube   52162
-*august   51570
-*guy   51558
-*parc   51553
-*roue   51505
-*jardin   51078
-*gambeta   50623
-*59350   50235
-*roy   50131

JDONREFv4 plugin GettingStarted : Différence entre versions

Version du 27 février 2016 à 01:03

Création de l'index

Un alias

Menu de navigation

Affichages

Outils personnels

FusionForge

Navigation

Rechercher

Outils