Post-Ingesta

From Contexta Wiki

Jump to: navigation, search

Luego de realizar la ingesta es necesario ejecutar ciertos procesos que permiten complementar la data. Sin embargo, llamar Post-Ingesta a este proceso no es totalmente correcto pues supone que se debe ejecutar siempre después de una ingesta y esto no es así. En las pruebas realizadas siempre se ejecutan estas actividades pues partimos siempre desde cero. En el caso que ya exista data, es decir, sea una ingesta incremental, estos procesos en algunos casos no se deben ejecutar y en otros no necesariamente.

Descripción de las tareas:

Procesos Batch:

  • Generación de Índices Lucene: Necesario despues de una nueva ingesta puesto que permite una búsqueda de texto libre más rápida. Sin embargo, al ser un proceso batch este se debería estar ejecutando a través de un cron dada cierta cantidad de tiempo.
  • Inferenciación: Necesario despues de una nueva ingesta. También debe ser a través de un cron.
  • Verificación de URL's: Necesaria despues de una ingesta, nuevamente no es crítica.

Ingreso de Modelos (Model Acquirer):

  • Ingresar el modelo con la información de los tesauros de FML (FMLSKOS.rdf). Necesario solo una vez y no después de cada ingesta. No importa si es antes o despues de la ingesta realmente, simplemente es necesario al crear por primera vez el modelo.

Creación de los índices SQL:

  • Generación de los índices SQL para cada campo en la tabla correspondiente (generalmente jena_g1t1_stmt). Permite hacer más rápida la búsqueda. Esta mejora no ha sido incorporada formalmente a Contexta, sin embargo se recomienda su uso.

«index_prop» btree (prop): CREATE INDEX index_prop ON jena_g1t1_stmt USING btree (prop); «index_prop_obj» btree (prop, obj): CREATE INDEX index_prop_obj ON jena_g1t1_stmt USING btree (prop, obj); «index_subj» btree (subj): CREATE INDEX index_subj ON jena_g1t1_stmt USING btree (subj); «index_subj_obj» btree (subj, obj): CREATE INDEX index_subj_obj ON jena_g1t1_stmt USING btree (subj, obj); «index_subj_prop_obj» btree (subj, prop, obj): CREATE INDEX index_subj_prop_objON jena_g1t1_stmt USING btree (subj, prop, obj); «jena_g1t1_stmt_ixo» btree (obj)* «jena_g1t1_stmt_ixsp» btree (subj, prop)*

Personal tools