/* Chrysalide - Outil d'analyse de fichiers binaires
* plain.c - gestion d'une recherche de motif textuel
*
* Copyright (C) 2023 Cyrille Bagard
*
* This file is part of Chrysalide.
*
* Chrysalide is free software; you can redistribute it and/or modify
* it under the terms of the GNU General Public License as published by
* the Free Software Foundation; either version 3 of the License, or
* (at your option) any later version.
*
* Chrysalide is distributed in the hope that it will be useful,
* but WITHOUT ANY WARRANTY; without even the implied warranty of
* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
* GNU General Public License for more details.
*
* You should have received a copy of the GNU General Public License
* along with Foobar. If not, see .
*/
#include "plain.h"
#include
#include "plain-int.h"
#include "../../../../../common/extstr.h"
/* ------------------------ DECOMPOSITION DE MOTIF RECHERCHE ------------------------ */
/* Initialise la classe des noeuds pour motif textuel. */
static void g_scan_token_node_plain_class_init(GScanTokenNodePlainClass *);
/* Initialise une instance de noeud pour motif textuel. */
static void g_scan_token_node_plain_init(GScanTokenNodePlain *);
/* Supprime toutes les références externes. */
static void g_scan_token_node_plain_dispose(GScanTokenNodePlain *);
/* Procède à la libération totale de la mémoire. */
static void g_scan_token_node_plain_finalize(GScanTokenNodePlain *);
/* --------------------- IMPLEMENTATION DES FONCTIONS DE CLASSE --------------------- */
/* Communique l'intérêt d'un noeud au sein d'une analyse. */
static float g_scan_token_node_plain_compute_weight_for_scan(const GScanTokenNodePlain *);
/* Parcourt une arborescence de noeuds et y relève des éléments. */
static void g_scan_token_node_plain_visit(GScanTokenNodePlain *, scan_tree_points_t *);
/* Inscrit la définition d'un motif dans un moteur de recherche. */
static bool g_scan_token_node_plain_enroll(GScanTokenNodePlain *, GEngineBackend *, size_t, size_t *);
/* Récupère un identifiant final pour un atome d'octets. */
static bool g_scan_token_node_plain_build_id(GScanTokenNodePlain *, GEngineBackend *);
/* Détermine si un contenu d'intérêt est présent à une position. */
static bool check_scan_token_node_plain_content(const sized_binary_t *, const tracked_scan_atom_t *, bool, phys_t, GBinContent *);
/* Transforme les correspondances locales en trouvailles. */
static void g_scan_token_node_plain_check_forward(const GScanTokenNodePlain *, scan_node_check_params_t *, TokenNodeCheckFlags, bool *);
/* Transforme les correspondances locales en trouvailles. */
static void g_scan_token_node_plain_check_backward(const GScanTokenNodePlain *, scan_node_check_params_t *, TokenNodeCheckFlags, bool *);
/* ---------------------------------------------------------------------------------- */
/* DECOMPOSITION DE MOTIF RECHERCHE */
/* ---------------------------------------------------------------------------------- */
/* Indique le type défini pour un noeud représentant une bribe de texte à retrouver. */
G_DEFINE_TYPE(GScanTokenNodePlain, g_scan_token_node_plain, G_TYPE_SCAN_TOKEN_NODE);
/******************************************************************************
* *
* Paramètres : klass = classe à initialiser. *
* *
* Description : Initialise la classe des noeuds pour motif textuel. *
* *
* Retour : - *
* *
* Remarques : - *
* *
******************************************************************************/
static void g_scan_token_node_plain_class_init(GScanTokenNodePlainClass *klass)
{
GObjectClass *object; /* Autre version de la classe */
GScanTokenNodeClass *node; /* Version de classe parente */
object = G_OBJECT_CLASS(klass);
object->dispose = (GObjectFinalizeFunc/* ! */)g_scan_token_node_plain_dispose;
object->finalize = (GObjectFinalizeFunc)g_scan_token_node_plain_finalize;
node = G_SCAN_TOKEN_NODE_CLASS(klass);
node->compute_weight = (compute_scan_token_node_weight_fc)g_scan_token_node_plain_compute_weight_for_scan;
node->apply = (apply_scan_token_node_flags_fc)NULL;
node->visit = (visit_scan_token_node_fc)g_scan_token_node_plain_visit;
node->enroll = (enroll_scan_token_node_fc)g_scan_token_node_plain_enroll;
node->build_id = (build_scan_token_node_id_fc)g_scan_token_node_plain_build_id;
node->check_forward = (check_scan_token_node_fc)g_scan_token_node_plain_check_forward;
node->check_backward = (check_scan_token_node_fc)g_scan_token_node_plain_check_backward;
}
/******************************************************************************
* *
* Paramètres : plain = instance à initialiser. *
* *
* Description : Initialise une instance de noeud pour motif textuel. *
* *
* Retour : - *
* *
* Remarques : - *
* *
******************************************************************************/
static void g_scan_token_node_plain_init(GScanTokenNodePlain *plain)
{
init_szstr(&plain->orig);
plain->modifier = NULL;
plain->flags = SPNF_NONE;
plain->raw = NULL;
plain->atoms = NULL;
plain->count = 0;
}
/******************************************************************************
* *
* Paramètres : plain = instance d'objet GLib à traiter. *
* *
* Description : Supprime toutes les références externes. *
* *
* Retour : - *
* *
* Remarques : - *
* *
******************************************************************************/
static void g_scan_token_node_plain_dispose(GScanTokenNodePlain *plain)
{
g_clear_object(&plain->modifier);
G_OBJECT_CLASS(g_scan_token_node_plain_parent_class)->dispose(G_OBJECT(plain));
}
/******************************************************************************
* *
* Paramètres : plain = instance d'objet GLib à traiter. *
* *
* Description : Procède à la libération totale de la mémoire. *
* *
* Retour : - *
* *
* Remarques : - *
* *
******************************************************************************/
static void g_scan_token_node_plain_finalize(GScanTokenNodePlain *plain)
{
size_t i; /* Boucle de parcours */
exit_szstr(&plain->orig);
for (i = 0; i < plain->count; i++)
exit_szstr(&plain->raw[i]);
if (plain->raw != NULL)
free(plain->raw);
if (plain->atoms != NULL)
free(plain->atoms);
G_OBJECT_CLASS(g_scan_token_node_plain_parent_class)->finalize(G_OBJECT(plain));
}
/******************************************************************************
* *
* Paramètres : text = texte brut à rechercher. *
* modifier = transformateur éventuel à solliciter. *
* flags = particularités à prendre en considération. *
* *
* Description : Construit un noeud représentant un motif textuel. *
* *
* Retour : Mécanismes mis en place. *
* *
* Remarques : - *
* *
******************************************************************************/
GScanTokenNode *g_scan_token_node_plain_new(const sized_binary_t *text, GScanTokenModifier *modifier, ScanPlainNodeFlags flags)
{
GScanTokenNode *result; /* Structure à retourner */
result = g_object_new(G_TYPE_SCAN_TOKEN_NODE_PLAIN, NULL);
if (!g_scan_token_node_plain_create(G_SCAN_TOKEN_NODE_PLAIN(result), text, modifier, flags))
g_clear_object(&result);
return result;
}
/******************************************************************************
* *
* Paramètres : plain = encadrement de motif à initialiser pleinement. *
* text = texte brut à rechercher. *
* modifier = transformateur éventuel à solliciter. *
* flags = particularités à prendre en considération. *
* *
* Description : Met en place un noeud représentant un motif textuel. *
* *
* Retour : Bilan de l'opération. *
* *
* Remarques : - *
* *
******************************************************************************/
bool g_scan_token_node_plain_create(GScanTokenNodePlain *plain, const sized_binary_t *text, GScanTokenModifier *modifier, ScanPlainNodeFlags flags)
{
bool result; /* Bilan à retourner */
result = true;
szstrdup(&plain->orig, text);
if (modifier != NULL)
{
plain->modifier = modifier;
g_object_ref(G_OBJECT(modifier));
}
plain->flags = flags;
return result;
}
/******************************************************************************
* *
* Paramètres : plain = noeud de motif textuel à consulter. *
* *
* Description : Indique les propriétés particulières d'un noeud de texte. *
* *
* Retour : Propriétés particulières associées au noeud. *
* *
* Remarques : - *
* *
******************************************************************************/
ScanPlainNodeFlags g_scan_token_node_plain_get_flags(const GScanTokenNodePlain *plain)
{
ScanPlainNodeFlags result; /* Statut à retourner */
result = plain->flags;
return result;
}
/******************************************************************************
* *
* Paramètres : node = définition de la bribe à consulter. *
* index = indice de la combinaison de modificateurs ciblée. *
* *
* Description : Retrouve l'origine d'une correspondance à partir d'un indice.*
* *
* Retour : Version humainement lisible de la combinaison. *
* *
* Remarques : - *
* *
******************************************************************************/
char *g_scan_token_node_plain_get_modifier_path(const GScanTokenNodePlain *node, size_t index)
{
char *result; /* Combinaison à retourner */
if (node->modifier == NULL)
result = strdup("plain");
else
result = g_scan_token_modifier_get_path(node->modifier, (size_t []){ index });
return result;
}
/* ---------------------------------------------------------------------------------- */
/* IMPLEMENTATION DES FONCTIONS DE CLASSE */
/* ---------------------------------------------------------------------------------- */
/******************************************************************************
* *
* Paramètres : node = noeud de motif à consulter. *
* *
* Description : Communique l'intérêt d'un noeud au sein d'une analyse. *
* *
* Retour : Poids de l'importance pour un départ de scan. *
* *
* Remarques : - *
* *
******************************************************************************/
static float g_scan_token_node_plain_compute_weight_for_scan(const GScanTokenNodePlain *node)
{
float result; /* Valeur à retourner */
result = node->orig.len;
return result;
}
/******************************************************************************
* *
* Paramètres : node = point de départ du parcours à effectuer. *
* points = points capitaux de l'arborescence. [OUT] *
* *
* Description : Parcourt une arborescence de noeuds et y relève des éléments.*
* *
* Retour : - *
* *
* Remarques : - *
* *
******************************************************************************/
static void g_scan_token_node_plain_visit(GScanTokenNodePlain *node, scan_tree_points_t *points)
{
GScanTokenNode *candidate; /* Autre version du noeud */
float node_weight; /* Poids du noeud courant */
float other_weight; /* Poids de l'autre noeud */
if (points->first_plain == NULL)
points->first_plain = G_SCAN_TOKEN_NODE(node);
else
{
candidate = G_SCAN_TOKEN_NODE(node);
node_weight = g_scan_token_node_compute_weight_for_scan(candidate);
other_weight = g_scan_token_node_compute_weight_for_scan(points->first_plain);
if (node_weight >= other_weight)
points->first_plain = candidate;
}
}
/******************************************************************************
* *
* Paramètres : node = définition de la bribe à enregistrer. *
* context = contexte de l'analyse à mener. *
* backend = moteur de recherche à préchauffer. *
* maxsize = taille max. des atomes (mise en commun optimisée). *
* slow = niveau de ralentissement induit (0 = idéal). [OUT] *
* *
* Description : Inscrit la définition d'un motif dans un moteur de recherche.*
* *
* Retour : Bilan de l'opération à renvoyer. *
* *
* Remarques : - *
* *
******************************************************************************/
static bool g_scan_token_node_plain_enroll(GScanTokenNodePlain *node, GEngineBackend *backend, size_t maxsize, size_t *slow)
{
bool result; /* Statut à retourner */
size_t i; /* Boucle de parcours #1 */
tracked_scan_atom_t atom; /* Atome identifié */
size_t letters; /* Nombre de lettres présentes */
size_t k; /* Boucle de parcours #2 */
size_t extra_count; /* Quantité pour l'exhaustivité*/
sized_binary_t *extra; /* Couverture supplémntaire */
size_t remaining; /* Quantité restant à traiter */
/* Génération d'une base de chaînes à couvrir */
if (node->modifier == NULL)
{
node->raw = malloc(sizeof(sized_binary_t));
node->count = 1;
szstrdup(&node->raw[0], &node->orig);
result = true;
}
else
result = g_scan_token_modifier_transform(node->modifier, &node->orig, 1, &node->raw, &node->count);
if (!result)
goto exit;
/* Préparation pour la mémorisation des atomes */
node->atoms = malloc(node->count * sizeof(tracked_scan_atom_t));
/* Validation du besoin effectif dans les cas extrèmes */
// TODO : if (orig.len < ...)
/* Recherche des atomes */
for (i = 0; i < node->count; i++)
{
if (node->flags & SPNF_CASE_INSENSITIVE)
{
find_best_atom(&node->raw[i], maxsize, &atom, &letters);
if (letters == 0)
node->atoms[i] = atom;
/* Insertion des nouvelles combinaisons pour couvrir toutes les casses */
else
{
/* extra_count = 2^letters */
for (k = 1, extra_count = 2; k < letters; k++, extra_count *= 2)
;
extra = make_atoms_case_insensitive(&node->raw[i], &atom, extra_count);
remaining = node->count - i - 1;
node->count += (extra_count - 1);
node->raw = realloc(node->raw, node->count * sizeof(sized_binary_t));
memmove(&node->raw[i + extra_count], &node->raw[i + 1], remaining * sizeof(sized_binary_t));
for (k = 0; k < extra_count; k++)
node->raw[i + k] = extra[k];
free(extra);
node->atoms = realloc(node->atoms, node->count * sizeof(tracked_scan_atom_t));
for (k = 0; k < extra_count; k++)
node->atoms[i + k] = atom;
i += extra_count - 1;
}
}
else
find_best_atom(&node->raw[i], maxsize, &node->atoms[i], &letters);
}
/* Enregistrements en masse */
for (i = 0; i < node->count && result; i++)
result = enroll_prepared_atom(&node->raw[i], backend, &node->atoms[i]);
exit:
return result;
}
/******************************************************************************
* *
* Paramètres : node = définition de la bribe à peaufiner. *
* backend = moteur de recherche à préchauffer. *
* *
* Description : Récupère un identifiant final pour un atome d'octets. *
* *
* Retour : Bilan de l'opération à renvoyer. *
* *
* Remarques : - *
* *
******************************************************************************/
static bool g_scan_token_node_plain_build_id(GScanTokenNodePlain *node, GEngineBackend *backend)
{
bool result; /* Statut à retourner */
size_t i; /* Boucle de parcours #1 */
result = true;
for (i = 0; i < node->count && result; i++)
result = build_atom_pattern_id(&node->atoms[i], backend);
return result;
}
/******************************************************************************
* *
* Paramètres : raw = contneu brut à retrouver idéalement. *
* atom = contenu brut représentatif ciblé. *
* nocase = marque un éventuel désintérêt pour la casse. *
* start = point d'analyse à respecter. *
* content = accès au contenu brut pour vérifications (optim.) *
* *
* Description : Détermine si un contenu d'intérêt est présent à une position.*
* *
* Retour : Bilan de l'analyse : true pour une correspondance. *
* *
* Remarques : - *
* *
******************************************************************************/
static bool check_scan_token_node_plain_content(const sized_binary_t *raw, const tracked_scan_atom_t *atom, bool nocase, phys_t start, GBinContent *content)
{
bool result; /* Bilan à retourner */
vmpa2t pos; /* Position dans les données */
const bin_t *ptr; /* Accès aux données brutes */
int ret; /* Bilan d'une comparaison */
result = false;
init_vmpa(&pos, start, VMPA_NO_VIRTUAL);
/* Validation du motif intégral */
if (atom == NULL)
{
ptr = g_binary_content_get_raw_access(content, &pos, raw->len);
/**
* Si la partion atomique recherchée est trouvée en début de contenu,
* le reste du motif de recherche va déborder. L'accès correspondant
* est donc refusé, et cette situation est prise en compte ici.
*/
if (ptr == NULL) goto done;
if (nocase)
ret = memcasecmp(raw->data, ptr, raw->len);
else
ret = memcmp(raw->data, ptr, raw->len);
result = (ret == 0);
}
/* Validation des extrémités */
else
{
/* Validation du contenu avant l'atome */
if (atom->pos > 0)
{
ptr = g_binary_content_get_raw_access(content, &pos, atom->pos);
/**
* Si la partion atomique recherchée est trouvée en début de contenu,
* le reste du motif de recherche va déborder. L'accès correspondant
* est donc refusé, et cette situation est prise en compte ici.
*/
if (ptr == NULL) goto done;
if (nocase)
ret = memcasecmp(raw->data, ptr, atom->pos);
else
ret = memcmp(raw->data, ptr, atom->pos);
if (ret != 0) goto done;
}
/* Validation du contenu après l'atome */
if (atom->rem > 0)
{
advance_vmpa(&pos, atom->len);
ptr = g_binary_content_get_raw_access(content, &pos, atom->rem);
/**
* Si la partion atomique recherchée est trouvée en fin de contenu,
* le reste du motif de recherche va déborder. L'accès correspondant
* est donc refusé, et cette situation est prise en compte ici.
*/
if (ptr == NULL) goto done;
if (nocase)
ret = memcasecmp(raw->data + atom->pos + atom->len, ptr, atom->rem);
else
ret = memcmp(raw->data + atom->pos + atom->len, ptr, atom->rem);
if (ret != 0) goto done;
}
result = true;
}
done:
return result;
}
/******************************************************************************
* *
* Paramètres : node = définition de la bribe à manipuler. *
* params = accès direct aux éléments utiles aux validations. *
* cflags = altérations de traitement à respecter. *
* skip = détermine si l'analyse est différée. [OUT] *
* *
* Description : Transforme les correspondances locales en trouvailles. *
* *
* Retour : - *
* *
* Remarques : - *
* *
******************************************************************************/
static void g_scan_token_node_plain_check_forward(const GScanTokenNodePlain *node, scan_node_check_params_t *params, TokenNodeCheckFlags cflags, bool *skip)
{
bool track_path; /* Conservation du chemin */
bool nocase; /* Pas d'intérêt pour la casse */
match_area_t **areas; /* Liste de zones à constituer */
size_t *count; /* Taille de cette liste */
bool copy; /* Besoin d'une copie ? */
bool inverted; /* Inversion des bilans ? */
size_t i; /* Boucle de parcours #1 */
const tracked_scan_atom_t *atom; /* Atome correspondant */
match_area_t *atoms; /* Localisations des bribes */
bool first_round; /* Premier tour de traitement */
match_area_t *area; /* Correspondance à valider */
const sized_binary_t *raw; /* Données brutes d'origine */
match_area_t *next; /* Correspondance suivante */
phys_t start; /* Début potentiel de motif */
bool status; /* Bilan d'une correspondance */
phys_t after; /* Espace disposible après */
phys_t min_end; /* Fin la plus proche possible */
phys_t max_end; /* Fin la plus éloignée trouvée*/
bool updated; /* Existence de correspondance */
size_t rcount; /* Quantité de bornes présentes*/
const node_offset_range_t *ranges; /* Bornes d'espace à parcourir */
size_t r; /* Boucle de parcours #xxxxxxxxxxxx*/
phys_t p; /* Boucle de parcours #xxxxxxxxxxxx*/
phys_t updated_edge; /* Nouvelle bordure de motif */
match_area_t *new_area; /* Copie de correspondance */
if (0x0) printf("=================== CHECK :: %s (skip? %d)\n", __FUNCTION__, *skip);
if (*skip)
return;
track_path = (G_SCAN_TOKEN_NODE(node)->flags & STNF_MAIN);
nocase = (node->flags & SPNF_CASE_INSENSITIVE);
/**
* Création de premières marques de correspondances.
*/
if (!params->initialized)
{
/* Destinations établies une fois pour toutes */
if (cflags & TNCF_KEEP_DISCARDED)
{
areas = ¶ms->kept_areas;
count = ¶ms->kept_count;
copy = false;
inverted = true;
}
else if (cflags & TNCF_CREATE_NEW)
{
areas = ¶ms->created_areas;
count = ¶ms->created_count;
copy = true;
inverted = false;
}
else
{
assert(cflags & TNCF_UPDATE_IN_PLACE);
areas = ¶ms->main_areas;
count = ¶ms->main_count;
copy = false;
inverted = false;
}
/* Parcours des combinaisons enregistrées */
for (i = 0; i < node->count; i++)
{
atom = &node->atoms[i];
atoms = g_scan_context_get_atom_matches(params->context, atom->pid);
first_round = (*count == 0);
if (atom->fast_check)
{
/**
* Toutes les correspondances sont validées d'office car le motif identifié
* correspondant au motif complet.
*/
if (!inverted)
{
for_each_match_area(area, atoms)
{
/**
* La modification de la zone d'origine est possible dans tous les cas
* car cette zone a été allouée de façon dédiée à un type de correspondances
* et ne sera pas réutilisée comme autre source de correspondance ailleurs.
*/
assert(area->end >= atom->len);
area->start = area->end - atom->len;
(*count)++;
}
}
else
atoms = NULL;
}
else
{
raw = &node->raw[i];
for_each_match_area_safe(area, &atoms, next)
{
start = area->end - atom->len - atom->pos;
status = check_scan_token_node_plain_content(raw, atom, nocase, start, params->content);
if (status)
{
/**
* La modification de la zone d'origine est possible dans tous les cas
* car cette zone a été allouée de façon dédiée à un type de correspondances
* et ne sera pas réutilisée comme autre source de correspondance ailleurs.
*/
if (!inverted)
{
area->start = start;
area->end += atom->rem;
(*count)++;
}
else
del_match_area(area, &atoms);
}
else
{
/**
* Les principes de modifications restent valables, même inversés.
*/
if (inverted)
{
area->start = start;
area->end += atom->rem;
(*count)++;
}
else
del_match_area(area, &atoms);
}
}
}
/* Mise à jour de la liste */
if (atoms != NULL)
{
if (first_round)
*areas = atoms;
else
merge_match_areas(areas, &atoms);
}
}
}
/**
* Poursuite des traitements sur des correspondances déjà amorcées, impliquant
* des comparaisons entières de motifs.
*/
else
{
if (0x0) printf(" LIST : %p (sz = %zu)\n", params->main_areas, params->main_count);
for_each_match_area_safe(area, ¶ms->main_areas, next)
{
assert(area->end <= params->content_end);
after = params->content_end - area->end;
if (0x0) printf("---------- iter @ %u -> %u\n", (unsigned int)area->start, (unsigned int)area->end);
/**
* Il ne peut y avoir qu'une seule séquence d'octets à un même
* emplacement. En revanche, des modificateurs peuvent construire
* possédant une même base, mais offrant des suffixes différents
* (par exemple, un marqueur nul UTF-16 final en complément).
*
* L'ensemble des combinaisons produites doit ainsi être exploré.
*/
/**
* Par ailleurs, même si une base de couples uniques est assurée,
* la constitution d'un ensemble de noeuds peut amener une redondance
* dans les emplacements de correspondances ; ces doublons éventuels
* sont alors filtrés par un appel à sort_match_areas_no_dup().
*
* Par exemple, pour la séquence d'octets analysés suivante :
*
* aaa....bbb
*
* La définition { (61 61 | 61 61 61) [4-5] 62 62 62 } peut établir
* les correspondances suivantes :
*
* aa.....bbb -> couple pending[x] (0;2) puis (0;10)
* ^
* aa....bbb -> couple pending[y] (1;3) puis (1;10)
* ^
* aaa....bbb -> couple pending[z] (0;3) puis (0;10)
* ^
*
* Par ailleurs, une même base de départ peut conduire à plusieurs
* zones de correspondances.
*
* Par exemple, pour la séquence d'octets analysés suivante :
*
* aa..bb..bb
*
* La définition { 61 61 [2-6] 62 62 } peut établir
* les correspondances suivantes :
*
* aa..bb..bb -> couple pending[x] (0;2) puis (0;6)
* ^
* aa..bb..bb -> couple pending[x] (0;2) puis (0;10)
* ^
*/
/**
* Dans la première situation, c'est la bribe 62 62 62 qui fait l'objet
* d'une recherche de motifs. Les autres bribes sont recherchées
* manuellement ici, car l'espace de séparation est léger (inférieur à
* MAX_RANGE_FOR_MANUAL_CHECK).
*
* La seconde situation bénéficie de recherches automatisées pour
* l'ensemble des motifs, du fait d'une valeur de séparation plus
* importante.
*
* Dans les deux cas, l'espace de séparation est entièrement considéré.
* La sélection de la correspondance à retour s'établit selon un
* paramètre de configuation : doit-on être avare sur les distances
* consommées ou non ?
*/
min_end = params->content_end;
max_end = params->content_start;
updated = false;
for (i = 0; i < node->count; i++)
{
raw = &node->raw[i];
/* Souplesse dans les positions ? */
if (offsets_exist(¶ms->offset))
{
ranges = get_node_search_offset_ranges_2(¶ms->offset, &rcount);
for (r = 0; r < rcount; r++)
{
assert(ranges[r].has_max);
assert((ranges[r].max - ranges[r].min) <= MAX_RANGE_FOR_MANUAL_CHECK);
for (p = ranges[r].min; p <= ranges[r].max; p++)
{
/**
* Si la fin d'une correspondance potentielle est trop près de
* la fin du contenu binaire et ne peut contenir le motif
* représenté, alors la corresponance est écartée sans appel.
*/
if ((p + raw->len) > after)
break;
status = check_scan_token_node_plain_content(raw, NULL, nocase,
area->end + p, params->content);
if (status)
{
updated_edge = area->end + p + raw->len;
if (updated_edge < min_end)
min_end = updated_edge;
if (updated_edge > max_end)
max_end = updated_edge;
updated = true;
}
}
}
}
/* Position immédiatement attendue */
else
{
/**
* Si la fin d'une correspondance potentielle est trop près de
* la fin du contenu binaire et ne peut contenir le motif
* représenté, alors la corresponance est écartée sans appel.
*/
if (raw->len > after)
continue;
status = check_scan_token_node_plain_content(raw, NULL, nocase, area->end, params->content);
if (status)
{
updated_edge = area->end + raw->len;
if (updated_edge < min_end)
min_end = updated_edge;
if (updated_edge > max_end)
max_end = updated_edge;
updated = true;
}
}
}
if (updated)
{
/**
* Si seuls les rejets sont d'intérêt, les correspondances établies
* ne se voient pas mises à jours ni retirées.
*/
if ((cflags & TNCF_KEEP_DISCARDED) == 0)
{
if (cflags & TNCF_UPDATE_IN_PLACE)
area->end = (1 /* greedy */ ? min_end : max_end);
else if (cflags & TNCF_CREATE_NEW)
{
new_area = g_umem_slice_alloc(params->allocator);
*new_area = *area;
new_area->end = (1 /* greedy */ ? min_end : max_end);
add_tail_match_area(new_area, ¶ms->created_areas);
params->created_count++;
}
#ifndef NDEBUG
else
assert(false);
#endif
}
}
else
{
/**
* Si la liste principale doit être mise à jour...
*/
if (cflags & TNCF_UPDATE_IN_PLACE)
{
del_match_area(area, ¶ms->main_areas);
assert(params->main_count > 0);
params->main_count--;
}
/**
* Au cas où le rejet est d'intérêt, l'absence de correspondance
* est conservée dans une liste dédiée.
*/
if (cflags & TNCF_KEEP_DISCARDED)
{
if (cflags & TNCF_UPDATE_IN_PLACE)
{
add_tail_match_area(area, ¶ms->kept_areas);
params->kept_count++;
}
else if (cflags & TNCF_CREATE_NEW)
{
new_area = g_umem_slice_alloc(params->allocator);
*new_area = *area;
new_area->end = (1 /* greedy */ ? min_end : max_end);
add_tail_match_area(new_area, ¶ms->kept_areas);
params->kept_count++;
}
#ifndef NDEBUG
else
assert(false);
#endif
}
}
}
}
params->initialized = true;
disable_all_ranges_in_node_search_offset(¶ms->offset);
}
/******************************************************************************
* *
* Paramètres : node = définition de la bribe à manipuler. *
* params = accès direct aux éléments utiles aux validations. *
* cflags = altérations de traitement à respecter. *
* skip = détermine si l'analyse est différée. [OUT] *
* *
* Description : Transforme les correspondances locales en trouvailles. *
* *
* Retour : - *
* *
* Remarques : - *
* *
******************************************************************************/
static void g_scan_token_node_plain_check_backward(const GScanTokenNodePlain *node, scan_node_check_params_t *params, TokenNodeCheckFlags cflags, bool *skip)
{
bool track_path; /* Conservation du chemin */
bool nocase; /* Pas d'intérêt pour la casse */
size_t i; /* Boucle de parcours #1 */
const sized_binary_t *raw; /* Données brutes d'origine */
bool status; /* Bilan d'une correspondance */
match_area_t *area; /* Correspondance à valider */
match_area_t *next; /* Correspondance suivante */
phys_t before; /* Espace disposible avant */
phys_t min_start; /* Début le plus proche trouvé */
phys_t max_start; /* Début le plus distant trouvé*/
bool updated; /* Existence de correspondance */
size_t rcount; /* Quantité de bornes présentes*/
const node_offset_range_t *ranges; /* Bornes d'espace à parcourir */
size_t r; /* Boucle de parcours #xxxxxxxxxxxx*/
phys_t p; /* Boucle de parcours #xxxxxxxxxxxx*/
phys_t updated_edge; /* Nouvelle bordure de motif */
match_area_t *new_area; /* Copie de correspondance */
if (0x0) printf("=================== CHECK :: %s (skip? %d)\n", __FUNCTION__, *skip);
if (*skip)
return;
/**
* En lecture à rebourd, au moins un noeud a été solicité pour analyse (lors
* du sens de lecture normal). Donc l'initialisation a déjà dû avoir lieu.
*/
assert(params->initialized);
track_path = (G_SCAN_TOKEN_NODE(node)->flags & STNF_MAIN);
nocase = (node->flags & SPNF_CASE_INSENSITIVE);
/**
* .............
*/
if (0)
{
;
}
/**
* Poursuite des traitements sur des correspondances déjà amorcées, impliquant
* des comparaisons entières de motifs.
*/
else
{
if (0x0) printf(" LIST : %p (sz = %zu)\n", params->main_areas, params->main_count);
for_each_match_area_safe(area, ¶ms->main_areas, next)
{
assert(params->content_start <= area->start);
before = area->start - params->content_start;
if (0x0) printf("---------- iter @ %u -> %u\n", (unsigned int)area->start, (unsigned int)area->end);
/**
* Il ne peut y avoir qu'une seule séquence d'octets à un même
* emplacement. En revanche, des modificateurs peuvent construire
* possédant une même base, mais offrant des suffixes différents
* (par exemple, un marqueur nul UTF-16 final en complément).
*
* L'ensemble des combinaisons produites doit ainsi être exploré.
*/
min_start = params->content_start;
max_start = params->content_end;
updated = false;
for (i = 0; i < node->count; i++)
{
raw = &node->raw[i];
/* Souplesse dans les positions ? */
if (offsets_exist(¶ms->offset))
{
ranges = get_node_search_offset_ranges_2(¶ms->offset, &rcount);
for (r = 0; r < rcount; r++)
{
assert(ranges[r].has_max);
assert((ranges[r].max - ranges[r].min) <= MAX_RANGE_FOR_MANUAL_CHECK);
for (p = ranges[r].min; p <= ranges[r].max; p++)
{
/**
* Si la fin d'une correspondance potentielle est trop près de
* la fin du contenu binaire et ne peut contenir le motif
* représenté, alors la corresponance est écartée sans appel.
*/
if ((p + raw->len) > before)
break;
status = check_scan_token_node_plain_content(raw, NULL, nocase,
area->start - raw->len - p,
params->content);
if (status)
{
updated_edge = area->start - raw->len - p;
if (updated_edge > min_start)
min_start = updated_edge;
if (updated_edge < max_start)
max_start = updated_edge;
updated = true;
}
}
}
}
/* Position immédiatement attendue */
else
{
/**
* Si la fin d'une correspondance potentielle est trop près du
* début du contenu binaire et ne peut contenir le motif
* représenté, alors la corresponance est écartée sans appel.
*/
if (raw->len > before)
continue;
status = check_scan_token_node_plain_content(raw, NULL, nocase,
area->start - raw->len,
params->content);
if (status)
{
updated_edge = area->start - raw->len;
if (updated_edge > min_start)
min_start = updated_edge;
if (updated_edge < max_start)
max_start = updated_edge;
updated = true;
}
}
}
if (updated)
{
/**
* Si seuls les rejets sont d'intérêt, les correspondances établies
* ne se voient pas mises à jours ni retirées.
*/
if ((cflags & TNCF_KEEP_DISCARDED) == 0)
{
if (cflags & TNCF_UPDATE_IN_PLACE)
area->start = (1 /* greedy */ ? min_start : max_start);
else if (cflags & TNCF_CREATE_NEW)
{
new_area = g_umem_slice_alloc(params->allocator);
*new_area = *area;
new_area->start = (1 /* greedy */ ? min_start : max_start);
add_tail_match_area(new_area, ¶ms->created_areas);
params->created_count++;
}
#ifndef NDEBUG
else
assert(false);
#endif
}
}
else
{
/**
* Si la liste principale doit être mise à jour...
*/
if (cflags & TNCF_UPDATE_IN_PLACE)
{
del_match_area(area, ¶ms->main_areas);
assert(params->main_count > 0);
params->main_count--;
}
/**
* Au cas où le rejet est d'intérêt, l'absence de correspondance
* est conservée dans une liste dédiée.
*/
if (cflags & TNCF_KEEP_DISCARDED)
{
if (cflags & TNCF_UPDATE_IN_PLACE)
{
add_tail_match_area(area, ¶ms->kept_areas);
params->kept_count++;
}
else if (cflags & TNCF_CREATE_NEW)
{
new_area = g_umem_slice_alloc(params->allocator);
*new_area = *area;
new_area->start = (1 /* greedy */ ? min_start : max_start);
add_tail_match_area(new_area, ¶ms->kept_areas);
params->kept_count++;
}
#ifndef NDEBUG
else
assert(false);
#endif
}
}
}
}
disable_all_ranges_in_node_search_offset(¶ms->offset);
}