# La recherche textuelle

## Algorithme de Boyer-Moore de recherche textuelle

In [1]:
# texte
motif="AT-THAT"
texte="WHICH-FINALLY-HALTS.--AT-THAT-POINT"
alphabet="WHIC-FNALYTS.O"

### Algorithme de boyer moore

L'algorithme de boyer moore parcours les lettres de la même manière que notre algorithme de recherche précédent. La seule différence est que quand deux lettres ne correspondent pas; le décalage est optimisé ie il est plus grand que celui de la recherche simple.

Le décalage est pré-calculé (valeurs dans des tableaux d1 et d2) à partir du MOTIF selon deux règles : la règle du mauvais caractère et la régle du bon suffixe.

In [2]:
def recherche(motif,texte,alphabet):
    
    d1=pretraitement_MC(motif,alphabet)
    d2=pretraitement_BS(motif)
    
    n=len(texte)
    m=len(motif)
    
    i=m-1
    while i<n:
        j=m-1
        while j>-1 and texte[i]==motif[j]:
            j=j-1
            i=i-1
            
        if j==-1:
            return i+1,True
        else:
            i=i+max(d1[texte[i]],d2[j])
    return i+1,False

In [3]:
# traitement pour la règle du mauvais caractère MC

def pretraitement_MC(motif,alphabet):
    m=len(motif)
    d=dict()
    for c in alphabet:
        d[c]=m
    for i in range(0,m-1):
        d[motif[i]]=m-1-i
    return d

In [4]:
print(motif)
print(alphabet)
pretraitement_MC(motif,alphabet)

AT-THAT
WHIC-FNALYTS.O


{'W': 7,
 'H': 2,
 'I': 7,
 'C': 7,
 '-': 4,
 'F': 7,
 'N': 7,
 'A': 1,
 'L': 7,
 'Y': 7,
 'T': 3,
 'S': 7,
 '.': 7,
 'O': 7}

In [5]:
def coincidence(motif,j,k,longueur):
    i=longueur-1
    while i>j and (motif[i]==motif[k+i-j] or motif[k+i-j]=="$"):
        i=i-1
    if i==j:
        return True
    else:
        return False

In [14]:
print(coincidence("ARMADA$$$$$$$",3,-2,6)) # on compare DA avec $A
print(coincidence("ARMADA$$$$$$$",3,-1,6)) # on compare DA avec AR
print(coincidence("ARMADA$$$$$$$",2,-3,6)) # on compare ADA avec $$A

True
False
True


In [6]:
def pretraitement_BS(motif):
    m=len(motif)
    d=[0 for i in range(m)]
    d[m-1]=1
    motif=motif+"$"*(m+1) # ajout de caractères joker $ pour les positions négatives
    for j in range(0,m-1):
        for k in range(j-m,j):
            if coincidence(motif,j,k,m) and motif[k]!=motif[j]:
                d[j]=m-k-1
    return d

In [7]:
pretraitement_BS(motif)

[11, 10, 9, 8, 7, 4, 1]

In [8]:
def recherche(motif,texte,alphabet):
    
    d1=pretraitement_MC(motif,alphabet)
    d2=pretraitement_BS(motif)
    
    n=len(texte)
    m=len(motif)
    
    i=m-1
    while i<n:
        print(texte)
        print(" "*(i-m+1)+motif)
        print()
        j=m-1
        while j>-1 and texte[i]==motif[j]:
            j=j-1
            i=i-1
            
        if j==-1:
            return i+1,True
        else:
            i=i+max(d1[texte[i]],d2[j])
    return i+1,False

In [9]:
recherche(motif,texte,alphabet)

WHICH-FINALLY-HALTS.--AT-THAT-POINT
AT-THAT

WHICH-FINALLY-HALTS.--AT-THAT-POINT
       AT-THAT

WHICH-FINALLY-HALTS.--AT-THAT-POINT
           AT-THAT

WHICH-FINALLY-HALTS.--AT-THAT-POINT
                 AT-THAT

WHICH-FINALLY-HALTS.--AT-THAT-POINT
                      AT-THAT



(22, True)

### A retenir

1. L'Algorithme de boyer-moore est un algorithme de recherche textuelle
2. Basé sur un pré traitement du motif avec un calcul de tables de décalage
3. Il compare le texte et le motif en partant par la fin du motif. Si les lettres ne correspondent pas; il décale le motif
4. Amélioration de type 5 fois mieux qu'un algo de recherche de base
5. Pas terrible si peu de lettre dans l'alphabet
