#include <stdlib.h>
#include <limits.h>
#include <ctype.h>
#include <string.h>
#include <assert.h>
#include <stdio.h> /* nur für printf nötig */
#include <malloc.h> /* wegen alloca; nicht C-Standard! */
/*** mysql Zeugs, ohne das es hier nicht geht; muss natürlich wieder raus ***/
#define UDF_INIT void
typedef long longlong;
typedef struct {
int arg_count;
void ** args;
int * lengths;
} UDF_ARGS;
/************************************************/
longlong levenshtein_k_base( UDF_INIT * initid, char * str1, char * str2, int distance, char * is_null, char * error)
{
char * s = str1;
char * t = str2;
int n
= ( s
== NULL
) ? 0 : strlen ( str1
) ; int m
= ( t
== NULL
) ? 0 : strlen ( str2
) ;
//order the strings so that the first always has the minimum length l
if ( n > m) {
int aux = n;
n = m;
m = aux;
char * auxs = s;
s = t;
t = auxs;
}
// const int k = *((int*) distance);
const int k = ( int ) distance;
const int ignore = k + 1 ; //lev dist between s and t is at least greater than k
const int r = m - n;
if ( 0 == n)
return ( m > k) ? ignore : m;
if ( 0 == m)
return ( n > k) ? ignore : n;
if ( r > k)
return ignore;
const int lsize = ( ( ( k > m) ? m : k) - r) / 2 ; //left space for insertions
const int rsize = lsize + r; //right space for deletions, rsize >= lsize (rsize == lsize iff r == 0)
const int stripsize = lsize + rsize + 1 ; // + 1 for the diagonal cell
const int stripsizem1 = stripsize - 1 ; //see later, not to repeat calculations
int d[ 2 * stripsize] ; //Current and last rows
int currentrow;
int lastrow;
/* Initialization */
//currentrow = 0
int i;
for ( i = lsize; i < stripsize; i++ ) //start from diagonal cell
d[ i] = i - lsize;
/* Recurrence */
currentrow = stripsize;
lastrow = 0 ;
//j index for virtual recurrence matrix, jv index for rows
//bl & br = left & right bounds for j
int j, jv, bl, br;
int im1 = 0 , jm1;
int a, b, c, min; //for minimum function, coded directly here for maximum speed
for ( i = 1 ; i <= n; i++ ) {
//bl = max(i - lsize, 0), br = min(i + rsize, m)
bl = i - lsize;
if ( bl < 0 ) {
jv
= abs ( bl
) ; //no space for all allowed insertions bl = 0 ;
}
else
jv = 0 ;
br = i + rsize;
if ( br > m)
br = m;
jm1 = bl - 1 ;
for ( j = bl; j <= br; j++ ) {
if ( 0 == j) //postponed part of initialization
d[ currentrow + jv] = i;
else {
//By observation 3, the indices change for the lastrow (always +1)
if ( s[ im1] == t[ jm1] ) {
d[ currentrow + jv] = d[ lastrow + jv] ;
}
else {
//get the minimum of these 3 operations
a = ( 0 == jv) ? ignore : d[ currentrow + jv - 1 ] ; //deletion
b = ( stripsizem1 == jv) ? ignore : d[ lastrow + jv + 1 ] ; //insertion
c = d[ lastrow + jv] ; //substitution
min = a;
if ( b < min)
min = b;
if ( c < min)
min = c;
d[ currentrow + jv] = min + 1 ;
}
}
jv++;
jm1 = j;
}
//obsv: the cost of a following diagonal never decreases
if ( d[ currentrow + lsize + r] > k)
return ignore;
im1 = i;
//swap
currentrow = currentrow ^ stripsize;
lastrow = lastrow ^ stripsize;
}
//only here if levenhstein(s, t) <= k
return ( longlong) d[ lastrow + lsize + r] ; //d[n, m] }
}
longlong abweichung( UDF_INIT * initid, char * suche, char * in, const char * e, int distance, char * is_null, char * error)
{
#define MINDESTLAENGE 4
int index = 0 ;
while ( in!= e ) /* im zu durchsuchenden char-Array alle "Worte" durchsuchen, also z.B. "abcd" in "xyz\0qwer\0usw\0" */
{
if ( strlen ( suche
) >= MINDESTLAENGE
&& strlen ( in
) >= MINDESTLAENGE
) /* nur ab MINDESTLAENGE Zeichen mit Levensthein vergleichen */ {
longlong tmp= levenshtein_k_base( initid, suche, in, distance, is_null, error) ;
assert ( tmp
>= 0 ) ; /* Code geht davon aus, dass keine neg. Werte geliefert werden */ if ( tmp <= distance)
return index; /* Suchwort gefunden - Index zurückgegeben */
}
else { /* Wenn Wörter kleiner/gleich 3 Zeichen direkten Vergleich durchführen */
return index; /* Suchwort gefunden - Index zurückgegeben */
}
index++;
}
return - 1 ; /* Suchwort wurde nie gefunden */
}
longlong relevance( UDF_INIT * initid, UDF_ARGS * args, char * is_null, char * error)
{
/* Such-Array bilden z.B. "C Entwickler" => "c\0entwickler\0centwickler\0" */
char * s0
= alloca
( 2 + 2 * ( args
-> lengths
[ 0 ] ) ) ,* c
= s0
? s0
: ( abort ( ) , NULL
) ,* e
= c
; memcpy ( c
, args
-> args
[ 0 ] , args
-> lengths
[ 0 ] ) ; c
[ args
-> lengths
[ 0 ] ] = 0 ; while ( * e
) { * e
= tolower ( ( unsigned char ) * e
) , e
++; } c= s0;
while ( * c) { if ( * c== ' ' ) * c= 0 ; ++ c; }
/* FRAGE:
Diesen oberen Teil versteh ich einfach nicht. Ich würde gerne einbauen dass er den Suchstring nur zusammensetzt wenn jeder wort min 2 Zeichen hat.
Im Fall "C Entwickler" würde dann das zusammengesetze Wort "centwickler" nämlich durch die levenshtein immer einen treffer bei "entwickler" haben.
Beispiel Array:
"PHP Entwickler"
[0] = php, [1] = enwickler, [2] = phpentwickler
"C Entwickler"
[0] = c, [1] = entwickler
*/
/***************************************************************************/
/*
FRAGE:
Nachdem ich den oberen Teil nicht verstehe weiß ich nicht wie ich auf die Anzahl der Suchworte komme (anz_suchbegriffe dh unten hardkodiert gesetzt).
Ich brauche diese deshalb da ja jedes Suchwort gefunden werden muss
*/
int anz_suchbegriffe = 2 ;
/* Inserattitel-Wörter durchsuchen und Ende, falls "beste" Übereinstimmung hier schon gefunden */
c= s0;
{
int treffer = 0 ;
int phrase = 0 ;
int index_old = - 1 ;
char * s1
= alloca
( 1 + args
-> lengths
[ 1 ] ) ,* x
= s1
? s1
: ( abort ( ) , NULL
) ; memcpy ( x
, args
-> args
[ 1 ] , args
-> lengths
[ 1 ] ) ; x
[ args
-> lengths
[ 1 ] ] = 0 ; while ( * x
) * x
= tolower ( ( unsigned char ) * x
) , x
++; x= s1;
while ( * x) { if ( * x== ' ' ) * x= 0 ; ++ x; } ++ x;
while ( c!= e ) /* alle Such-Wörter durchlaufen */
{
longlong index = abweichung( initid, c, s1, x,* ( int * ) args-> args[ 3 ] , is_null, error) ;
/* Es wird die Stelle im Inserattitel benötigt da die Suchwörter für eine 100%ige Relevanz hintereinander stehen müssen */
if ( index > - 1 ) {
treffer++;
if ( ( index- 1 ) == index_old || ( treffer == 1 ) ) /* Phrase-Variable dann setzen wenn das aktuelle Wort unmittelbar hinter dem letzten gefunden wurde bzw beim ersten Treffer sowieso */
phrase = 1 ;
else
phrase = 0 ;
index_old = index;
/*
FRAGE:
Hier muss jetzt noch eingebaut werden, dass wenn der letzte Schleifendurchlauf erfolgt (dann wird ja das zusammengesetzte Wort (zB "CEntwickler") gegen den Inserattitel geprüft),
die Trefferanzahl natürlich nicht gleich der der maximalen Suchbegriffe entspricht sondern einfach die Funktion abbrechen kann.
Beispiel:
Begriff: "PHP Entwickler" Inserat: "PHP MySQL Entwickler" => Zwei Suchbegriffe - dh wenn zwei Treffer Relevanz von 75 zurückgeben
Begriff "Software Entwickler" Inserat: "Softwareentwickler" => Ist auch korrekt (Relevanz von 100)
*/
if ( treffer == anz_suchbegriffe) {
if ( phrase == 1 )
return 100 ; /* Wenn alle Suchwörter im Titel gefunden werden und diese hinteinaner stehen (Phrase) dann Relevanz von 100 */
else
return 75 ; /* Es wurden zwar alle Suchwörter gefunden aber diese standen nicht hintereinander -> dh 75 */
}
}
else phrase = 0 ;
}
}
/* Inserattext-Wörter durchsuchen - Phrasen */
c= s0;
{
char suchbegriff[ args-> lengths[ 0 ] + 1 ] ;
memcpy ( suchbegriff
, args
-> args
[ 0 ] , args
-> lengths
[ 0 ] ) ; suchbegriff[ args-> lengths[ 0 ] ] = '\0 ' ;
char * s1
= alloca
( 1 + args
-> lengths
[ 2 ] ) ,* x
= s1
? s1
: ( abort ( ) , NULL
) ; memcpy ( x
, args
-> args
[ 2 ] , args
-> lengths
[ 2 ] ) ; x
[ args
-> lengths
[ 2 ] ] = 0 ; while ( * x
) * x
= tolower ( ( unsigned char ) * x
) , x
++; x= s1;
while ( * x) { if ( * x== '|' ) * x= 0 ; ++ x; } ++ x;
longlong tmp= abweichung( initid, ( char * ) suchbegriff, s1, x,* ( int * ) args-> args[ 3 ] , is_null, error) ;
if ( tmp > - 1 )
return 75 ;
}
/* Inserattext-Wörter durchsuchen */
c= s0;
{
int treffer = 0 ;
char * s1
= alloca
( 1 + args
-> lengths
[ 2 ] ) ,* x
= s1
? s1
: ( abort ( ) , NULL
) ; memcpy ( x
, args
-> args
[ 2 ] , args
-> lengths
[ 2 ] ) ; x
[ args
-> lengths
[ 2 ] ] = 0 ; while ( * x
) * x
= tolower ( ( unsigned char ) * x
) , x
++; x= s1;
while ( * x) { if ( * x== ' ' ||* x== '|' ) * x= 0 ; ++ x; } ++ x;
while ( c!= e )
{
longlong index= abweichung( initid, c, s1, x,* ( int * ) args-> args[ 3 ] , is_null, error) ;
if ( index > - 1 ) {
treffer++;
if ( anz_suchbegriffe == treffer)
return 50 ;
}
}
}
return 1 ;
}
int main( )
{
int i= 1 ;
/*
Beispiele:
void *s[]={"php entwickler","php entwickler mysql","Software Entwickler|entwickler|Programmierer|php",&i}; => Relevanz 100
void *s[]={"php entwickler","phpentwickler mysql","Software Entwickler|entwickler|Programmierer|php",&i}; => Relevanz 100 (Derzeit nicht möglich!!!)
void *s[]={"php entwickler","php mysql entwickler","Software Entwickler|entwickler|Programmierer|php",&i}; => Relevanz 75 (Titel)
void *s[]={"php entwickler","php mysql developer","Software Entwickler|entwickler|Programmierer|php entwickler",&i}; => Relevanz 75 (Keyowords Phrasen)
void *s[]={"php entwickler","Software Developer","Software Entwickler|entwickler|Programmierer|php",&i}; => Relevanz 50 (Keywords)
*/
void * s[ ] = { "php entwickler" , "Software Developer" , "Software Entwickler|entwickler|Programmierer|php" ,& i} ;
int l[ ] = { 14 , 18 , 48 , 0 } ;
UDF_ARGS u= { 4 , s, l} ;
printf ( "\n \n Ergebnis: %ld \n " , relevance
( 0 ,& u
, 0 , 0 ) ) ; return 0 ;
}
