Ho un elenco di didascalie con un gran numero di quasi duplicati. Per esempio:
Stavo cercando la ricerca fuzzy come un modo per evidenziare questi quasi duplicati
L'Add-In di ricerca Fuzzy per Excel esegue l'associazione fuzzy dei dati testuali in Excel.
Il componente aggiuntivo di ricerca Fuzzy per Excel è stato sviluppato da Microsoft Research e si esegue l'analisi fuzzy dei dati testuali in Microsoft Excel.
Può essere utilizzato per identificare le righe duplicate fuzzy all'interno di una singola tabella o per associare fuzzy righe simili tra due diverse tabelle. La corrispondenza è robusta per una grande varietà di errori, tra cui errori di ortografia, abbreviazioni, sinonimi e dati aggiunti / mancanti.
Ad esempio, potrebbe rilevare che le righe "Mr. Andrew Hill "," Hill, Andrew R. "e" Andy Hill "si riferiscono alla stessa entity framework; sottostante, restituendo un punteggio di somiglianza con each partita.
Mentre la configuration predefinita funziona bene per un'ampia varietà di dati testuali, ad esempio i nomi dei prodotti o gli indirizzi dei clienti, è ansible personalizzare anche la corrispondenza per determinati domini o lingue.
Source Fuzzy Lookup Add-in per Excel
L'esecuzione di richieste fuzzy in Excel presenta alcuni suggerimenti sulla configuration di soglia di somiglianza.