<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comentarios en: Distancia de Levenshtein en VisualBasic.NET.</title>
	<atom:link href="http://www.albertmata.net/2008/12/distancia-de-levenshtein-en-visualbasicnet/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.albertmata.net/2008/12/distancia-de-levenshtein-en-visualbasicnet/#utm_source=rss&amp;utm_medium=rss&amp;utm_campaign=distancia-de-levenshtein-en-visualbasicnet</link>
	<description>// anotaciones de análisis y programación en mi día a día como consultor de software</description>
	<lastBuildDate>Mon, 26 Oct 2009 17:21:23 -0600</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.4</generator>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
		<item>
		<title>Por: Albert Mata</title>
		<link>http://www.albertmata.net/2008/12/distancia-de-levenshtein-en-visualbasicnet/comment-page-1/#comment-262</link>
		<dc:creator>Albert Mata</dc:creator>
		<pubDate>Sun, 14 Dec 2008 10:17:19 +0000</pubDate>
		<guid isPermaLink="false">http://www.albertmata.net/?p=164#comment-262</guid>
		<description>Es que la distancia en sí misma no me parece demasiado significativa. Al menos en mi caso. Lo utilizo para comparar nombres de clientes (empresas) y que no se dé de alta dos veces el mismo. Si fuera obligatorio introducir el CIF no tendría ese problema, pero el caso es que en la aplicación en cuestión el único dato requerido para dar de alta un cliente es su razón social. Y ahí entra el problema de que unos ponen &quot;XXX, S.L.&quot; mientras otros &quot;XXX SL&quot; y otros directamente &quot;XXX&quot;. Eso sin contar que XXX lo pueden escribir de muchas maneras distintas (letras dobles, errores tipográficos, clientes extranjeros que te deletrean el nombre por teléfono, etc etc). Así que una distancia de 6 sobre una longitud de 40 puede ser simplemente diferencia en las siglas de la forma jurídica y algún mínimo error tipográfico. Pero una distancia de 6 sobre una longitud de 10 probablemente sean clientes que no tienen nada que ver.

En mi caso concreto, pondero siempre entre la longitud máxima de las dos cadenas y sugiero al usuario que el cliente que intenta crear presenta similitudes con otros ya existentes cuando el coeficiente está por encima del 50%. Un 51% es la mayor parte de las veces una no-coincidencia, pero en algún caso puede sí serlo, así que cojo ese límite. De todos modos ordeno los resultados en orden decreciente de coincidencia. Bajo mi punto de vista, el resultado final es bueno.</description>
		<content:encoded><![CDATA[<p>Es que la distancia en sí misma no me parece demasiado significativa. Al menos en mi caso. Lo utilizo para comparar nombres de clientes (empresas) y que no se dé de alta dos veces el mismo. Si fuera obligatorio introducir el CIF no tendría ese problema, pero el caso es que en la aplicación en cuestión el único dato requerido para dar de alta un cliente es su razón social. Y ahí entra el problema de que unos ponen "XXX, S.L." mientras otros "XXX SL" y otros directamente "XXX". Eso sin contar que XXX lo pueden escribir de muchas maneras distintas (letras dobles, errores tipográficos, clientes extranjeros que te deletrean el nombre por teléfono, etc etc). Así que una distancia de 6 sobre una longitud de 40 puede ser simplemente diferencia en las siglas de la forma jurídica y algún mínimo error tipográfico. Pero una distancia de 6 sobre una longitud de 10 probablemente sean clientes que no tienen nada que ver.</p>
<p>En mi caso concreto, pondero siempre entre la longitud máxima de las dos cadenas y sugiero al usuario que el cliente que intenta crear presenta similitudes con otros ya existentes cuando el coeficiente está por encima del 50%. Un 51% es la mayor parte de las veces una no-coincidencia, pero en algún caso puede sí serlo, así que cojo ese límite. De todos modos ordeno los resultados en orden decreciente de coincidencia. Bajo mi punto de vista, el resultado final es bueno.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Por: Luis Medel</title>
		<link>http://www.albertmata.net/2008/12/distancia-de-levenshtein-en-visualbasicnet/comment-page-1/#comment-261</link>
		<dc:creator>Luis Medel</dc:creator>
		<pubDate>Sat, 13 Dec 2008 22:28:49 +0000</pubDate>
		<guid isPermaLink="false">http://www.albertmata.net/?p=164#comment-261</guid>
		<description>Hace tiempo también tuve esa misma necesidad e implementé la Distancia de Levenshtein en ASP.
Lo que me parece muy interesante es el último paso que comentas ¿se trata de algo ad-hoc que te has currado para esos ejemplos o has hecho más pruebas y se comporta bien?</description>
		<content:encoded><![CDATA[<p>Hace tiempo también tuve esa misma necesidad e implementé la Distancia de Levenshtein en ASP.<br />
Lo que me parece muy interesante es el último paso que comentas ¿se trata de algo ad-hoc que te has currado para esos ejemplos o has hecho más pruebas y se comporta bien?</p>
]]></content:encoded>
	</item>
</channel>
</rss>
