martes, 29 de abril de 2008

Data Mining. Minería de Datos

Introducción
En vista de los comentarios y sugerencias que nos hicieron, via mail y por chat, sobre la posibilidad de la creación de nuevo conocimiento, he creido conveniente introducir el tema Data Mining (DM) como una posibilidad de creación de conocimiento en las organizaciones. Luego de esto entraremos de lleno al desarrollo metodológico de nuestra solución de inteligencia de negocios.

Panorama Actual

"Segmentamos a nuestros clientes usando Data Mining..", "Data Mining incrementa la satisfacción de nuestros clientes..", "Nuestros competidores están usando DM para incrementar su cuota de mercado, necesitamos levantarnos! ..". Son algunos de los comentarios en las organizaciones que se pueden percibir.

Pero qué es el Data Mining? Como esta tecnología puede resolver los problemas diarios de las organizaciones? Cuál es el ciclo de vida de un DM ?
Qué es Data Mining?

Data Mining constituye un miembro clave del Business Intelligence (BI) y permite analizar datos, hallando patrones escondidos, de manera automática o semi-automatica. En lo que va del tiempo muchas empresas han acumulado una gran cantidad de datos en sus bases de datos, el resultado de esta colección de datos es que las organizaciones tienen “datos ricos” pero “pobre conocimiento”.

El propósito principal del DM es extraer de los datos patrones, incrementar su valor intrínseco y transformar la data en conocimiento.

Imagine los datos de una tabla relacional, como se muestran en la fig. 1 conteniendo información de clientes.


Una de las metas a encontrar podría ser: ¿A qué cliente o grupo de clientes le puedo dar un préstamo con un nivel de riesgo Bueno?

Podríamos escribir una consulta para buscar cuantos con tipo de Empleo dependiente hay y cuantos no. El impacto de la edad seria otra variable a tener en cuenta o tal vez en función a su nivel de ingresos o deuda que tenía y seguramente tendríamos que escribir miles de consultas cuando queramos combinarlas algunas o todas a la vez, imagine si existiera mas columnas a usar y algunas columnas sean valores numéricos como los ingresos mensuales de un cliente.

En contraste el DM hace un acercamiento más simple ha esta pregunta. Todo lo que tiene que hacer es seleccionar el Algoritmo correcto de DM y especificar el uso las columnas a usar, el significado de las columnas de entrada y las columnas predictivas. En el caso anterior las columnas: edad, ingresos, tipo de empleo, nivel de deuda serian las de entrada. La columna Riesgo Crédito seria la columna predictiva. Un modelo de decisión de árbol podría ayudarnos a responder esa preguntar,

El algoritmo revisa la data y analiza el impacto de cada atributo ingresado (2)
Volvamos a la pregunta original ¿A qué cliente o grupo de clientes le puedo dar un préstamo con un nivel de riesgo Bueno?

Se imagina llegar a la respuesta de: los clientes con tipo de empleado Dependiente que tengan un nivel de deuda bajo y que tengan más de 40 años son los que representan menos riesgo de deuda.

El DM proporciona un enorme valor a las organizaciones. En estos tiempos el DM puede implementarse con más transparencia:
· Gran cantidad de data disponible: las organizaciones llegaron a implementar sistemas transaccionales (ventas, almacenes, producción, personal, contabilidad, etc) y estos en el tiempo han ido almacenando información aunado a la baja de los costos de almacenamiento han acumulado grandes volúmenes de datos.
· Alto nivel de competencia: la competencia actualmente es alta como resultado de marketing moderno y canales de distribución como internet y comunicaciones, así como la participación de corporaciones nacionales y extranjeras en el mercado. En este 2008 en nuestra ciudad Trujillo estamos siendo testigos de la aparición de 2 malls con una infraestructura bastante atractiva para los clientes, por mencionar un ejemplo de competencia.
· Tecnología Lista: el DM anteriormente era mayormente una solución de laboratorio, ahora ya es una tecnología madura y está lista para ser aplicada en las organizaciones. Los algoritmos y el equipamiento existente son más eficientes para trabajar con data complicada si fuera el caso. Las API del DM están estandarizándose cada vez mas amplitud y esto permite a los desarrolladores construir aplicaciones

Realidad! (3)
Hace poco conversaba con un Gerente de una empresa comercializadora regional, de gran presencia en el mercado, y me comentaba entre otras cosas que, sino contara con un sistema de información, no podría estar competido con estas corporaciones – cuenta con gran cantidad de datos y competencia de primera- y que justo había invertido en un servidor con una configuración de primera –Tecnología Lista - .

Piense la ventaja de conocer la información que descubriría un DM

· Imagine un retail en donde identifique los grupos de clientes que adquieren ciertos grupos de productos.

· En un casino de juegos las personas mayores de 55 de género femenino que permanecen 20 minutos “jugando” prefieren ciertos juegos rentables.

· Conocer que clientes son los que continuamente cambian de operador. En algunos países la inversión de un operador telefónica por cliente representa un promedio de 200 dólares, de ahí la importancia de retenerlo

· Conocer el perfil de los clientes que constantemente realizan reclamos en una empresa de servicios.

· Tener la posibilidad de plantear un conjunto de promociones a un determinado grupo de clientes.

· Disminuir el riesgo de proporcionar un préstamo a un solicitante en una entidad financiera.

Qué datos usa Data Mining?

Si su organización cuenta con un Data WareHouse o Data Mart, que es donde mayormente se aplica DM, donde la data ya se encuentra “limpia”. En pequeñas organizaciones es posible que no exista un Data Warehouse por lo que se podría “minar” directamente en las tablas transaccionales. En este sentido se recomienda tener una BD a parte con los datos necesarios y validados.

También es posible aplicarlo directamente en un Cubo OLAP, que como vimos en capítulos posteriores es una BD Multidimensional compuesta por Medidas y Dimensiones.

En general el DM busca descubrir y evaluar patrones y tendencias con miras a presentar un nuevo conocimiento de la organización.

Ciclo de un Proyecto en DM.
Seguramente se estarán preguntando cuales son los pasos para constuir un proyecto de DM, aqui van!
Paso 1: Colección de Datos
Los datos del negocio podrían estar en muchos sistemas. Para tener una idea, en Microsoft, existen cientos de Base de Datos y algo de 70 Data WareHouse (1)

Paso 2: Limpieza de Datos y Transformación
La data limpia y transformada es el insumo vital para el DM, por lo que solo considerar la data relevante.

Paso 3: Construir un Modelo
Una vez que la data está limpia y las variables a usar transformadas, podemos empezar a construir modelos comprendiendo la meta que percibe el proyecto de Data Mining para luego ejecutar el tipo de tarea de DM. La idea es entender a los analistas del negocio que conocimiento intentan descubrir. En el caso de postulantes a la universidad por ejemplo: quienes serán los que tendrán más éxito en su vida universitaria.

Esta etapa es clave, conociendo el tipo de análisis a realizar es relativamente sencillo elegir el algoritmo a aplicar. Seguramente serán varios escenarios a desarrollar.

Paso 4: Modelo Preparado
Aplicados los algoritmos necesarios con sus respectivos parámetros. La idea es evaluar e identificar el significado de los patrones encontradas y elegir el modelo a seguir.

Paso 5: Reportear
Entregar reportes de lo encontrado a los usuarios finales para su conformidad respectiva

Paso 6: Predicción
En algunos proyectos el entregar los patrones descubiertos es una media mitad del trabajo, la otra corresponde a crear modelos predictivos incorporando nuevos escenarios

Paso 7: Integración de Aplicación
Es necesario crear una aplicación para integrarla al negocio. Por ejemplo en el caso del CRM la segmentación de mercado es un tema muy aplicable con DM o en el caso de un ERP o Sistemas Desarrollados el tema de los presupuestos cobran más exactitud al aplicarse DM

Paso 8: Administración del Modelo
En el caso de que exista variación con los modelos diseñados es necesario mantenerse vigilante, lo cual obligaría a crear nuevas versiones del DM.


Hasta el próximo artículo en donde tocaremos la Planificación del Proyecto de BI/DW basado en 3 puntos:
· Documento Visión del Producto
· Equipo del Proyecto
· Cronograma del Proyecto


Bibliografia Utilizada:
(1)Data Mining con SQL Server 2005 . ZhaoHui Tang - 2005. USA

(2) Curso de Postgrado en IT-ESAN - Nov 2007. Trujillo-Perú

(3) Experiencia Personal - Abril 2008 . Trujillo-Perú

Nota: el documento completo lo puede descargar en formato .PDF en la seccion: Descargar Temas BLOG con el titulo: Data Mining (DM)

11 comentarios:

Anónimo dijo...

hola muy interesante tu block soy nuevo en este tema y quiero especializarme es esta area....obiamente estoy aprendiendo los conceptos de bi y de acuerdo a tu experiencia q tecnologia me recomendarias estudiar(sap bi , oracle bi, microsoft)para poder obtener oportunidades laborales
gracias

rimenri dijo...

Hola Anonimo:

Cualquier conocimiento es buena y mientras mas alternativas existan es mejor, sin embargo hay estadisticas favorables para bi microsoft (http://www.olapreport.com/market.htm), pero hay de todo por ejemplo en soft libre (wwww.pentaho.com). La idea en todo caso es empezar por algo y darle con todo, personalmente uso BI de Microsoft, pero como te repito hay alternativas a elegir y eso es lo interesante
Saludos
rimenri

Guillermo dijo...

Hola, muy bien explicado el tema de DATA MINING, es un tema que me dejaron de trabajo en la Universidad y no encontré una web que me explicara de manera simple y sencilla lo que es y su funcionamiento. Gracias.

Gustavo dijo...

Hola interesante contenido, estoy buscando seguir un curso de data minning donde pueda aprender inclusive el uso de modelos para predecir comportamiento de uso, fuga y retencion de clientes. Pero resulta que aca en Peru no veo por ningun sitio donde dictan cursos de Data mining, me dijeron que el curso que dicta el CTIC de la UNI no era tan bueno, sabrias de alguna institucion que dicte estos cursos. Gracias anticipadas

Mauricio Murillo dijo...

Hola,

Te felicito por tu blog, la información es muy clara y digerible. Tengo cierta experiencia en el tema de BI, pero hasta la fecha no hemos emprendido ningún proyecto de Data Mining, con tú experiencia cuál herramienta me recomendarías para empezar a trabajar con minería de datos.

maritza dijo...

Hola!, felicitaciones por el blog...tus temas son muy interesantes.
Una consulta, estoy investigando sobre DataMining, quisiera saber cual de estas 3 metodologias es la mejor y xq: CRISP DM, SEMMA y KDD, me serviria de mucha ayuda para mi investigacion. Saludos!

rimenri dijo...

Hola Maritza:

Bueno personalmente tengo una opini'on, CRISP me parece una mejor alternativa desde el punto de vista que encaja con algunas heramientas con los Servicios de Analysis de SQL Server en donde mencionan a CRISP como la mas cercana al producto, a parte de lo entendible y aplicable

Saludos
rimenri

rimenri dijo...

IngMurillo:
Para serle sincero yo me encientro utilizando las herramientas de Mineria de Datos que incorpora los Servicios de Analysis de Microsoft, no he tenido la oportunidad de explorar a profundidad otras. Estas herramientas ofrecen una serie de Algoritmos (Decision, Clustering, Bayesiano, etc) para implementar una serie de tareas (Clasificacion, Segementacion, Pronostico, etc), las cuales de alguna forma, al veces 1 o mas, satisfacen los requisitos solicitados

rimenri

Unknown dijo...

Hola y felicitaciones por tu blog, en este momento quiero embarcarme en la mineria de datos, tengo mi data warehouse en sql server 2005, y estoy tratando de usar analysis services, pero estoy un poco atascado ya que no se utilizarlo, tienes alguna recomendacion de libros o tutorial?, ya que a través de la información oficial de Microsoft no he podido resolver errores que se me han presentado.
Saludos
Felipe

rimenri dijo...

Hola Gustavo:

Efectivamente es complicado encontrar una institucion que dicte DM al nivel que requieres. Seguro que en el tiempo habr'a alguna instituci'on, lo cual si lo ubico te paso la voz.

Saludos
rimenri

Anónimo dijo...

hola somos estudiantes de ingenieria de la universidad de huacho es interesante lo que hay en tu blog ... deseariamos tener mas informacion... y contactarnos con usted... deseriamos tenerlo en nuestras conferencias.. escribanos a jgabrielita@hotmail.com o jgabrielita@gmail.com gracias