domingo, 15 de junio de 2008

Kimball, Cognos, rimenri: ROADMAP BI/DW

A continuación, presento una metodología para desarrollar una solución de Inteligencia de Negocios y Data WareHouse , el cual como comentabamos en articulos anteriores sintetiza el estudio del Experto en Construccion de Data WareHouse: Ralph Kimball, la propuesta de COGNOS uno de los lideres de soluciones en Inteligencia de Negocios y la experiencia personal de este servidor. Esta metodologia la resumimos en el siguiente ROAD MAP BI/DW





Como se puede apreciar, se proponen 5 fases:



--> Planeamiento

--> Requerimientos y Análisis del Negocio

--> Diseño

--> Construcción

--> Implementación




Parte de ella ha sido extraida de mi tesis de maestria próxima a sustentar. A continución tenemos los puntos que desarrollaremos por cada fase:

Estos puntos los desarrollaremos con casos aplicativos.

Asi mismo para los amantes de codigo, me gustaria proponerles: como leer los proyectos OLAP de un Servidor OLAP de SQL Server y ponerlos en una interfaz, usando Visual Studio .NET














martes, 29 de abril de 2008

Data Mining. Minería de Datos

Introducción
En vista de los comentarios y sugerencias que nos hicieron, via mail y por chat, sobre la posibilidad de la creación de nuevo conocimiento, he creido conveniente introducir el tema Data Mining (DM) como una posibilidad de creación de conocimiento en las organizaciones. Luego de esto entraremos de lleno al desarrollo metodológico de nuestra solución de inteligencia de negocios.

Panorama Actual

"Segmentamos a nuestros clientes usando Data Mining..", "Data Mining incrementa la satisfacción de nuestros clientes..", "Nuestros competidores están usando DM para incrementar su cuota de mercado, necesitamos levantarnos! ..". Son algunos de los comentarios en las organizaciones que se pueden percibir.

Pero qué es el Data Mining? Como esta tecnología puede resolver los problemas diarios de las organizaciones? Cuál es el ciclo de vida de un DM ?
Qué es Data Mining?

Data Mining constituye un miembro clave del Business Intelligence (BI) y permite analizar datos, hallando patrones escondidos, de manera automática o semi-automatica. En lo que va del tiempo muchas empresas han acumulado una gran cantidad de datos en sus bases de datos, el resultado de esta colección de datos es que las organizaciones tienen “datos ricos” pero “pobre conocimiento”.

El propósito principal del DM es extraer de los datos patrones, incrementar su valor intrínseco y transformar la data en conocimiento.

Imagine los datos de una tabla relacional, como se muestran en la fig. 1 conteniendo información de clientes.


Una de las metas a encontrar podría ser: ¿A qué cliente o grupo de clientes le puedo dar un préstamo con un nivel de riesgo Bueno?

Podríamos escribir una consulta para buscar cuantos con tipo de Empleo dependiente hay y cuantos no. El impacto de la edad seria otra variable a tener en cuenta o tal vez en función a su nivel de ingresos o deuda que tenía y seguramente tendríamos que escribir miles de consultas cuando queramos combinarlas algunas o todas a la vez, imagine si existiera mas columnas a usar y algunas columnas sean valores numéricos como los ingresos mensuales de un cliente.

En contraste el DM hace un acercamiento más simple ha esta pregunta. Todo lo que tiene que hacer es seleccionar el Algoritmo correcto de DM y especificar el uso las columnas a usar, el significado de las columnas de entrada y las columnas predictivas. En el caso anterior las columnas: edad, ingresos, tipo de empleo, nivel de deuda serian las de entrada. La columna Riesgo Crédito seria la columna predictiva. Un modelo de decisión de árbol podría ayudarnos a responder esa preguntar,

El algoritmo revisa la data y analiza el impacto de cada atributo ingresado (2)
Volvamos a la pregunta original ¿A qué cliente o grupo de clientes le puedo dar un préstamo con un nivel de riesgo Bueno?

Se imagina llegar a la respuesta de: los clientes con tipo de empleado Dependiente que tengan un nivel de deuda bajo y que tengan más de 40 años son los que representan menos riesgo de deuda.

El DM proporciona un enorme valor a las organizaciones. En estos tiempos el DM puede implementarse con más transparencia:
· Gran cantidad de data disponible: las organizaciones llegaron a implementar sistemas transaccionales (ventas, almacenes, producción, personal, contabilidad, etc) y estos en el tiempo han ido almacenando información aunado a la baja de los costos de almacenamiento han acumulado grandes volúmenes de datos.
· Alto nivel de competencia: la competencia actualmente es alta como resultado de marketing moderno y canales de distribución como internet y comunicaciones, así como la participación de corporaciones nacionales y extranjeras en el mercado. En este 2008 en nuestra ciudad Trujillo estamos siendo testigos de la aparición de 2 malls con una infraestructura bastante atractiva para los clientes, por mencionar un ejemplo de competencia.
· Tecnología Lista: el DM anteriormente era mayormente una solución de laboratorio, ahora ya es una tecnología madura y está lista para ser aplicada en las organizaciones. Los algoritmos y el equipamiento existente son más eficientes para trabajar con data complicada si fuera el caso. Las API del DM están estandarizándose cada vez mas amplitud y esto permite a los desarrolladores construir aplicaciones

Realidad! (3)
Hace poco conversaba con un Gerente de una empresa comercializadora regional, de gran presencia en el mercado, y me comentaba entre otras cosas que, sino contara con un sistema de información, no podría estar competido con estas corporaciones – cuenta con gran cantidad de datos y competencia de primera- y que justo había invertido en un servidor con una configuración de primera –Tecnología Lista - .

Piense la ventaja de conocer la información que descubriría un DM

· Imagine un retail en donde identifique los grupos de clientes que adquieren ciertos grupos de productos.

· En un casino de juegos las personas mayores de 55 de género femenino que permanecen 20 minutos “jugando” prefieren ciertos juegos rentables.

· Conocer que clientes son los que continuamente cambian de operador. En algunos países la inversión de un operador telefónica por cliente representa un promedio de 200 dólares, de ahí la importancia de retenerlo

· Conocer el perfil de los clientes que constantemente realizan reclamos en una empresa de servicios.

· Tener la posibilidad de plantear un conjunto de promociones a un determinado grupo de clientes.

· Disminuir el riesgo de proporcionar un préstamo a un solicitante en una entidad financiera.

Qué datos usa Data Mining?

Si su organización cuenta con un Data WareHouse o Data Mart, que es donde mayormente se aplica DM, donde la data ya se encuentra “limpia”. En pequeñas organizaciones es posible que no exista un Data Warehouse por lo que se podría “minar” directamente en las tablas transaccionales. En este sentido se recomienda tener una BD a parte con los datos necesarios y validados.

También es posible aplicarlo directamente en un Cubo OLAP, que como vimos en capítulos posteriores es una BD Multidimensional compuesta por Medidas y Dimensiones.

En general el DM busca descubrir y evaluar patrones y tendencias con miras a presentar un nuevo conocimiento de la organización.

Ciclo de un Proyecto en DM.
Seguramente se estarán preguntando cuales son los pasos para constuir un proyecto de DM, aqui van!
Paso 1: Colección de Datos
Los datos del negocio podrían estar en muchos sistemas. Para tener una idea, en Microsoft, existen cientos de Base de Datos y algo de 70 Data WareHouse (1)

Paso 2: Limpieza de Datos y Transformación
La data limpia y transformada es el insumo vital para el DM, por lo que solo considerar la data relevante.

Paso 3: Construir un Modelo
Una vez que la data está limpia y las variables a usar transformadas, podemos empezar a construir modelos comprendiendo la meta que percibe el proyecto de Data Mining para luego ejecutar el tipo de tarea de DM. La idea es entender a los analistas del negocio que conocimiento intentan descubrir. En el caso de postulantes a la universidad por ejemplo: quienes serán los que tendrán más éxito en su vida universitaria.

Esta etapa es clave, conociendo el tipo de análisis a realizar es relativamente sencillo elegir el algoritmo a aplicar. Seguramente serán varios escenarios a desarrollar.

Paso 4: Modelo Preparado
Aplicados los algoritmos necesarios con sus respectivos parámetros. La idea es evaluar e identificar el significado de los patrones encontradas y elegir el modelo a seguir.

Paso 5: Reportear
Entregar reportes de lo encontrado a los usuarios finales para su conformidad respectiva

Paso 6: Predicción
En algunos proyectos el entregar los patrones descubiertos es una media mitad del trabajo, la otra corresponde a crear modelos predictivos incorporando nuevos escenarios

Paso 7: Integración de Aplicación
Es necesario crear una aplicación para integrarla al negocio. Por ejemplo en el caso del CRM la segmentación de mercado es un tema muy aplicable con DM o en el caso de un ERP o Sistemas Desarrollados el tema de los presupuestos cobran más exactitud al aplicarse DM

Paso 8: Administración del Modelo
En el caso de que exista variación con los modelos diseñados es necesario mantenerse vigilante, lo cual obligaría a crear nuevas versiones del DM.


Hasta el próximo artículo en donde tocaremos la Planificación del Proyecto de BI/DW basado en 3 puntos:
· Documento Visión del Producto
· Equipo del Proyecto
· Cronograma del Proyecto


Bibliografia Utilizada:
(1)Data Mining con SQL Server 2005 . ZhaoHui Tang - 2005. USA

(2) Curso de Postgrado en IT-ESAN - Nov 2007. Trujillo-Perú

(3) Experiencia Personal - Abril 2008 . Trujillo-Perú

Nota: el documento completo lo puede descargar en formato .PDF en la seccion: Descargar Temas BLOG con el titulo: Data Mining (DM)

jueves, 10 de abril de 2008

Data WareHouse. Medidas y Dimensiones

Introducción
Constituyen los componentes principales y fundamentales de un DWH y más adelante nos ayudará en su desarrollo metodológico, vamos a citar un ejemplo para ir familiarizándonos, luego daremos la definición formal.

Imagine Ud que desea hacer un reporte de los Montos Vendidos y este monto asciende a 100,000, es poco probable que se presente de esta manera:

Si es una empresa comercializadora interesará analizar esos montos vendidos (medidas) por algunas variables (dimensiones) como:

Nuestro reporte podría quedar:


Este reporte tiene más utilidad los Montos Vendidos (100,000) se puede apreciar en diferentes perspectivas (dimensiones) por ejemplo en el caso del producto: Montos Vendidos por Marca o Línea, o cuanto se ha vendido a los Clientes Principales. Nótese que se puede combinar los montos vendidos de los Clientes Regulares en la Marca Ace de la Sucursal Norte.

Veamos el reporte de otra manera


Analizando el Reporte:
Note el posicionamiento de las medidas y Dimensiones
En el caso de las Dimensiones se ubican normalmente:
· Filas ( Producto )
· Columnas ( Clientes )
· Titulo – llamado filtro ( Sucursal , Tiempo )
Las medidas se ubican como intersección de filas y columnas (montos vendidos)

Definiendo Medidas y Dimensiones

Bien ahora si definiremos lo que es una Medida y lo que es una Dimensión.
Un DWH responde a la solución de un problema, algo que permite medir gestión: ¿Qué necesito ver, medir o evaluar y Cómo necesito analizarlo?

El Qué lo constituyen un sin número de cosas como; por ejemplo en el caso de un Control de Calidad: la cantidad de unidades producidas, la cantidad de unidades defectuosas, el costo de producción entre otras. Estas últimas mencionadas lo constituyen las medidas o hechos (facts en Inglés). En un Data WareHouse son llamados hechos.

Una vez identificado lo que el usuario desea medir la siguiente pregunta corresponde a Como analizará esta medida. Volviendo al Control de Calidad, las respuesta podrían corresponder a analizar la data: en un periodo de tiempo determinado, para un producto especifico.

Imagine el requerimiento: Necesito conocer las cantidades producidas mensualmente. Esto puede encajar con que muchas medidas pueden ser analizadas por varias dimensiones: Necesito conocer los costos de producción trimestralmente por cada línea de productos.

Al respecto COGNOS en sus textos: The Multidimensional Organization y The Dimensional Administrator, -que dicho sea de paso son 2 librazos! - establece una metodología para encontrar dimensiones basados en preguntas, que será temas de artículos posteriores (estas preguntas corresponden a Que, Cuando, Como , Donde, de Que Forma, Quien, etc respecto a un Proceso de Negocios o Hechos respectivos).

Las medidas: constituyen el que analizar y son numéricas y sumarizables a diferente nivel de detalle

Las Dimensiones: son perspectivas de análisis y determinan el como analizar a las dimensiones
Vamos a finalizar incluyendo una lista de muestra de medidas y dimensiones según el proceso de negocios:
Proceso de Negocios y Medidas

Ventas
->Cantidad de Pedidos
-> Comisiones
->Descuentos
->Montos Vendidos
->Cantidades Vendidas
->Devoluciones
->Valores Presupuestados

Marketing

->Unidades Vendidas
->Valores Actuales
->Valores Presupuestados

Logística

->Unidades Aceptadas
->Unidades Devueltas
->Peso
->Costo Inventario
->Montos Comprados

Producción
->Tiempo de Producción
->Capacidad Usada
->Unidades Embarcadas
->Unidades Planificadas
->Unidades Producidas
->Costos de Producción
->Horas Hombre
->Peso Ingresado
->Peso Procesado


Proceso de Negocios y Dimensiones

Ventas
->Producto
->Organización
->Tiempo
->Cliente
->Formas de Pago

Marketing
->Producto
->Organización
->Tiempo
->Segmento de Clientes
->Medios de Entrega
->Territorios

Logística
->Estado de Inventario
->Proveedores
->Materiales
->Productos
->Ubicación
->Organización
->Tiempo

Producción
->Organización
->Producto
->Procesos
->Estaciones de Trabajo

Nota: el documento completo lo puede descargar en formato .PDF en la seccion: Descargar Temas BLOG con el titulo: Medidas y Dimensiones

martes, 18 de marzo de 2008

Data WareHouse Introducción

Introduccion

Hola nuevamente. En la ultima sesión, de hace ya varios dias, hablamos de la ubicacion de un Data WareHouse (DWH) dentro de una solucion de Inteligencia de Negocios. A continuación vamos a mostrar los concepto inciales de lo que es un DWH. Asi mismo al finalizar el mismo tienen Uds la posiblidad de ver y desarrollar el Lab 01 de como poder construir un cubo en SQL Server 2005.

Conceptos Iniciales de un Data WareHouse


SlideShare Link

Laboratorio
El requisito previo es tener la BD AdventureWorkDW en el SQL Server. Si no la tienes puedes descargarlo en la seccion Descargas Favoritas.

Para acceder al laboratorio de COMO CREAR UN CUBO haz Click Aqui

Luego de completar el laboratorio anterior puedes desarrollar el siguiente laboratorio CREANDO UNA INTERFAZ DE SOPORTE DE DECISIONES CON EXCEL 2007 a partir de un cubo, para ello Clic Aqui

Próxima Tema

Empezaremos desarrollando la Metodologia de Kimball, mediante un Caso de Estudio Práctico, que me lo han venido solicitando mas de uno.

jueves, 21 de febrero de 2008

Data WareHouse en Inteligencia de Negocios

Introducción

Continuamente nos preguntan sobre Data WareHouse y dentro de los sistemas de información en cual de los tipos se ubica. Como vimos en nuestro primer documento, el Data WareHouse forma parte de una solución de inteligencia de negocios, pero constituye además su abanderado principal cuando se implementa con los cubos OLAP.

Tipos de Sistemas de Información en la Empresa
· Los Sistemas de Información para la Gestión (SIG), o Management Information Systems ( MIS ),
· Sistemas Soporte a la Decisión (SSD), o Decision Support Systems ( DSS ),
· y Sistemas de Información para Ejecutivos (SIE), o Executive Information Systems ( EIS ).
Veamos el siguiente diagrama de los tipos de sistemas


Como se puede apreciar un Data WareHouse corresponde a la categoria de los sistemas de Soporte de Decisiones propiamente dichos.

Es cuando, por ejemplo, un ejecutivo, mediante un Sistema de Información para Ejecutivos, al analiza un Indicador de Gestión representado por el KPI de Recaudación y visualiza un 70% en rojo!


y tenemos la necesidad de preguntarnos donde estamos fallando??

y surgen los: Qué, Cómo , Cuándo, de Qué Forma? , Quiénes
  • En los clientes (Quiénes)- tal vez los de tipo de estan adquiriendo los montos pensados,

  • En los productos (Qué)- hay mucho reclamos por algunos de ellos -,

  • Los canales de distribucion (Cómo?)- la competencia deja el producto en la puerta de la casa del cliente

  • Tiempo (Cuándo?)- no estamos comercializando algunos productos que tradicionalmente se venden en ciertas epocas del año.

Cuando respondemos a estas preguntas nos remitimos a los Sistemas de Soporte de Decisiones, donde el DataWareHouse sobre OLAP cubre todas estas respuestas.

Hay una serie de metodólogos que ayudan a la construccion de un Data WareHouse entre ellos podemos mencionar a:

Podemos resaltar la propuesta de Kimball con su Modelamiento Dimensional como una gran fortaleza y de gran ayuda en la construcción de Data Ware House.

En los temas siguientes veremos la construcción de un DataWare House utilizando la metodología de Kimball, combinando la propuesta del Pensamiento Multidimensional de COGNOS mas nuestro aporte personal, todo implementandolo con MS SQL Server. Asi mismo iremos mencionando los casos de éxito donde se han aplicado este tipo de soluciones.

De momento los dejo con el ciclo de vida que propone Kimball en su libro The Data Warehouse LifeCycle Toolkit de 1998


jueves, 7 de febrero de 2008

Inteligencia Negocios en SQL Server 2005

Business Intelligence Ms Sql Server

Esta presentación corresponde a la perspectiva de Microsoft SQL Server 2005 para Inteligencia de Negocios. El kit de herramientas ofrecido está conformado por:

  • Integration Services (Servicios de Integracion de Datos)
  • Analisys Services (Servicios de Análisis: OLAP y Data Mining)
  • Reporting Services (Servicios de Reporte en Plataforma Web)

Esta presentación es una adaptación del material que se nos proporcionó a las Comunidades con motivo del lanzamiento de SQL Server, en donde tuve la oportunidad de exponer el tema de "Construcción de un Data WareHouse sobre SQL Server"

Se recomienda revisar los Conceptos de Inteligencia de Negocios previamente, a continuación la presentación:


From: rimenri, 3 hours ago





Presentación adaptada de SQL Server 2005. Launching MS SQL Server 2005


SlideShare Link


lunes, 4 de febrero de 2008

Conceptos Inteligencia de Negocios - Business Intelligence



Introducción
En estos últimos años cada vez existen más estudios orientados a analizar la información como factor clave para la toma de decisiones en la empresa, clave de la gestión empresarial, y eje conceptual sobre el que gravitan los sistemas de información empresariales.La información es considerada como un recurso que se encuentra al mismo nivel que los recursos humanos, financieros y materiales, que anteriormente habían constituido los únicos ejes sobre los que había girado la gestión empresarial. Si la Teoría económica tradicional mantenía: al capital, la tierra y el trabajo como elementos primarios de estudio, la información es, ahora, el cuarto recurso fundamental en la gestión y mejora sostenida de las Organizaciones.



Que es la Inteligencia de Negocios?
Es una arquitectura y colección de herramientas que buscan mejorar a las organizaciones, proporcionando vistas de aspectos de negocio a todos los empleados (estratégico, táctico, operacional) para que tomen mejores y más relevantes decisiones en menos tiempo y con la mayor información posible.
Brindando:
· Información correcta
· Tiempo oportuno
· Personas Correctas

Constituye una arquitectura y colección de aplicaciones operacionales y de soporte de decisiones con bases de datos que proporcionan a los usuarios de la organización fácil acceso a la data del negocio.
La Inteligencia de Negocios se direcciona principalmente en Aplicaciones y Base de Datos de Soporte a la Toma de DecisionesPersonas correctas

Componentes y Solución Integral de Inteligencia de Negocios

Sistemas Fuentes:
Son los sistemas transaccionales que han sido diseñados fundamentalmente para el soporte de las operaciones del negocio como: Compras, Ventas, Almacenes, Contabilidad, etc. Estos sistemas deben cumplir un requisito fundamental: ya deben de estar consolidados en cuanto al registro de información de las operaciones. No sería limitante si le carece de reportes para toma de decisiones, ya que es ahí el vacio que cubrirá la Inteligencia de Negocios adicionando módulos de gestión para las decisiones operacionales.

Base de Datos Operacionales: OLTP
Los sistemas transaccionales registran o graban las operaciones dentro de las base de datos operacionales (On Line Transactional Process: OLTP). Estas datos permitirán generar información para la toma de decisiones a nivel operacional. Estas bases de datos lo que persiguen fundamentalmente son el registro de transacciones y la consistencia de los datos.

Requerimientos Estratégicos (Plan Estratégico)
Es altamente recomendable tener definido el Plan Estratégico de la Organización. En caso extremo no se obtenga, a partir de las entrevistas se pueden buscar: objetivos, estrategias, indicadores de estrategias que permitan orientar el producto a diseñar. Son bastante útiles además del plan y las entrevistas los reportes de gestión que los tomadores de decisiones poseen para medir su gestión.
Estos requerimientos estratégicos deberán contrastarse con la Base de Datos Operacional, ya que muchos de ellos se obtendrán de esta fuente. En caso no puedan ser obtenidos se recomienda re-estructurar la Base de datos y las aplicaciones, a fin de satisfacer estos requerimientos estratégicos.

ETL (Extraer, Transformar y Cargar –Poblar)
Es el componente que permitirá 2 cosas fundamentalmente
· Integrar Datos cuando se tengan distintas fuentes (Diferentes manejadores de Base de Datos)
· Llevar información de las base de datos operacionales a las base de datos dimensionales

Data WareHouse (DWH)
Es el gran almacén de datos que está estructurado para analizar la información, a diferente nivel de detalle, de todos los procesos de negocios que tiene la organización. Es la Base de Datos llamada estratégica o multidimensional. Una vez diseñadas mediante el ETL es poblada o llenada a partir de las Bases de Datos operacionales. El diseño va orientado a encontrar medidas (Por ejemplo: montos vendidos, montos cobrados, horas hombre utilizadas, etc) y dimensiones (Clientes, Productos, Tiempo, Organización, Servicios, etc).

Data Marts
Constituyen una parte de un DWH. Si un DWH está formado por todos los procesos de la organización, un Data Mart constituye un determinado proceso. Por ejemplo podríamos tener un Data Mart para Finanzas, otro para Logística. Pueden ser preparados a partir de un DWH o ser elaborados independientemente.

Tecnologias OLAP (On Line Analytical Process)
Es la tecnología que permite aprovechar como está estructurada la información de un DataMart o un Data WareHouse. Fundamentalmente es una tecnología que permitirá analizar información dinámicamente a los niveles táctico y estratégico basados en Cubos que contienen las medidas y las Dimensiones.

Minería de Datos

Constituyen algoritmos avanzados (estadísticas, inteligencia artificial) que intenta descubrir cosas ocultas en los datos capturados a lo largo de las operaciones del negocio. Es el llamado el descubrimiento del conocimiento y va direccionado al nivel estratégico directamente.

Aplicaciones para Soporte de Decisiones
Van diseñadas para cubrir las decisiones tácticas y estratégicas. En el mercado existen una serie de herramientas que permiten construir estas aplicaciones, que se montan sobre una solución OLAP o Bases de Datos transaccionales.

Sistemas de Información para Ejecutivos
Son sistemas diseñados para la alta dirección y que están basados en alertas o semáforos que indican el estado de un determinado indicador de negocio. Este indicador se le llama KPI (Key Performance Indicator). Estos estados están reflejados en símbolos como un semáforo (rojo, verde, ámbar) entre otros. Generalmente son obtenidos a partir de un Balance ScoredCard)