LIC.
EN SISTEMAS DE INFORMACIÓN
ALMACENES DE DATOS Y MINERÍA DE DATOS
Trabajo monográfico de adscripción realizado por Griselda E. Bressán.
Julio - 2003
![]()
¿Cómo trabaja el Data
Warehouse?
OLAP Procesamiento analítico on-line
Sistemas de Data Warehouse
y Oltp
Diferencias del Data Warehouse vs. OLTP
El
descubrimiento del conocimiento (KDD)
Algoritmos
de minería de datos
Etapas principales del proceso de data
mining
Es un proceso, no un
producto. Es una técnica para consolidar y administrar datos de variadas
fuentes con el propósito de responder preguntas de negocios y tomar decisiones,
de una forma que no era posible hasta ahora.
Consolidar datos desde una
variedad de fuentes, dentro del marco conceptual de Data Warehousing es el
proceso de Transformación de Datos.
Manejar grandes volúmenes
de datos de una forma que no era posible, o no era costo efectiva, a estos
medios se agrupan en Procesamiento y Administración de Datos.
Acceder a los datos de una
forma más directa, en "el lenguaje del negocio", y analizarlos para
obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos
categorías: Acceso a los Datos y Descubrimiento o Data Mining.
Estos desarrollos tecnológicos,
correctamente organizados e interrelacionados, constituyen lo que se ha dado en
llamar un Data Warehouse o Bodega de Datos.
La definición más conocida
para el DW, fue propuesta por Inmon [MicroSt96] (considerado el padre de las
Bases de Datos) en 1992: “Un DW es una colección de datos orientados a temas,
integrados, no-volátiles y variante en el tiempo, organizados para soportar
necesidades empresariales”.
Según, Bill Inmon,
existen generalmente cuatro características que
describen un almacén de datos:
1.orientado al sujeto: los datos se organizan de acuerdo al sujeto en vez de la
aplicación, por ejemplo, una compañía de seguros usando un almacén de datos
podría organizar sus datos por cliente, premios, y reclamaciones, en lugar de
por diferentes productos (automóviles, vida, etc.). Los datos organizados por
sujetos contienen solo la información necesaria para los procesos de soporte
para la toma de decisiones.
2.integrados: cuando los datos residen en muchas aplicaciones
separados por los distintos entornos operacionales, la descodificación de los
datos es a menudo inconsistente. Por ejemplo, en una aplicación, la palabra
gender podría codificarse como "m" y "f" en otra como
"0" y "1".
Cuando los datos fluyen de un entorno operacional
a un entorno de almacén de datos o de data warehouse, ellos asumen una
codificación consistente, por ejemplo gender siempre se transformaría a
"m" y "f".
3.variación-temporal: el almacén de datos contiene un lugar para guardar
datos con una antigüedad de 5 a diez años, o incluso más antiguos, para poder
ser usados en comparaciones, tendencias y previsiones. Estos datos no se
modificarán.
4. no son inestables: los datos no serán modificados o cambiados de ninguna
manera una vez ellos han sido introducidos en el almacén de datos, solamente
podrán ser cargados, leídos y/o accedidos.
En 1993, Susan Osterfeldt
[MicroSt96] publica una definición que sin duda acierta en la clave del DW:
“Yo considero al DW como algo que provee dos beneficios empresariales reales:
Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles
y no deseados, como también el procesamiento desde el ambiente operacional
clásico”.
Es
el sistema para el almacenamiento y distribución de cantidades masivas de
datos. El Data Warehouse analítico resultante puede ser aplicado para mejorar
procesos de negocios en toda la organización, en áreas tales como manejo de
campañas promocionales, detección de fraudes, lanzamiento de nuevos productos,
etc.
El
punto de inicio ideal es un data warehouse que contenga una combinación de
datos de seguimiento interno de todos los clientes junto con datos externos de
mercado acerca de la actividad de los competidores. Información histórica
sobre potenciales clientes también provee una excelente base para prospecting.
Este warehouse puede ser implementado en una variedad de sistemas de bases
relacionales y debe ser optimizado para un acceso a los datos flexible y rápido.
Proveer
una visión única de los clientes en toda la empresa
Poner
tanta información comercial como sea posible en manos de tantos usuarios
diferentes como sea posible
Mejorar
el tiempo de espera que insumen los informes habituales
Monitorear
el comportamiento de los clientes
Predecir
compras de productos
Mejorar
la capacidad de respuesta a problemas comerciales
Incrementar
la precisión de las mediciones
Aumentar
la productividad
Incrementar
y distribuir las responsabilidades.
¿Cómo trabaja el Data Warehouse?
Extrae la información operacional.
Transforma la operación a formatos consistentes.
Automatiza las tareas de la información para prepararla a un análisis
eficiente.
Manejo de relaciones de marketing.
Análisis de rentabilidad.
Reducción de costos.
Olap
- procesamiento analítico on-line (On Line Analitic prossesing)
Se
refiere a aplicaciones de bases de datos orientadas a array que permite a los
usuarios ver, navegar, manipular y analizar bases de datos multidimensionales.
Un
server multidimensional OLAP permite que un modelo de negocios más sofisticado
pueda ser aplicado cuando se navega por el data warehouse. Las estructuras
multidimensionales permiten que el usuario analice los datos de acuerdo a como
quiera mirar el negocio, por línea de producto, u otras perspectivas claves
para su negocio. El server de Data Mining debe estar integrado con el data
warehouse y el server OLAP para insertar el análisis de negocios directamente
en esta infraestructura. Un avanzado, metadato centrado en procesos define los
objetivos del Data Mining para resultados específicos tales como manejos de
campaña, prospecting, y optimización de promociones. La integración con el
data warehouse permite que decisiones operacionales sean implementadas
directamente y monitoreadas.
Una base de datos para
soportar procesos transaccionales en línea (OLTP), puede no ser adecuada para
el Data Warehouse ya que ha sido diseñada para maximizar la capacidad
transaccional de sus datos y típicamente tiene cientos de tablas la gran mayoría
normalizadas. Su diseño también ha sido condicionado por los procesos
operacionales que deberá soportar para la óptima actualización de sus datos,
normalmente muchas de sus tablas en constantes y continuos cambios. Los sistemas
Data Warehouse están orientados a procesos de consultas en contraposición con
los procesos transaccionales.
Los sistemas tradicionales
de transacciones y las aplicaciones de Data Warehousing son polos opuestos en
cuanto a sus requerimientos de diseño y sus características de operación.
Las aplicaciones de OLTP están
organizadas para ejecutar las transacciones para los cuales fueron hechos, como
por ejemplo: mover dinero entre cuentas, un cargo o abono, una devolución de
inventario, etc. Por otro lado, un Data Warehouse está organizado en base a
conceptos, como por ejemplo: clientes, facturas, productos, etc.
Otra diferencia radica en el
número de usuarios. Normalmente, el número de usuarios de un Data Warehouse es
menor al de un OLTP. Es común encontrar que los sistemas transaccionales son
accedidos por cientos de usuarios simultáneamente, mientras que los Data
Warehouse sólo por decenas. Los sistemas de OLTP realizan cientos de
transacciones por segundo mientras que una sola consulta de un Data Warehouse
puede tomar minutos. Otro factor es que frecuentemente los sistemas
transaccionales son menores en tamaño a los Data Warehouses, esto es debido a
que un Data Warehouse puede estar formado por información de varios OLTP´s.
Existen también diferencia
en el diseño, mientras que el de un OLTP es extremadamente normalizado, el de
un Data Warehouse tiende a ser desnormalizado. El OLTP normalmente está formado
por un número mayor de tablas, cada una con pocas columnas, mientras que en un
Data Warehouse el número de tablas es menor, pero cada una de éstas tiende a
ser mayor en número de columnas.
Los OLTP son continuamente
actualizados por los sistemas operacionales del día con día, mientras que los
Data Warehouse son actualizados en batch de manera periódica.
Las estructuras de los OLTP
son muy estables, rara vez cambian, mientras las de los Data Warehouses sufren
cambios constantes derivados de su evolución. Esto se debe a que los tipos de
consultas a los cuales están sujetos son muy variados y es imposible preverlos
todos de antemano.
Mejorar la Entrega de Información:
información completa, correcta, consistente, oportuna y accesible. Información
que la gente necesita, en el tiempo que la necesita y en el formato
Impacto Positivo sobre los Procesos Empresariales: cuando a la gente se le da acceso a una mejor
calidad de información, la empresa puede lograr por sí sola:
· Eliminar los
retardos de los procesos empresariales que resultan de información
incorrecta, inconsistente y/o no existente.
·
Integrar y
optimizar procesos empresariales a través del uso compartido e integrado de las
fuentes de información.
·
Eliminar la
producción y el procesamiento de datos que no son usados ni necesarios,
producto de aplicaciones mal diseñados o ya no utilizados.
El descubrimiento del conocimiento (KDD)
Se
define como ”la extracción no trivial de información implícita,
desconocida, y potencialmente útil de los datos”. Hay una distinción clara
entre el proceso de extracción de datos y el descubrimiento del conocimiento.
Bajo sus convenciones, el proceso de descubrimiento del conocimiento toma los
resultados tal como vienen de los datos (proceso de extraer tendencias o modelos
de los datos) cuidadosamente y con precisión los transforma en información útil
y entendible. Esta información no es típicamente recuperable por las técnicas
normales pero es descubierta a través del uso de técnicas de AI.
KDD
puede usarse como un medio de recuperación de información, de la misma manera
que los agentes inteligentes realizan la recuperación de información en el
Web. Nuevos modelos o tendencias en los datos podrán descubrirse usando estas técnicas.
KDD también puede usarse como una base para las interfaces inteligentes del mañana,
agregando un componente del descubrimiento del conocimiento a una máquina de
bases de datos o integrando KDD con las hojas de cálculo y visualizaciones.
Al
Descubrimiento de Conocimiento de Bases de Datos (KDD) a veces también se le
conoce como minería de datos (Data Mining).
Sin
embargo, muchos autores se refieren al proceso de minería de datos como el de
la aplicación de un algoritmo para extraer patrones de datos y a KDD al proceso
completo (pre-procesamiento, minería, post-procesamiento).
El
proceso de KDD consiste en usar métodos de minería de datos (algoritmos) para
extraer (identificar) lo que se considera como conocimiento de acuerdo a la
especificación de ciertos parámetros usando una base de datos junto con
pre-procesamientos y post-procesamientos.
Se
estima que la extracción de patrones (minería) de los datos ocupa solo el 15%
- 20% del esfuerzo total del proceso de KDD.
procesar
automáticamente grandes cantidades de datos crudos,
identificar
los patrones más significativos y relevantes, y
presentarlos
como conocimiento apropiado para satisfacer las metas del usuario.
Los
algoritmos de aprendizaje son una parte integral de KDD. Las técnicas de
aprendizaje podrán ser supervisadas o no supervisadas. En general, las técnicas
de aprendizaje dirigidas disfrutan de un rango de éxito definido por la
utilidad del descubrimiento del conocimiento. Los algoritmos
de aprendizaje son complejos y generalmente considerados como la parte más difícil
de cualquier técnica KDD.
El
descubrimiento de la máquina es uno de los campos más recientes que han
contribuido para KDD. Mientras el descubrimiento de la máquina confía
solamente en métodos autónomos para el descubrimiento de la información, KDD
típicamente combina métodos automatizados con la interacción humana para
asegurar resultados exactos, útiles, y entendibles.
Hay
muchos métodos diferentes que son clasificados como las técnicas de KDD. Hay métodos
cuantitativos, como los probabilísticos y los estadísticos. Hay métodos que
utilizan las técnicas de visualización. Hay métodos de clasificación como la
clasificación de Bayesian, lógica inductiva, descubrimiento de modelado de
datos y análisis de decisión. Otros métodos incluyen la desviación y
tendencia al análisis, algoritmos genéticos, redes neuronales y los métodos híbridos
que combinan dos o más técnicas.
Debido
a las maneras en que estas técnicas pueden usarse y combinarse, hay una falta
de acuerdos de cómo estas técnicas deben categorizarse. Por ejemplo, el método
de Bayesian puede agruparse lógicamente con los métodos probabilísticos, de
clasificación o de visualización. Por causa de la organización, cada método
descrito aquí es incluido en el grupo que mejor encaje. Sin embargo, esta
selección no implica una categorización estricta.
Método Probabilístico
Método estadístico
Método de clasificación.
Método
Bayesian de KDD "es un modelo gráfico que usa directamente
los arcos exclusivamente para formar una gráfica acíclica". Aunque el método
Bayesian usa los medios probabilísticos y gráficos de representación, también
es considerado un tipo de clasificación.
Se
usan muy frecuentemente las redes de Bayesian cuando la incertidumbre se asocia
con un resultado puede expresarse en términos de una probabilidad. Este método
cuenta con un dominio del conocimiento codificado y ha sido usado para los
sistemas de diagnóstico.
Es un pequeño Data
Warehouse, para un determinado numero de usuarios, para un arrea funcional,
especifica de la compañía. También podemos definir que un Data Marts es un
subconjunto de una bodega de datos para un propósito especifico.
Los procesos que conforma el
datawarehouse son:
1-Extracción
2-Elaboración
3-Carga
4-Explotación

Es
un mecanismo de explotación, consistente en la búsqueda de información
valiosa en grandes volúmenes de datos. Está muy ligada a las
bodegas de datos que proporcionan la información histórica con la cual los algoritmos de minería de datos tienen la
información necesaria para la toma de decisiones.
La
md puede ser dividida en:
minería
de datos predictiva (mdp): usa primordialmente técnicas estadísticas.
minería
de datos para descubrimiento de conocimiento (mddc): usa principalmente técnicas
de inteligencia artificial
"La
minería de datos es un proceso no trivial de identificación válida, novedosa,
potencialmente útil y entendible de patrones comprensibles que se encuentran
ocultos en los datos" (Fayyad y otros, 1996).
"Es
la integración de un conjunto de áreas que tienen como propósito la
identificación de un conocimiento obtenido a partir de las bases de datos que
aporten un sesgo hacia la toma de decisión" (Molina y otros, 2001).
Se
denomina minería de datos (data mining) al análisis de archivos y bitácoras
de transacciones, trabaja a nivel del conocimiento con el fin de descubrir
patrones, relaciones, reglas, asociaciones o incluso excepciones útiles para la
toma de decisiones. Por ejemplo, qué productos se comercializan mejor en la
temporada navideña, en qué regiones es productivo sembrar café, qué áreas
de una zona urbana incrementarán su demanda de escuelas primarias.
Por
eso la minería de datos revela patrones o asociaciones que usualmente nos eran
desconocidas, se la ha llamado también Descubrimiento de Conocimiento, este
tiene sus inicios en el Aprendizaje Automático o la Estadística.
Un proceso de apoyo a la toma de
decisiones de negocio debe incluir 2 componentes: el de verificación, y el de
descubrimiento.
El análisis de verificación nos
permite obtener conclusiones basadas en el comportamiento pasado.
La minería de datos con enfoque en
el descubrimiento, puede ayudar a descubrir nuevas oportunidades de negocio.
El análisis de verificación nos
ayuda a confirmar o rechazar los "descubrimientos" obtenidos con el
nuevo enfoque.
La minería es un tema para grandes
bases de datos, ayuda a descubrir a estas bases información rápida. Es una
herramienta relacionada directamente al negocio.
Se empieza a hablar de minería de
datos cuando en el mercado se pone atención en el producto y el cliente. Esta
herramienta existe hace varios años, el problema es que trabaja con grandes
bases de datos.
La minería de datos forma parte de
un proceso integrado desde el 'Data Warehouse' hasta la presentación.
En la actualidad, existe una gran
cantidad de aplicaciones, en áreas tales como:
ü astronomía:
clasificación de cuerpos celestes.
ü
aspectos
climatológicos: predicción de tormentas, etc.
ü
medicina:
caracterización y predicción de enfermedades, probabilidad de respuesta satisfactoria a tratamiento médico.
ü
industria
y manufactura: diagnóstico de fallas
ü
mercadotécnia:
identificar clientes susceptibles de responder a ofertas de productos y
servicios por correo, fidelidad
de clientes, selección de sitios de tiendas, afinidad de productos,
etc.
ü
inversión
en casas de bolsa y banca: análisis de clientes, aprobación de prestamos, determinación de montos de crédito, etc.
ü
detección
de fraudes y comportamientos inusuales: telefónicos, seguros, en tarjetas de crédito, de evasión fiscal, electricidad,
etc.
ü
análisis de canastas de mercado para
mejorar la organización de tiendas, segmentación
de mercado (clustering)
ü
determinación
de niveles de audiencia de programas televisivos
ü
normalización
automática de bases de datos
Análisis Preliminar de datos usando
Query tools: el primer paso
en un proyecto de data mining sería siempre un análisis de los datos usando
query tools, aplicando una consulta SQL a un conjunto de datos, para rescatar
algunos aspectos visibles antes de aplicar las técnicas. La gran mayoría de la
información (un 80 %) puede obtenerse con SQL. El 20 % restante, mas
importante, la información oculta requiere técnicas avanzadas.
Este
primer análisis en SQL es para saber cual es la distribución de los valores
posibles de los atributos. Recién después podemos ver la performance del
algoritmo correspondiente.
Técnicas de Visualización: estas son buenas para ubicar patrones en un conjunto
de datos y puede ser usado al comienzo de un proceso de data mining para tomar
un feeling de la calidad del conjunto de datos.
Árbol de Decisión: son estructuras
en forma de árbol que representan conjuntos de decisiones. Estas decisiones
generan reglas para la clasificación de un conjunto de datos. Para poder predecir el comportamiento de un cliente
es necesario poder contar con una clasificación previa esto implica una
predicción de que un cliente pertenece a cierto grupo de clientes. La
complejidad es de n (Log n).
Métodos
específicos de árboles de decisión incluyen:
-
CART Árboles de clasificación y regresión: técnica usada para la clasificación
de un conjunto da datos. Provee un conjunto de reglas que se pueden
aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles
registros darán un cierto resultado. Segmenta un conjunto de datos creando 2
divisiones. Requiere menos preparación de datos que CHAID.
- CHAID Detección de interacción automática de Chi
cuadrado: técnica similar a la anterior, pero segmenta un
conjunto de datos utilizando tests de chi cuadrado para crear múltiples
divisiones.
Reglas de Asociación: establece asociaciones en base a los perfiles de los
clientes sobre los cuales se está realizando el data mining. Las reglas de
Asociación están siempre definidas sobre atributos binarios. No es muy
complicado generar reglas en grandes bases de datos. El problema es que tal
algoritmo eventualmente puede dar información que no es relevante. Data Mining
envuelve modelos para determinar patterns a partir de los datos observados. Los
modelos juegan un rol de conocimiento inferido. Diciendo cuando el conocimiento
representa conocimiento útil o no, esto es parte del proceso de extracción de
conocimiento en bases de datos (Knowledge Discovery in Databases-KDD).
Algoritmos Genéticos: son técnicas
de optimización que usan procesos tales como combinaciones genéticas,
mutaciones y selección natural en un diseño basado en los conceptos de evolución.
Redes
Bayesianas: buscan determinar relaciones causales que expliquen un fenómeno en base
a los datos contenidos en una base de datos. Se han usado principalmente
para realizar predicción.
Procesamiento Analítico en Línea
(OLAP): estas
herramientas ofrecen un mayor poder para revisar, graficar y visualizar
información multidimensional, en características temporales, espaciales o
propias. Se valen de lenguajes menos restringidos y estructurados como lo es
SQL. Requieren todavía de una alta participación de un usuario humano, pues
son interactivas y requieren la guía del experto.
Redes neuronales artificiales: son modelos predecibles, no lineales que aprenden a
través del entrenamiento y semejan la estructura de una red neuronal biológica.
Método del vecino más cercano: una técnica que clasifica cada registro en un
conjunto de datos basado en una combinación de las clases de k
registro/s más similar/es a él en un conjunto de datos históricos.
Algunas veces se llama la técnica del vecino k-más
cercano.
Regla de inducción: la extracción de reglas if-then de datos basados
en significado estadístico.
La
técnica usada para realizar estas hazañas en Data Mining se llama Modelado:
es simplemente el acto de construir un modelo en una situación donde usted
conoce la respuesta y luego la aplica en otra situación de la cual desconoce la
respuesta.
La
minería de datos, es un proceso que invierte la dinámica del método científico,
dado que se generan hipótesis a partir de los datos colectados.
Las
técnicas de Minería de datos combinan la tecnología de bases de datos y
“data warehousing”, con técnicas de aprendizaje automático y de estadística.
La
estadística es una herramienta poderosa, y es un elemento crucial en el análisis
de datos. Sin embargo, a veces enfrentamos problemas muy serios en la
interpretación de sus resultados, dado que no recordamos que estos resultados
se aplican a grupos y no a individuos. Estos peligros se ven amplificados en el
uso de software de Minería de Datos.
La
Minería de Datos es una herramienta explorativa y no explicativa. Es decir,
explora los datos para sugerir hipótesis. Es incorrecto aceptar dichas hipótesis
como explicaciones o relaciones causa-efecto. Es necesario coleccionar nuevos
datos y validar las hipótesis generadas ante los nuevos datos, y después
descartar aquellas que no son confirmadas por los nuevos datos.
La
Minería de Datos no puede ser experimental. En muchas circunstancias, no es
posible reproducir las condiciones que generaron los datos (especialmente si son
datos del pasado, y una variable es el tiempo).
Las
Bases de Datos proporcionan la infraestructura necesaria para almacenar,
recuperar y manipular datos. La construcción y mantenimiento de una Bodega de
Datos (Data Warehouse), a pesar de que esta es una Base de Datos, su modo de
operar es muy distinto, para soportar transacciones y la actividad de negocio en
línea, además hace viable la revisión y el análisis de su información para
el apoyo a las decisiones ejecutivas. Típicamente,
el Data Warehouse almacena y resume información sobre transacciones cotidianas
a lo largo del tiempo. Puede que contenga información que ya no es posible
reproducir del sistema para la operación cotidiana, es información arcaica
pero útil por su crónica histórica del funcionar. Las consultas a la bodega
no son tan sistemáticas como las transacciones y usualmente demandan más
recursos de cómputo. Resulta incluso conveniente separar los equipos y sistemas
de la operación cotidiana de transacciones en línea de la Bodega de Datos.
Algoritmos de Minería de Datos
Se
clasifican en dos grandes categorías: supervisados
o predictivos y no supervisados
o de descubrimiento del conocimiento [Weiss y Indurkhya, 1998]. Los
algoritmos supervisados o predictivos predicen el valor de un atributo
(etiqueta) de un conjunto de datos, conocidos otros atributos (atributos
descriptivos). A partir de datos cuya etiqueta se conoce se induce una relación
entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven para
realizar la predicción en datos cuya etiqueta es desconocida. Esta forma de
trabajar se conoce como aprendizaje supervisado y se desarrolla en dos fases: Entrenamiento (construcción de un
modelo usando un subconjunto de datos con etiqueta
que los
productos a comercializar son, en la actualidad, significativamente costosos, y
los consumidores pueden hallar una relación costo/beneficio improductiva.
que se requiera
de mucha experiencia para utilizar herramientas de la tecnología, o que sea muy
fácil hallar patrones equívocos, triviales o no interesantes.
que exista una
reacción del público por el uso indiscriminado de datos personales para
ejercicios de Minería de Datos.
también es muy
posible que se deseen hacer inferencias y análisis de datos sobre un periodo
determinado, pero que durante dicho periodo no se haya registrado el mismo número
de variables, o que éstas no tengan la misma precisión, o carezcan de la misma
interpretación.
Etapas principales del proceso de data mining
1. Determinación de
los objetivos: delimitar los objetivos que el cliente desea bajo la
orientación del especialista en data mining.
2. Preprocesamiento
de los datos: se refiere a
la selección, la limpieza, el enriquecimiento, la reducción y la transformación
de las bases de datos. Esta etapa consume generalmente alrededor del setenta por
ciento del tiempo total de un proyecto de data mining.
3. Determinación
del modelo: se comienza
realizando un análisis estadístico de los datos, y después se lleva a cabo
una visualización gráfica de los mismos para tener una primera aproximación.
Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden
utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia
Artificial.
4. Análisis de los resultados: verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por el análisis estadístico y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
Respecto
a los modelos inteligentes, se ha comprobado que en ellos se utilizan
principalmente árboles y reglas de decisión, reglas de asociación, redes
neuronales, redes Bayesianas, conjuntos aproximados (rough sets), algoritmos de
agrupación (clustering), máquinas de soporte vectorial, algoritmos genéticos
y lógica difusa.
Web
mining:
consiste en
aplicar las técnicas de minería de datos a documentos y servicios del Web
(Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas
digitales (direcciones de IP, navegador, etc.) que los servidores automáticamente
almacenan en una bitácora de accesos (Log). Las herramientas de Web mining
analizan y procesan estos logs para producir información significativa. Debido
a que los contenidos de Internet consisten en varios tipos de datos, como texto,
imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término
multimedia data mining (minería de datos multimedia) como una instancia del Web
mining (Zaiane y otros, 1998) para tratar ese tipo de datos. Los accesos totales
por dominio, horarios de accesos más frecuentes y visitas por día, entre otros
datos, son registrados por herramientas estadísticas que complementan todo el
proceso de análisis del Web mining.
Text
mining:
dado
que el ochenta por ciento de la información de una compañía está almacenada
en forma de documentos, las técnicas como la categorización de texto, el
procesamiento de lenguaje natural, la extracción y recuperación de la
información o el aprendizaje automático, entre otras, apoyan al text mining
(minería de texto). En ocasiones se confunde el text mining con la recuperación
de la información (Information Retrieval o IR) (Hearst, 1999). Esta última
consiste en la recuperación automática de documentos relevantes mediante
indexaciones de textos, clasificación, categorización, etc. Generalmente se
utilizan palabras clave para encontrar una página relevante. En cambio, el text
mining se refiere a examinar una colección de documentos y descubrir información
no contenida en ningún documento individual de la colección; en otras
palabras, trata de obtener información sin haber partido de algo (Nasukawa y
otros, 2001).
Si
bien el data mining se presenta como una tecnología emergente, posee ciertas
ventajas, como ser:
resulta un buen
punto de encuentro entre los investigadores y las personas de negocios.
ahorra grandes
cantidades de dinero a una empresa y abre nuevas oportunidades de negocios.
trabajar con
esta tecnología implica cuidar un sin número de detalles debido a que el
producto final involucra "toma de decisiones".
contribuye a la
toma de decisiones tácticas y estratégicas proporcionando un sentido
automatizado para identificar información clave desde volúmenes de datos
generados por procesos tradicionales y de e-Business.
permite a los
usuarios dar prioridad a decisiones y acciones mostrando factores que tienen un
mayor en un objetivo, qué segmentos de clientes son desechables y qué unidades
de negocio son sobrepasados y por qué.
proporciona
poderes de decisión a los usuarios del negocio que mejor entienden el problema
y el entorno y es capaz de medir la acciones y los resultados de la mejor forma.
genera Modelos
descriptivos: en un contexto de objetivos definidos en los negocios permite a
empresas, sin tener en cuenta la industria o el tamaño, explorar automáticamente,
visualizar y comprender los datos e identificar patrones, relaciones y
dependencias que impactan en los resultados finales de la cuenta de resultados
(tales como el aumento de los ingresos, incremento de los beneficios, contención
de costes y gestión de riesgos).
genera Modelos
predictivos: permite que relaciones no descubiertas e identificadas a través
del proceso del Data Mining sean expresadas como reglas de negocio o modelos
predictivos. Estos outputs pueden comunicarse en formatos tradicionales
(presentaciones, informes, información electrónica compartida, embebidos en
aplicaciones, etc.) para guiar la estrategia y planificación de la empresa.
El desarrollo de la tecnología de Minería de Datos
está en un momento crítico. Existe una serie de elementos que la hacen
operable, sin embargo, existen algunos factores que pueden crear un descrédito
a la Minería de Datos, como ser:
que los
productos a comercializar son, en la actualidad, significativamente costosos, y
los consumidores pueden hallar una relación costo/beneficio improductiva
que se requiera
de mucha experiencia para utilizar herramientas de la tecnología, o que sea muy
fácil hallar patrones equívocos, triviales o no interesantes,
que no sea
posible resolver los aspectos técnicos de hallar patrones en tiempo o en
espacio,
además, hoy en día, las corporaciones
comercializan con millones de perfiles personales, sin que aquellos a que se
refieren los datos intercambiados, estén en posibilidad de intervenir,
entonces, se llega a pensar que presenta un peligro o riesgo para la privacidad
de los clientes.
![]()
Número de visitantes actuales disponible desde el 14/07/2002:
![]()
Autor: lrmdavid@exa.unne.edu.ar
Ó FACENA - http://exa.unne.edu.ar
Servicios WEB: webmaster@exa.unne.edu.ar