商业智能(BI)数据分析、挖掘概念
商业智能(BI)数据分析和采矿概念1。商业智能(BI)数据分析和采矿概念
目前,各个企业和机构之间正在蓬勃发展数据挖掘。因此,我们在该领域中摘要了共同术语。
1。分析客户关系管理(分析CRM/ACRM
用于支持决策,提高公司互动的价值或增加交互作用的价值。为了了解客户以及如何与客户联系的知识,请收集,分析和应用。
2。大数据(大数据)
大数据不仅是被滥用的流行语,而且是当今社会的真正趋势。 **该术语是指替换量的增加。这些数据被捕获,处理,收集,存储和分析。 ** Wikipedia描述了这样的“大数据”:“数据集的总和是如此庞大且复杂,因此现有的数据库管理工具很难处理(...)。”
3。商业智能
分析数据和显示信息,以帮助企业应用程序,设施,工具和业务决策过程的执行,管理和其他人员。
4。流失分析/损耗分析
描述哪些客户可能会停止使用公司的产品/业务,而丢失客户识别将带来最大的损失。损失分析的结果用于为可能丢失的客户准备新的折扣。
5。联合分析/权衡分析
根据消费者的实际使用,比较同一产品/服务的几种不同变体。在列出了产品线管理和定价等活动后,它可以预测产品/服务的接受。
6。信用评分
评估实体(公司或个人)的信用价值。银行(借款人)判断借款人是否会偿还。
7.支持销售 / UP自我(交叉 / UP销售)
营销概念。根据特定消费者和过去行为的特征,向他们出售补充产品(支持销售)或其他产品(价值销售)。
8。客户段和肖像(客户细分和分析)
根据现有的客户数据,将类似客户的客户分类以进行分类。描述和比较。
9。数据集市(数据集团)
由特定机构(例如销售,金融和营销数据)存储的数据。
10。数据仓库
数据的中心内存是从一个企业中的多个业务系统的数据中收集并存储的。
11。数据质量
确保数据可靠性和实用价值的过程和技术。高质量数据应忠实地反映其背后的交易过程,并可以满足在运营,决策和计划中的预期用途。
12。排泄转换 - 加载ETL(提取到转换载荷)
数据存储中的一个过程。从源获取数据,根据下一次使用的需求更改数据,然后将数据放在正确的目标数据库上。
13。欺诈检测
确定针对特定组织或公司的可疑欺诈,订购,订购和其他非法活动。 IT系统中的设计触发警报将被警告或进行此类活动。
14
当今大数据领域的另一个受欢迎。 Apache Hadoop是一个开源软件架构,用于分布式存储和处理由现有商业硬件组成的计算机群集上的大量数据集。它使大型数据存储和更快的数据处理成为可能。
15。物联网(物联网)
广泛分布的网络由多种类型(个人,家庭,行业)和许多用途(医疗,休闲爱游戏app入口官网首页,媒体,购物爱游戏ayx官网登录入口,制造和环境监管)组成。这些设备通过Internet交换数据,并彼此协调活动。
16。客户生命周期价值(终身价值,LTV)
他/她一生中的客户有望从公司中获得利润。
17。机器学习
学科的研究会自动从数据中学习,以便计算机可以根据收到的反馈来调整自己的操作。它与人工智能,数据挖掘和统计方法密切相关。
18。购物篮分析(市场篮分析)
确定通常在交易中同时出现的产品组合或服务组合,例如通常一起购买的产品。这种类型的分析结果用于推荐其他商品,并为制定展示产品的决策提供了基础。
19。过度分析处理(OLAP)
允许用户轻松制作和浏览报告的工具。这些报告总结了相关数据并从多个角度进行分析。
20。预测分析
从现有数据集中提取信息,以识别模型并预测未来的收益和趋势。在业务领域,预测模型和分析用于分析当前的数据和历史事实,以更好地了解消费者,产品,合作伙伴,并确定公司的机会和风险。
21。实时决策(RTD)
帮助公司做出真正的时间(几乎没有延迟)最佳销售/营销决策。例如,当客户与公司互动时,实际 - 时间决策系统(评分系统)可以通过各种业务规则或模型对客户进行评分和排名。
22。保留 /客户保留
是指建立后很长一段时间内可以维持的客户关系百分比。
23。社交网络分析(SNA)
绘制并测量人,团体和团体,机构和机构,计算机和计算机,URL和URL以及其他类型的信息/知识实体之间的关系和流动。这些人或组是网络中的节点,它们之间的连接代表关系或流动。 SNA提供了一种分析数学和视觉的人际关系的方法。
24。生存分析
估计客户在下一个期间继续使用特定业务或损失的可能性。这些信息允许公司在公司的预测期间保留客户,并引入合适的忠诚政策。
25。文字挖掘
分析包含自然语言的数据。从统计上计算源数据中的单词和短语,以使用数学术语表达文本结构,然后使用传统的数据挖掘技术来分析文本结构。
26。非结构性数据
数据要么缺少预先定义的数据模型,要么是根据事先定义的规范进行组织的。该术语通常是指无法放置在传统列数据库中的信息,例如电子邮件信息和评论。
27。网络挖掘 /网络数据挖掘(Web挖掘 / Web数据挖掘)
使用数据挖掘技术自动从Internet网站,文档或服务中发现和提取信息。
2。数据库和数据仓库之间的差异
数据库和数据仓库之间的差异实际上是OLTP和OLAP之间的差异。
操作型处理称为在线交易处理OLTP(在线交易处理),也可以称为面向交易的处理系统。这是数据库连接中特定业务的日常操作,通常是对少数族裔记录的查询和修改。用户更关心操作的响应时间,数据安全性,完整性和支持支持的用户数量。传统数据库系统是数据管理的主要方法,主要用于操作处理。
分析处理,称为OLAP的链接分析和处理(在线分析处理)通常分析某些主题的历史数据,并支持管理决策。
首先,有必要了解数据仓库的出现不是要替换数据库。
以银行业务为例。数据库是事务系统的数据平台。银行中客户进行的每笔交易都将写入数据库中。它被记录。在这里,您可以简单地将其理解为数据库。数据仓库是分析系统的数据平台。它从事务系统中获取数据,并进行了总结和处理,以为决策者提供决策的基础。例如,一个月内某个分支机构发生了多少交易,该分支机构的当前存款余额是多少。如果有更多的存款和更多的消费交易,则需要该区域来设置ATM。
显然,银行的交易量很大,通常由数百万次甚至数百万次计算。交易系统是真实的 - 需要时间效应。客户可以节省一笔钱是无法忍受的。这要求数据库只能存储短时间的数据。后来,分析系统必须在时间段内提供所有有效数据。这些数据是巨大的,摘要的计算也较慢,但是只要它可以提供有效的分析数据,就可以实现目的。
生产数据仓库是为了进一步利用数据资源并在大量数据库中制定决策需求。它绝不是这样的“大数据库”。
相关概念
2.1数据仓库DW
数据仓库:DW完整的英语数据仓库,它是一个主题,集成,相对稳定,相对稳定,历史数据收集,用于支持管理决策。
2.2多维数据收集
多维数据集:多维数据集是在线分析和处理(OLAP)的主要对象。这是一项可以快速访问数据仓库中数据的技术。多维数据集是一个数据集,通常来自数据仓库结构的子集,并组织和总结由一组维度和测量值定义的多维结构。
2.3维度
维度:多维数据集的结构特征。它们是事实数据表中用于描述数据的组织层次结构(级别)。这些分类和级别描述了一些类似的成员组。用户将基于这些成员集。分析。
2.3计量值
计量值:在多维数据集中,测量值是一组值。这些值基于多维数据集的事实数据表中的一列,通常是数字。另外,测量值是分析的多维数据集的核心值。
2.3事实表
事实表:它是指保留大量业务测量数据的表。事实表中的测量值通常称为事实
有关其他相关概念,请参见博客中的引言,请参阅基于蒙德里安的多维分析系统
2.4 ETL:提取,转换,加载
ETL:提取,转换,加载
ETL工作的本质是从各种数据源,数据转换中提取数据,最后将填充数据加载到数据仓库尺寸建模之后。只有在填充这些维度/事实表时,ETL工作才能完成。接下来,通过提取,转换和加载来解释这三个链接:
1。绘制(提取)
分析数据仓库,并应用操作数据库。显然,并非所有用于支持业务系统的数据都是必要的。因此,此阶段主要基于数据仓库的主题以及需要从应用程序数据库中提取的主题域。
在特定的开发过程中,开发人员经常发现某些ETL步骤与数据仓库建模后的表描述不一致。目前,您必须重新检查并设计需求并重新启动。如本数据库系列中所述,任何涉及需求的更改都需要启动和更新需求文档。
2。变换(变换)
转换步骤主要是指转换结构化数据以满足目标数据仓库模型的过程的过程。此外,转换过程还负责数据质量工作。该部分也称为数据清洁。
3。负载(负载)
将提取加载过程。转换后,将数据的数据质量加载到目标数据仓库。加载可以分为两种类型的L:首先加载(首次加载)和刷新负载。其中,第一个加载将涉及大量数据,而刷新的负载是微批量加载。
现在,随着各种分布式和云计算工具的兴起,ETL实际上已经成为ELT。也就是说,业务系统本身不会进行转换工作,而是在简单清洁后将数据引入分布式平台,以便平台均匀地进行清洁和转换。这可以充分利用平台的分布式特征,同时使业务系统更多地关注业务本身。
OLAP/BI工具
数据仓库完成后,用户可以编写SQL语句以访问并分析数据。但是,如果您每次编写SQL语句,这太麻烦了爱游体育app下载官网,并且分析维度模型数据的SQL代码例程相对固定。结果,有一个OLAP工具,该工具专门用于分析尺寸建模数据的维度。 BI工具可以在图表中显示OLAP结果,并且通常与OLAP一起出现。 (注意:本文中提到的OLAP工具涉及两者。)
OLAP工具与标准化数据仓库中的数据仓库之间的关系大致相同:
在这种情况下,OLAP不允许访问中心数据库。一方面,中心数据库由标准化建模进行标准化,而OLAP仅支持对尺寸建模数据的分析。另一方面,标准化数据仓库本身的中央数据库不允许上层开发人员访问。在维度建模数据仓库中,OLAP/BI工具与数据仓库之间的关系是:
2.3查询情况
#Sample 1 维度表查询:
SELECT TOP (10) [DateKey] '日期Key'
,[FullDateAlternateKey] '日期代理key'
,[DayNumberOfWeek] '周所在日'
,[EnglishDayNameOfWeek] '所在周'
,[DayNumberOfMonth] '月所在日'
,[DayNumberOfYear] '年所在日'
,[WeekNumberOfYear] '年所在周'
,[EnglishMonthName] '英文月名'
,[MonthNumberOfYear] '年所在月'
,[CalendarQuarter] '所在季度'
,[CalendarYear] '日历年'
,[FiscalQuarter] '财季度'
,[FiscalYear] '财年'
FROM [AdventureWorksDW2019].[dbo].[DimDate]
ORDER BY DateKey DESC
#Sample 2 事实表查询
# 查看2013财年网上销售的产品名、汇率名、订单日期、用户信息、销售额、总产品成本、打折量等。
SELECT TOP 10、 B.EnglishProductName,C.CurrencyName CurrencyName,
D.FrenchPromotionName FrenchPromotionName,E.FirstName,E.LastName,
A.Salesamount,A.TaxAmt,A.TotalProductCost,A.DiscountAmount
FROM FactInternetSales A
JOIN DimProduct B
ON A.ProductKey = B.ProductKey
JOIN DimCurrency C
ON A.CurrencyKey = C.CurrencyKey
JOIN DimPromotion D
ON A.PromotionKey = D.PromotionKey
JOIN DimCustomer E
ON A.CustomerKey = E.CustomerKey
JOIN DimDate F
ON A.OrderDateKey =F.DateKey
WHERE F.FiscalYear=2013
—————————————————————————————
0个术语和约束
提取转化加载是该过程
该文档的描述是根据ETL→DW→Cube→表示文档的描述
2.5 ETL相关2.5.1维度表1。时间维度
注意:此维度记录每日时间,最高粒径准确到一天,并且粒径分为一周,月,一年,
对应表:tbl_dimdate
相应的过程:pro_supportdw_dimdate
是公开的吗:是的
注意:此维度可以构建层次结构(图层),请参见下图:
2。设备尺寸
注意:此维度记录的设备信息。它可以分为粒度,例如品牌,模型等。
相应表:tbl_dimdevice
相应的过程:pro_supportdw_dimdevice
是公开的吗:否
注意:此维度可以构建层次结构(图层),请参见下图:
3。区域维度
注意:此维度记录的区域信息。它可以分为国家,省和地区的粒度。
相应表:TBL_DIMGEOGRAPHY
相应的过程:无,如有必要,手动添加区域数据
是公开的吗:否
注意:此维度没有层次结构(图层),请参见下图:
4。分辨率维度
注意:此维度记录了分辨率信息。
对应表:tbl_dimresolution
相应的过程:pro_supportdw_dimresolution
是公开的吗:否
注意:此维度没有层次结构(图层),仅级别(级别)
5。操作系统维度
注意:此维度记录的操作系统信息。
对应表:tbl_dimos
相应的过程:pro_supportdw_dimos
是公开的吗:否
注意:此维度没有层次结构(图层),仅级别(级别)
6。网络类型维度
注意:此维度记录网络类型的信息。
对应表:tbl_dimnetworktype
相应的过程:无,手动维护数据
是公开的吗:否
注意:此维度没有层次结构(图层),仅级别(级别)
7。操作员尺寸
注意:此维度记录了操作员类型的信息。
对应表:tbl_dimoperator
相应的过程:无,手动维护数据
是公开的吗:否
注意:此维度没有层次结构(图层),仅级别(级别)
8。系统维度
注意:记录系统(类似于项目市场[市场],桌面[LAU])信息的信息。
对应表:TBL_DIMSYSTEM
相应的过程:无,手动维护数据
是公开的吗:是的
注意:此维度没有层次结构(图层),仅级别(级别)
9。包装尺寸
注意:此维度记录了软件包的信息。
对应表:tbl_cms_apk_package_ref
相应的过程:无,手动维护数据,从tbl_cms_apk_package派生
是公开的吗:是的
注意:此维度没有层次结构(图层),仅级别(级别)
10。制造商维度
注意:此维度记录了制造商的信息。
对应表:tbl_user
相应的过程:无
是公开的吗:是的
注意:此维度没有层次结构(图层),仅级别(级别)
11。系统版本维度
注意:此维度记录系统的版本信息。
对应表:tbl_dimappversion
相应过程:pro_supportdw_dimappversion
是公开的吗:是的
注意:此维度没有层次结构(图层),仅级别(级别)
12。广告资源维度
注意:此维度记录了资源或广告的信息。
通讯表:tbl_dimresource
相应的过程:无,手动维护数据,源自TBL_Resource(需要进行数据同步)
是公开的吗:不,广告资源模型是唯一的
注意:此维度没有层次结构(图层),仅级别(级别)
13。广告资源部
注意:此维度记录资源或广告的信息。
对应表:tbl_dimadres_type
相应的过程:无,手动维护数据
是公开的吗:不,广告资源模型是唯一的
注意:此维度没有层次结构(图层),仅级别(级别)
14.广告资源新的和旧的区别维度
注意:此维度记录资源或广告的信息。
相应表:tbl_dimnewold
相应的过程:无,手动维护数据
是公开的吗:不,广告资源模型是唯一的
注意:此维度没有层次结构(图层),仅级别(级别)
15。系统类型维度
注意:此维度记录系统子类型的信息(类型类型为Uubao类型)
相应表:tbl_dimsystemtype
相应的过程:无,手动维护数据
是公开的吗:不,广告资源模型是唯一的
注意:此维度没有层次结构(图层),仅级别(级别)
16。系统源维度
注意:此维度记录了系统源类型的信息(类似于广告资源,人为编辑)信息
通讯表:TBL_DIMRESOURCETYPE
相应的过程:无,手动维护数据
是公开的吗:不,广告资源模型是唯一的
注意:此维度没有层次结构(图层),仅级别(级别)
2.5.2事实表和测量(merture)
1.2.1市场f事实和措施(merture)
1.2.1.1市场事实表
tbl_factmarket此表是市场事实表。该指标包含新的独立用户,启动时间,保留等。尺寸对IMEI准确
tbl_factmarket_fin此表是准确的apk_id的尺寸
1.2.1.2市场度量(量度)
新:新用户统计数据的市场数量
独立性:市场独立用户数量统计
开始:市场启动统计
市场用户每天都保留,这是毕业后
市场用户在7天后保留,这是后期的
市场用户在15天后保留,这是后期的
市场用户每21天保留每21天。这是后期
市场用户每30天保留每30天
每周保留率
每月保留率
1.2.2广告资源事实表和度量(量度)
1.2.2.1广告资源事实表
tbl_factadres此表是广告资源的事实表。指标包括接收,阅读,下载,下载,安装等。尺寸适合IMEI
TBL_FACTADRES_FIN此表是广告资源的事实表。指标包含,读取,单击,下载,下载,安装等。
1.2.2.2广告资源度量(Merture)
接收:接收广告资源的统计数据