![]() |
|
Spaces home 淘宝数据仓库之路ProfileFriendsBlogMore ![]() | ![]() |
|
|
January 08 ETL实施方案探讨实施数据仓库,ETL都是最基础最重要的一个环节,ETL只是一个抽象的概念,抽取->转换->加载, 但随着数据仓库的普及和众多国际厂商的积极参与,ETL的市场的竞争也是日趋白热化。商业ETL工具 一直以来都是天价,看中的就是企业对核心数据集成的重视,也从另外一方面说明了ETL在数据仓库 实施中的重要性。当然廉价的ETL实施也是可以的,只要有足够强的开放团队,目前开源软件也不断出现 ETL的软件,不过没有太多的技术支持,比如Kettle。这里我们重点讨论商业ETL工具和自主开放实现两 套方案。 商业ETL工具有IBM的Datastage,小oracle之称的Informatica,oracle 的ODI。 三者都是重量级别的ETL工具。前两者从技术上确切来说应该是ETL实现,而oracle的ODI则是ELT,也就是利用oracle的RAC数据库进行转换这一步核心处理,前两者需要单独的转换处理的ETL服务器,ODI则不需要。 如果自主开放ETL系统,那么需要有一个ETL的构架师,能够用代码来实现元数据管理,任务调度和复杂的转换逻辑,清晰的数据层次等。 数据挖掘软件技术方案(综述)数据挖掘是在数据仓库之上的一个重要应用,在建立了拥有海量数据的数据仓库后,数据挖掘技术 能利用很多数学的算法来挖掘数据中蕴含的价值和规则,进行商业应用和决策支持。目前在国际上 流行的数据挖掘厂商和方案很多,实力和特色也各具特色,主要有:SAS EM,SPSS Clementine, Oracle ODM等。这些工具背后都是国际大厂商,SAS EM背靠SAS统计分析的鼻祖,从专业上来讲 不容置疑,Clementine从易用性来讲很容易上手,但在处理海量数据上稍逊一筹,ODM依托Oracle RAC的强大计算能力,在实施能力强悍的团队里面能发挥很好的威力,至于微软的sql server集成的 DM工具,由于微软工具的普及和人性化,基本上能快速完成一些中小规模的数据挖掘任务。 数据仓库基础平台(1)数据仓库基础平台包含范围非常广泛,这篇文章先讨论DB方面的平台架构。 国际主要厂商:Oracle,Teradata,DB2,Sql server,Mysql都推出了 数据仓库基础数据库版本。这些厂商坚守两大阵营,share nothing和share everything。 share nothing最显著代表有Teradata,DB2 .share everything典型是Oracle RAC。 从平台的开放和封闭来分的话,有封闭平台Teradata,有走开放平台的DB2,Oracle。 陆续有新生力量在加入这2大阵营。有主推即买即用封闭平台的,也有主推根据用户 需求量身定制开放平台的,孰优孰劣,这里不做评价。 这里提到的每中数据仓库基础平台都值得深入研究,都能发现有很大的优点,如果能综合 起来,相信未来的数据仓库基础平台会更加完善。当然典型厂商都在互相学习,把竞争对手 的优势融合到自己的产品中,这对最终用户的使用是很有利的,不过从纯技术上也就更难取舍。 数据仓库实施之路数据仓库实施之路是一条漫长而且充满挑战但是也充满乐趣的,需要对业务系统非常熟悉,
并对技术充分掌握,而且要平衡各个方面的需求,设计出一套能高度灵活的数据仓库架构,
适应商业的快速发展。 淘宝数据仓库之路2008年,随着互联网的持续升温,数据仓库技术在国内得到了快速的发展,如何把数据仓库的技术 和互联网行业很好的融合起来,推动数据仓库的技术发展,推动互联网模式的改变,希望这里能成为 国内众多行家里手交流的地方,大家一起努力! |
|
|