More servicesWindows Live
HomeHotmailSpacesOneCare
 
MSN
Sign in
 
 
Spaces home  淘宝数据仓库之路ProfileFriendsBlogMore Tools Explore the Spaces community

Blog

    January 08

    ETL实施方案探讨

    实施数据仓库,ETL都是最基础最重要的一个环节,ETL只是一个抽象的概念,抽取->转换->加载,

    但随着数据仓库的普及和众多国际厂商的积极参与,ETL的市场的竞争也是日趋白热化。商业ETL工具

    一直以来都是天价,看中的就是企业对核心数据集成的重视,也从另外一方面说明了ETL在数据仓库

    实施中的重要性。当然廉价的ETL实施也是可以的,只要有足够强的开放团队,目前开源软件也不断出现

    ETL的软件,不过没有太多的技术支持,比如Kettle。这里我们重点讨论商业ETL工具和自主开放实现两

    套方案。

    商业ETL工具有IBM的Datastage,小oracle之称的Informatica,oracle 的ODI。

    三者都是重量级别的ETL工具。前两者从技术上确切来说应该是ETL实现,而oracle的ODI则是ELT,也就是利用oracle的RAC数据库进行转换这一步核心处理,前两者需要单独的转换处理的ETL服务器,ODI则不需要。

    如果自主开放ETL系统,那么需要有一个ETL的构架师,能够用代码来实现元数据管理,任务调度和复杂的转换逻辑,清晰的数据层次等。

    数据挖掘软件技术方案(综述)

    数据挖掘是在数据仓库之上的一个重要应用,在建立了拥有海量数据的数据仓库后,数据挖掘技术

    能利用很多数学的算法来挖掘数据中蕴含的价值和规则,进行商业应用和决策支持。目前在国际上

    流行的数据挖掘厂商和方案很多,实力和特色也各具特色,主要有:SAS EM,SPSS Clementine,

    Oracle ODM等。这些工具背后都是国际大厂商,SAS EM背靠SAS统计分析的鼻祖,从专业上来讲

    不容置疑,Clementine从易用性来讲很容易上手,但在处理海量数据上稍逊一筹,ODM依托Oracle

    RAC的强大计算能力,在实施能力强悍的团队里面能发挥很好的威力,至于微软的sql server集成的

    DM工具,由于微软工具的普及和人性化,基本上能快速完成一些中小规模的数据挖掘任务。

    数据仓库基础平台(1)

    数据仓库基础平台包含范围非常广泛,这篇文章先讨论DB方面的平台架构。

    国际主要厂商:Oracle,Teradata,DB2,Sql server,Mysql都推出了

    数据仓库基础数据库版本。这些厂商坚守两大阵营,share nothing和share

    everything。

    share nothing最显著代表有Teradata,DB2 .share everything典型是Oracle

    RAC。

    从平台的开放和封闭来分的话,有封闭平台Teradata,有走开放平台的DB2,Oracle。

    陆续有新生力量在加入这2大阵营。有主推即买即用封闭平台的,也有主推根据用户

    需求量身定制开放平台的,孰优孰劣,这里不做评价。

    这里提到的每中数据仓库基础平台都值得深入研究,都能发现有很大的优点,如果能综合

    起来,相信未来的数据仓库基础平台会更加完善。当然典型厂商都在互相学习,把竞争对手

    的优势融合到自己的产品中,这对最终用户的使用是很有利的,不过从纯技术上也就更难取舍。

    数据仓库实施之路

    数据仓库实施之路是一条漫长而且充满挑战但是也充满乐趣的,需要对业务系统非常熟悉,
    并对技术充分掌握,而且要平衡各个方面的需求,设计出一套能高度灵活的数据仓库架构,
    适应商业的快速发展。

    淘宝数据仓库之路

    2008年,随着互联网的持续升温,数据仓库技术在国内得到了快速的发展,如何把数据仓库的技术
    和互联网行业很好的融合起来,推动数据仓库的技术发展,推动互联网模式的改变,希望这里能成为
    国内众多行家里手交流的地方,大家一起努力!