本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

网络数据挖掘_数据挖掘资深专业人士分享_资深数据分析师

数据挖掘 cdadata 3651℃

网络数据挖掘_数据挖掘资深专业人士分享

关键词:资深数据分析师,数据挖掘,数据挖掘算法,数据挖掘概念与技术

文章来自一石油挖掘资深专业人士

【这篇专业性较强,可能比较无聊,但我本来就是专业人士,而且很无聊,算是文如其人吧。。。】

 

互联网的出现,不仅改变了人们获得信息的生活方式,也造就了很多以前从来没有过的专业或行业。网络数据挖掘(web data mining)这个专业就是其中之一。 

网络上的数据每天都在爆炸式地增长,其中肯定有不少有价值的信息,只不过被掩埋在数量上占压倒多数的八卦和”垃圾“里面而已。即使有百度、谷歌等这些强大的搜索引擎,它们仍然不能满足每个用户个性化的需求。比如,有的用户可能有类似如下的想法或需求:

  1. 自动搜索网上卖的最便宜的机票;
  2. 在专业论坛中,自动搜索用户公示过的电话号码和QQ号码。
  3. 自动搜集所有股票在当天和过去任何一天里的交易情况,并根据自己的算法做分析预测。
  4. 自动统计顾客对公司的某个新产品的看法,并与竞争对手的数据比较。
  5. 搜索所有紧急避难地点的位置,并在地图上标示。(这个国内没法实现)
  6. 统计网页访问者的点击习惯,并因此优化网页设计。
  7. 自动检测全球范围内,某个传染病在网上不同时间和地点被关注的程度及其变化。
  8. 从网上所有能找到的产品条形码中,读取其代码,并找到你关心的产品。
  9. 。。。。。。【展开你的想象力吧。只有你想不到的,没有网路里没有的!】

 

以上问题都涉及到网络数据挖掘,都不是简单地用百度或谷歌能解决的。相关的数据大多以段落文字或图表的方式,散布在浩瀚的网络之中。这些数据的共同特点是:(1)海量;(2)有可能经常更新;(3)位置不定;(2)无固定格式;(4)词语的含义模糊;(3)信噪比不高。因此使用的技术也和传统数据挖掘也很不一样。 

网络数据挖掘可以比较容易(比如以上第3,第6条),但有的则非常高深(比如第4条,涉及”情绪”挖掘,英文叫sentiment mining,难度很大)。而且不是所有的问题通过数据挖掘就一定可以得到满意的结果。有了一个构想后,往往需要很多次的实验,才可能知道会不会有效。但总的来说,和潜在的收获相比,需要付出的代价是很小的。大部分问题,只需用很简单的技术就可以完成。假如一旦有所发现,特别是一旦实现流程的自动化,并把挖掘出来的网络数据与其它信息相结合,就有可能产生极大的商业,学术或社会价值。

【以酸奶/益生菌为例】 

打个比方:假如某人想投资做“益生菌”(就是酸奶和某些保健品中含的有益菌种)的买卖,他需要了解全国和本地的市场,也需要了解供货商和客户的信息。当然他一定会通过一些传统的途径,包括通过产业协会,竞争对手,广告宣传,亲戚朋友甚至实地考察等多方面获得这些信息。他也知道网上也有很多相关信息,可是网上信息太多太乱,也就是说他不知道怎么利用网上的信息。这时候,网络数据挖掘就有可能助他一臂之力了。【注:我只是用这个例子来说明数据挖掘的手段而已,并不懂益生菌,也不知它是否真的对身体有用】。

【使用网上免费工具】 

首先,他可以通过网上的一些免费工具,了解该行业的某些趋势。比如下图是通过谷歌网站(Google Insights)统计出的自2004年以来,网民们在谷歌上搜索中文关键词”益生菌“频率的趋势,它从某种程度上反映了益生菌在中国消费者中的关注程度。统计显示,内地网民对益生菌的关注程度一直在快速、稳步上升之中,最热衷的地区是华东(上海)地区。但同时,内地的总体关注程度仍然只有台湾的1/4(除非我理解错误—那是有可能的!)。综合这些资料和其它传统途径,他也许会推断内地的益生菌产业还有很大的发展空间,值得投资。另外他还会发现,网上人们查询较多的益生菌产品有“益生元”和“合生元”,另外两种分别叫“妈咪爱”和“汉臣氏”的益生菌饮料也似乎越来越红了,如此等等。。。

网络数据挖掘_数据挖掘资深专业人士分享_资深数据分析师

(同样你也可用在Google Insights网站中,打入”股市“,”房价“之类的关键词,看它是不是真的反映公众对股市和房市的热衷程度;也可打入“汶川地震”,或时髦词如 “纠结”,“神马”,“浮云”,”给力“等,看看这些词语是怎样在时间和空间里演绎的!蛮准的哦!)

【简单的数据挖掘软件
了解了行业趋势以后,他也许想联系一些可能的顾客或供应商。一个简单的办法,就是收集相关网页中出现的手机或座机号码。只要要求不是很高,这可能是网络数据挖掘中最容易做的事情了,整个问题可以用几行代码就可以解决,如下面这个PHP程序所示:(它所做的就是在谷歌,当然也可以是百度,搜索结果的前20页中,挖掘疑似的电话号码。对编程不感兴趣的人,大可跳过。。。我只是想说明一个很小的软件,就可做挖掘出很多东西。。。) 

  

  $query=”益生菌+电话”; // 关键词组合

  $pages=20;          // 只在前20页中挖掘

  $url = “http://www.google.com/search?q=$query”; //首页网址

  for ($page=0; $page < $pages; $page++) {       //逐页挖掘

    preg_match_all(          //手机和座机电话号码表达式如下(未必全面):

      ‘/13\d[-\s]?\d{4}[-\s]?\d{4}|0\d{2,3}[-\s]?\d{3,4}[-\s]?\d{4}/’,

      file_get_contents(“$url&start=”.$page*10), //本页内容

      $phones);             //挖掘结果:即本页中的疑似电话号码

    var_dump($phones);       //打印结果或做后处理

  }

  有了这个简单的程序,电脑就可以在数秒钟内,自动挖掘出出现在200个相关网页里的共180多个疑似的座机和手机号码。(如果再逐个打开那200个网页的话,还可以继续深入获得更多的疑似号码。)

  这样的程序,可以通过多种语言来完成,比如PHP, Java, Perl, JavaScript, Python, Flash/ActionScript等等,任何一个具有初中文化程度(因为连高中数理化都用不上),真正会写软件的人都应该写得出来。同样的方法可以用来挖掘QQ号码,身份证号码,等等。。。

  【更专业的数据挖掘】

以上这些简单的办法,估计可以解决80%的数据挖掘问题(至于怎么利用被挖掘出来的数据,那又是另外一个课题了,在此不谈)。其它20%的高难问题,比如怎样判断百度上查到的网页,确实是与益生菌有关;挖掘到的电话号码,到底是供销商的号码,还是顾客的号码(属“主题挖掘”topics mining),顾客对某产品的评价是正面的还是负面的(“情绪分类”sentiment mining),是主观的还是客观的(subjectivity mining),等等,这些技术就得用到高等数学,统计学,语言处理学(Natural Language Processing)甚至人工智能(AI)方面的技术了。我虽然都有所了解,但毕竟本行是挖石油的(估计仅仅比“挖煤”好听一点),我就不在这里班门弄斧,充当挖数据的高手了!!! 

【后记】

1:反向思维:既然挖油的也能挖数据,说不定聪明的你也可以在网络里挖到宝贝哦。。。

2:数据挖掘是个时髦词,但不要轻易被它忽悠。数据挖掘只是一种手段,一种为某种商业逻辑或科学逻辑服务的搜索和统计手段,使用的方法大多也没有多么高深的。因此对数据背后的商业和科学逻辑的充分理解,才是最关键的。

3:你问我:”我经常在淘宝网上”淘“宝,那我也是网络数据挖掘专家了吧?“。我的回答:”也是哦。祝贺你啊!只不过还是稍微有点区别的:一:你的挖掘不是自动化的;二:你的挖掘是要花钱的!”。

4:只要想象一下比如电讯业,互联网业,投资业,零售业,娱乐业,海关税务等部门行业每天要产生的海量数据,就不难想象数据挖掘的潜力有多大。

5:如果有年轻小伙子想学习和交流与网络数据挖掘(或石油挖掘)有关的技术和应用,欢迎与我联系。(在这两个专业里,我承认我是有严重的性别歧视的哦。)

转载请注明:数据分析 » 网络数据挖掘_数据挖掘资深专业人士分享_资深数据分析师

喜欢 (1)or分享 (0)