科技网

当前位置: 首页 >新闻

发掘数据价值发掘大数据双11前后都涨价售假多在大牌代工处

新闻
来源: 作者: 2019-05-17 14:25:26

1 : 发掘大数据:双11前后都涨价,售假多在大牌代工处

中国家庭金融调查与研究中心主任甘犁终年为中国画像,试图解决“中国不知道中国人有多穷,也不知道中国人有多富”的问题。中国家庭金融调查与研究中心是西南财经大学于2010年成立的集数据收集与数据研究于1身的公益性学术调研机构,包括中国家庭、小微企业和基层治理3大数据库。

从2009年起,甘犁对中国家庭进行金融抽样调查,发现中国家庭收入严重不均,收入最高的1成家庭具有近6成的人群总收入。这首次弥补了中国家庭资产调查领域的空白。

但当大数据时期突起后,“很多人来问我,甘教授,这样的做法是否是没有必要了”。

这是数据搜集最便利的时期:人们刷1张信誉卡,用手机下1单外卖,就向平台提交自己的所在地、年龄、性别、消费行动等信息。大数据的发掘者写1个爬虫程序,通过网络抓取,数据就滚滚涌来。

这也是传统调查受质疑的时期:相比之下,甘犁在做的事情太过昂贵——调查1家小微企业需投入1000多元,调查1个家庭600多元,他4万户家庭的数据库,意味着几千万元调查本钱的投入。在大数据的浪潮中,“他们觉得我有些老派”。

大数据带来了史无前例的机遇,清华大学通过网络抓取物价数据,已可以每天发布物价变动情况,而国家统计局的传统方法,只能在次月延迟发布上月的CPI。阿里巴巴也在改写自己电商公司的形象,致力于把自己定义为1家数据公司。

2016年,甘犁与阿里研究院合作,从阿里巴巴的大数据入手,去实地调查电子商务对农村经济的影响。他认为直到现在,中国也还没有勾画出清晰的自画像。大数据能够提供农村电商的信息,却不能说明电商正在怎样改变村落的生态,这正是传统抽样调查应当去寻觅“厚数据”的地方。

互联网CPI显示:双101前后都涨价

大数据已对传统的物价统计发起了挑战。

天猫双101证明了低价对消费的吸引力,1秒之间,有12万笔交易近乎同时产生。在阿里巴巴安全部总监连斌看来,双101前几分钟的交易量,足以构成1波对计算机系统的攻击。

这场降价在2016年双101的24小时内,促进了1207亿元的交易额,却难以在国家统计局的物价指数中有清晰刻画。根据国家统计局的传统统计和发布方法,每个月的物价指数变动,需要延迟到下1个月才能够发布,更不可能看到每天各项物价的涨落情况。

但大数据则可以细化到食品、服装、每项统计商品的逐日价格波动。3月12日,在浙江大学大数据与厚数据研讨会上,清华大学经济学研究所所长刘涛雄,用基于互联网的消费者物价指数(清数-iCPI),证明了双101前后的涨价现象。

清数-iCPI的价格曲线,在2016年双101的前1天,环比上升了0.58个百分点,而在双101过后的第2天,物价则大幅反弹了近1.62个百分点。而在变动的物价中,服装的价格变动最大,而食品和日用品的价格变动则相对较小。

大数据显示的物价变动证明,虽然商家在双101提供了大幅折扣,但在节前,商家的确上调了商品价格,在双101以后,商品价格也经历了大幅度的反弹。

清数-iCPI显示2016年双101前后物价上涨

清华大学经济学研究所依照国家统计局的统计方法,对相同的1篮子商品进行价格追踪,通过爬虫程序,抓取互联网商务平台上和价格信息平台上的商品价格信息,实现了在每天清晨发布前1天的物价变动指数。

刘涛雄认为从网络上抓取的逐日物价“打开微观世界,能够看到细胞”,清数-iCPI的周数据显示,春节1周的价格指数最高,涨价最明显。逐日数据显示,在雾霾严重的日子里,口罩和医疗器械等价格指数也灵敏随之变动。而这些都是传统物价指数不可能刻画的现象。

大数据不能显示:电子商务减缓留守之痛

甘犁认为,大数据终究有没有法提供的信息。

“大数据对1个人的画像,如果是手机的话,1般能够做到性别、你在哪里工作、你在哪里生活、大概的教育水准,像阿里巴巴这样,会有你的网购行动,像腾讯这样的,则会有你的朋友圈信息。”

甘犁告知澎湃新闻(www.thepaper.cn),在这些可以通过大数据取得的信息以外,很难获得家庭结构、工作情况、收入情况、资产情况,其他消费情况、金融状态等信息。而如果需要取得这些关键的信息,就需要以抽样调查去取得更深入的数据,而抽样数据的代表性,也是大数据所难以替换的。

2016年,甘犁与阿里研究院合作,对农村的电商发展进行调查。他首先通过阿里巴巴的数据,找到了有活跃电子商务活动的村落与村民。

他也在寻觅大数据中缺失的信息:“你有网上的数据,你只知道这个正在做电商家庭的情况,你却不会知道,这个家庭在淘宝上卖产品,会带动周围的产业链。”

甘犁通过抽样调查和线下数据的搜集,发现电子商务带动了当地的基础设施建设和物流发展。终究报告显示,网商排名前5%的地区,村民的交通满意度、义务教育满意度和医疗满意度,分别到达56.58%、69.10%和56.21%,均高于城市居民。

资料来源:《农村网商发展研究报告2016》

另外,甘犁也在实地调查中发现,电子商务能够让村民减少外出务工,平均来看,有网商外出务工的人数,比无网商的村落要少133人。而在全国,农村电子商务的发展,减少了约1200万外出务工的人口。这让这些村落的留守老人和儿童问题,得到了很好的减缓。

资料来源:《农村网商发展研究报告2016》

抽样调查与大数据也能够相互验证,甘犁曾对北京地区的房屋空置率做过调查,通过抽样调查了解了每一个家庭的住房具有量和空置情况,又通过抽取北京地区水、电的使用率大数据,发现北京确切有大量房屋,用电率为零。

雨伞与降雨术

连斌所在的阿里巴巴安全部门对全国赝品中心做了画像。他在浙江大学大数据研讨会上表示,阿里巴巴通过发掘大数据,在1.1平方千米的区域内,找出了售假卖家的高度集中区域,比如北京秀水街、深圳华强北。

然后阿里巴巴派出了线下的调查队伍,去确认这些地方是不是确是售假中心。

1个规律从数据中显现出来:售假的中心正是国际大牌产品的代工中心。

连斌推测造假的本源:当国际品牌向劳动力更加低廉的东南亚转移,在中国留下了代工工厂,成熟的产线,技术承受考验的工人,还有失去定单以后,日趋严重的生存问题。

他也在质疑赝品的本源:如果中国有良好的国产品牌,如果这些技术熟练的工人,不需要冒着风险造假就可以生存下去,那他们是不是还会铤而走险,去生产赝品?

甘犁认为,大数据能够看到现象之间的关联,还需要通过田野调查和实验,去确认因果关系。他在4川乐山做扶贫实验,不再直接给贫困人口发放补助,而是去嘉奖生产率更高的村民,找到因果关联,去改变贫困人口甘于贫困和怠惰,以避免失去补助的情况。

甘犁认为,在大数据不能提供完全信息的问题上,比如中国家庭的资产与行动,需要抽样调查的数据来刻画清楚。其他1些大数据所没法肯定的因果关系,机理和机制,也需要抽样调查的数据去验证。

刘涛雄认为,在政策研究的时候,常常会提到两个问题,1个是降雨术的问题,1个是雨伞的问题。从非结构化的大数据中,可以发掘现象,做出预测,在下雨前备1把伞。而在结构化的抽样数据中,则可以验证因果,就像在干旱缺水的时候,需要掌握打干冰降雨的技术。

“打多少干冰降多少雨,依托大数据是说不清楚的,而在预测风向的时候,大数据却是非常有用的。”

2 : 从0到1构建数据生态系列:数据价值发掘

这估计《从0到1构建数据生态系列》的最后1篇,主题是数据价值。

在之前,我们所有做的1切1切,都是基础,那末其终究的目的是甚么?

固然,结果很明显,就是数据价值,那末,作为数据生态的最上层,所谓的数据价值又是以甚么情势体现的呢?

BI体系

在 大数据职位画像–看看你是否是白混了贼多年 这篇对大数据职位分析的文章中,我们知道,大数据中很大1部份人的角色定位就是“数据分析”。

对应的职位岗位的名称也多样,“数据分析师”,“大数据分析师”,“BI数据分析”,“BI工程师”等等,5花8门。

这些岗位对应所创造的最上层数据利用价值就是,意图通过数据分析的手段,来带数据化的运营监测,数据化的决策指点,和趋势性的预测等等。

对前1点,即数据化的运营,这是最常规的利用手段,通过数据的反馈情况,进行运营策略的动态修正,以期获得最大化运营效果。

对上层来讲,他需要把控公司企业整体的局势走向,来制定未来的战略计划,这也是数据分析带来的好处。

通常,我们在构建起数据生态链路以后,第1需要支持的就是BI分析体系,用于运营和决策。

另外,结合分析和深化1些的数学模型,我们还可以做到1些趋势性的预测,对未来的策略做更进1步的指点,这就属于BI体系更深入的利用了。

画像体系

除BI体系以外,画像体系是上层利用的重要核心支持,在此之上可以演化各种有效的实际业务利用。

所谓画像体系,即1方面是指针对公司用户构建起能够全面描写用户特点的用户画像,另外一方面,对实体目标,即除用户以外的实体,我们一样可以构建起画像,例如品牌画像,内容画像,产品画像等等。

基于这些画像,我们实际上是可以做很多事的。

例如针对电商,我们可以结合推荐系统,做更个性化的商品推荐;结合活跃时段,地域,购物特点等,进行更加个性化的推送服务,和做个性化的EDM等;又诸如品牌画像,可以更好的为品牌进行制定推行策略;针对产品画像,剖析产品结构,优化产品内部逻辑,指点产品快速迭代等等。

画像是基石,在基石之上可以做更多可扩大性的实际利用,固然,条件是你的画像维度足够丰富,属性足够准确。

并且,需要注意的1点就是,我们在构建画像体系的时候,对画像维度进行分层次的拆解,有助于我们填充画像属性,和更好的实用指点。

至于说如何填充画像的属性,其实方法就很多了,部份是很明显的属性,部份是统计维度的属性,部份是需要通过机器学习和发掘的手段进行获得。

固然,更多的细节我们就不放在这里讨论了。

推荐系统

在网络兴起之前,用户能够接触到的信息实体(所谓信息是泛指,商品之类的也算)都是通过线下的实际展现,能够直接获得的范围有限。

在网络兴起以后,虚拟空间的概念兴起,信息实体可以放在虚拟空间中,这意味着实体(包括商品等1系列相干实体)的数量可以无穷扩充。

在很早之前,用户获得信息的主要手段有两种:结构化的目录导航,搜索。

但在虚拟空间的兴起以后,随着海量实体的增长,这类以用户主动触发为主的获得实体模式弊端愈来愈大:挑选时间变长、可选项增大带来选择困难现象。

在时间本钱越来高的现在,必定寻求更加高效的实体信息获得方式,最本质的目的是:缩短用户与目标实体之间距离,减少无效信息的获得,和提升效力。

所以,以个性化被动信息推动为模式的推荐系统则遭到了欢迎。

而推荐系统,在是建立在数据的基础上,融会适应场景的各种模型算法,终究以精准信息推送为目的,提升用户的点击转化,或其他更明确的商业目的。

推荐系统是数据得以利用的最多见的方式之1,也算是在国内利用的相对成熟的场景。

数据时期的搜索引擎

就信息检索来讲,搜索引擎早就存在,而且1直存在,但初期的搜索引擎只有1个目的,那就是检索与检索词相干的信息。

这里所说的相干,纯属于信息实体属性相干。固然,这样做固然是无可厚非的,信息检索的本质本来就是检索相干的信息。

但随着数据进1步利用,和机器学习等技术的推行,搜索引擎的模式也在悄然产生改变,只是你也许并没有过量关注而已,只是感觉搜索愈来愈好用了。

我们知道,中文博大精深,1句话,略微改动1下,或说重新组织1下,意思都可能产生巨大的变化,乃至是相同的1个词,理解的角度不同,其意义都是不相同的。

在过去,这类情形是很难处理的,而如今,随着对数据的进1步利用,和算法模型的进1步开发,搜索意图辨认已算是“正经”搜索引擎的标配了。

除此以外,还有诸如搜索纠正,相干搜索推荐等基本的优化点,用于提升用户的体验。

最大的改变在于,过去的搜索是1个“点”,而现在的搜索结果是1个“面”。

所谓的“点”即是你所搜索直接关注的目的,也就是信息本身,而“面”则是1个多维结构,在你关注的点的同时,分散所有的相干信息。

这就是知识图谱在搜索中的利用,产生的搜索结果是1全部相干的知识图谱结构。

实现业务的数据化、自动化、智能化

相对上面描写的几个相对明确的数据价值利用,这里描写的就相对偏业务层,并没有说具体触及到某种模型,具体的算法,而是1种业务驱动模式。

我们希望通过数据,能够构建起业务驱动的自动化流程,并且这全部业务流程是可数据化观测的,然后在1些关键环节是可以智能化运作的,这样就可以够提升业务的精准性。

固然,更重要的是提升商业转换价值。

期间,我们可以利用各种统计分析的手段,让业务流转是可以数据可观测的,也能够通过诸如画像属性的进1步业务化,也能够使用诸如推荐、预测等相干相对底层的技术,乃至是可以利用更复杂的神经网络深度学习等自动学习、自动优化的手段。

关键在于使用数据,再结合机器学习的手段来优化全部流程,这才是我们所需要的。

结语

最后,随着数据的价值在逐步被发掘,上层将会愈来愈多的利用模式被探索出来。

但可以预感的是,数据价值的使用,必定会从单纯的数据本身价值,逐步延伸到更多的其他方面,而作为数据价值探索的手段,机器学习相干的技术和数据的结合也会愈来愈紧密。

3 : 分析工具很难选? 看他们如何发掘大数据价值

预测建模,机器学习和其他先进的分析利用程序,有助于发掘大数据系统的商业价值,但对许多用户来讲,这需要使用大量的工具,并付出1定努力才能到达预期。

零售商Macy's5年前部署了Hadoop集群,在此之前,它面临着1个严峻的问题,那就是如何有效处理各种系统生成的销售和营销数据。Macy's这些年1直在积极扩大在线业务,数据处理的问题也变得愈来愈严重,由于需要进行处理分析的数据量1直在增加。

该公司的传统数据仓库架构有着严格的处理限制,没法处理非结构化的信息——如文本。历史数据基本上也是没法自由访问的,通常这些数据会被归档到磁带上,运往异地存储装备。“数据科学家和其他分析师只能在特定时间段的数据上进行数据查询”,Macy's负责市场分析和客户关系管理(CRM)系统的主管Seetha Chakrapany说道,“他们遭到了严重的束缚,没法很好地完成工作。”

Hadoop系统部署后,上述问题得到了1定的减缓,该系统提供了大数据分析架构,也支持基本的商业智能(BI)和报表流程。“Hadoop集群能够真正成为Macy's企业数据分析平台”,Chakrapany 说道。现在,分析团队1直在使用Hadoop平台,市场营销、销售业务,产品管理等部门的数千名用户得以访问上百个BI仪表板,这些仪表板的数据都来源于Hadoop平台上的分析。

但Macy's的大数据环境可不单单只有Hadoop集群。例如在前端,Macy's已部署了多种分析工具来满足不同的利用需求。在统计分析层面,这家零售商则使用SAS和Microsoft R Server完成,后者基于R开源统计编程语言。

还有其他1些工具负责提供预测分析,数据发掘和机器学习能力。包括H2O,Salford Predictive Modeler,Apache Mahout开源的机器学习平台和KXEN——3年前由SAP收购,已集成到SAP BusinessObjects预测分析软件中。数据展现上,Macy's使用Tableau提供的数据可视化工具和AtScale提供的基于Hadoop技术的BI软件。

更好地分析大数据

这些不同的工具是确保大数据分析架构准确有效的关键要素,Chakrapany 在2016年Hadoop峰会上的演讲和随后的采访中说到,使用统计方法和机器学习来进行高级分析进程自动化是大势所趋,他强调。

Chakrapany说,“我们1直处于实验状态。由于数据量巨大,不可能采取人工的方式来分析这些数据。所以,我们使用大量的统计算法来帮助我们认清业务情况。包括客户分析、定单分析、产品和市场的数据分析,另外还有从网站捕获的客户点击行动记录。”

类似的情况也愈来愈多地出现在其他企业中。作为大数据平台,如Hadoop,NoSQL数据库和Spark 处理引擎被企业广泛采取。部署先进的分析工具,帮助企业分析业务数据流,这类方式被愈来愈多的企业所接受。

2016年11月,TechTarget针对企业利用BI和分析软件进行的1个调查显示,7000的受访者中,26.7%的人表示,他们的企业已部署了预测分析工具。接下来预测分析软件在企业未来1年的计划投资榜单中高居榜首。有39.5%的受访者表示,预测分析软件与数据可视化、自助服务BI和企业报表等所有更主流的BI技术对企业来讲不可或缺,乃至更加重要。

2015下半年进行的1项TDWI调查还发现,愈来愈多企业计划使用预测分析软件来支持业务。在这类情况下,309 名BI,分析和数据管理方面的专业人士受访者中,有87%的人表示,他们的企业已是上述技术的活跃用户,或预计在3年内实行这些技术。其他高级的分析情势,例如摹拟和指令性分析,用户数量也在逐步增长。

预测分析的使用增长情况

用算法找到数据隐含的意义

机器学习工具和其他类型的人工智能技术——深度学习,认知计算也愈来愈多地遭到关注,这些关注主要来源于技术用户和供应商,他们的分析团队期望使用自动化算法来帮助他们进1步探索数据集的意义。

Progressive Casualty Insurance Co是已开始接触这些技术的公司之1。这家保险公司使用 Hadoop集群来加速其Snapshot程序, 该程序主要负责受保人的保险费用折扣,折扣力度则基于驾驶员的安全驾驶情况,其驾驶数据收集于车载诊断装备。

集群是基于Hadoop的 Hortonworks散布式框架的,它使用了60个计算节点用于提升 Snapshot程序的速度,Progressive的大数据分析架构包括1系列的工具,如SAS,R和H2O,该公司的数据科学家使用这些工具,在Hadoop系统中进行数据分析和处理。

数据可视化软件会备份大量的数据,数据科学家在这些数据上运行预测算法,以帮助参与该计划的用户评估其安全驾驶情况。他们还使用分析结果肯定不良的驾驶习惯和可能的机械问题,如发机电的信号异常,该问题可以通过分析电压异常波动数据来判定。

预测分析和机器学习的功能10分强大,Pawan Divakarla——Progressive负责数据分析业务的主管说道,“你有那末多的数据,并且你具有很好的模型用于分析。你 需要1些东西来帮助你,让工作变得更加有效。”

更深入的大数据分析

Yahoo在2006年成为第1个将Hadoop利用于生产环境的用户,当时,Hadoop的开发者之1Doug Cutting正在这家网络搜索和互联网服务公司工作,Yahoo宣扬自己是现今Hadoop平台最大的用户。Yahoo的大数据分析架构,包括40000多个节点,300多个利用,40个集群,Yahoo将Hadoop与Apache HBase数据库,Apache Storm 实时处理引擎和其他大数据技术结合使用。但这家公司其实不满足于现状,它1直在努力将这些技术扩大到新的领域。

Yahoo负责大数据和机器学习架构的副总裁Andy Feng说道,“即便在10年后,我们依然会发现这么做的好处,在过去的3年里,他花了大约95%的时间专注于机器学习工具和利用上。在过去,可以构建并运行现有机器学习技术上的自动算法不足以在Hadoop集群处理如此庞大的数据集,其准确性没法使人满意。”

“我们1直尝试机器学习,但我们的尝试有着1定的束缚,所以产生的结果是有限的,Yahoo负责云计算和大数据平台产品开发的高级总监Sumeet Singh补充说道。不过,他和Feng都表示,最近几年来,情况已大为好转。“我们看到,人工智能和机器学习重回人们的视野,其中1个主要缘由就是数据量的增长,”Singh指出。

例如,Yahoo现在正在运行1个机器学习算法,该算法使用语义分析进程,更好地将付费广告搜索结果页面与用户输入的搜索关键字进行匹配,它将每一个搜索的营收提升了9%。另外一个使用机器学习的利用可让Yahoo Flickr在线照片和视频服务的用户能够依照视觉内容来对图象进行组织,而在之前,他们只能依照拍照日期排序。该算法还可以标记那些不合适在工作中查看的照片,以帮助用户避免在办公室看照片时产生的为难情况,Feng说。

Hadoop集群节点新增了图形处理单元,让这些利用成了可能。Feng表示,GPU可以进行传统CPU没法完成的图象处理。Yahoo在大数据分析架构中新增了Spark处理引擎,接收了1些处理工作。

另外,Yahoo还部署了MLlib,Spark的机器学习算法内置库。但是,这些算法太过于基础,Singh说。这促使大数据团队开发了1个深度学习算法库CaffeOnSpark, Yahoo已在GitHub网站上传了该算法库,使用者可以自由下载。

宝宝得了癫痫病有什么要注意的白癜风患者的诊断方式是什么天津治疗白癜风选择什么医院就诊

相关推荐