全部商品分类

您现在的位置: 全部商品分类 > 电子电脑 > 电工无线电自动化 > 自动化技术

大数据(挖掘数据背后的真相)

  • 定价: ¥58
  • ISBN:9787213097379
  • 开 本:16开 平装
  •  
  • 折扣:
  • 出版社:浙江人民
  • 页数:212页
  • 作者:(日)松本健太郎|...
  • 立即节省:
  • 2020-06-01 第1版
  • 2020-06-01 第1次印刷
我要买:
点击放图片

导语

  

    新时代必备大数据分析入门书!
    学会数据分析,立破谎言,无须数学、统计学基础,轻松掌握!
    透过纷繁数据,找出真实信息。
    本书是为那些想学习数据科学却不擅长数学,又不知道从哪里学起的人写的超级入门书。

内容提要

  

    在新媒体时代,如果对新闻报道、网上搜索的结果或者所谓的“专家告知”不加思考地完全相信,那你就等着上当受骗吧!
    本书围绕当今最受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、舆论调查的可靠性、“安倍经济学”的成果、东日本大地震后的状况、相对贫困、失业率的下降、年轻人远离××、全球变暖问题、减肥、恩格尔系数的上升等10个主题进行数据解读,帮助读者模拟体验数据读取方法,提高理解和分析数据的能力,挖掘出数据背后隐藏的真相。
    作为“大数据分析”的超级入门书,即使不擅长数学、不了解统计学的人,读完本书也可以彻底掌握数据解读方法!

目录

第1章  让全是偏见的我拥有解读数据的能力
  ·有人仅相信想相信的内容
  ·从古代开始人就充满偏见
  ·只有叔叔阿姨在用Facebook
  ·人从多少岁开始被称为“叔叔阿姨”
  ·对“谷歌总撒谎”的深究能力才是解读能力
  ·为了发现问题,丰田要反复问五回为什么
  ·为什么会发生数据造假
  ·为了阅读数据开展提升解读能力的训练吧
第2章  有多少外国人到访“被世界爱慕的国家——日本”呢
  ·受到全世界爱慕的日本
  ·到访日本的外国人明细
  ·法国排在世界第一位、中国大陆排在亚洲圈第一位的理由
  ·为什么国家要大力发展旅游产业呢
  ·每一个都、道、府、县都非常关键
第3章  为什么支持率在网络和大众传媒上有着如此大的差别
  ·网络和报纸,背离的支持率
  ·收集数据必须遵循规则
  ·即使不喝光大酱汤也能品尝出其昧道
  ·从总体中抽取样本的规则
  ·开票率为0即可让其当选
  ·用数据验证非法选举/阴谋论
第4章  从结果来看,“安倍经济学”使景气好转了吗
  ·“安倍经济学”真的那么厉害吗
  ·所谓“景气好”是指什么
  ·名义GDP与实际GDP的区别
  ·为什么没能从实际上感受到经济增长
  ·GDP是20世纪的遗产
  ·能够相信GDP到什么程度
第5章  东日本大地震之后到什么状况才能够说复兴了
  ·恢复“3·11”以前的生机
  ·“已经不是战后了”,战败后的复兴是如何实现的
  ·东日本大地震的灾区——东北的经济增长率
  ·因震灾导致人口减少的负面连锁反应
  ·阪神大地震之后的神户可以说已经复兴了吧
第6章  经济大国日本为什么又被说成贫困大国
  ·位居OECD最差国第二的日本是贫困国家吗
  ·真奇怪,“有手机还贫困”
  ·受到大的数值影响的平均数和不受影响的中位数
  ·从收入中求出相对贫困率
  ·厚生劳动省的指标和总务省的指标哪个正确
  ·因样本的抽取方法不同,结果会出现变化
  ·约6.4个孩子里有1个属于相对贫困
第7章  明明人手不足,为什么工资不上涨
  ·推行“安倍经济学”以来,实际工资在下降
  ·如何解释有效求人倍率急速上升呢
  ·有效求职者数并非正在找工作的人数
  ·一亿总活跃=非劳动力的劳动力化
  ·失业率过低的国家——日本
  ·使用了使失业率降低的技巧
第8章  国外旅游、报纸、烟酒……说年轻人远离××正确吗
  ·50年前就有人说“年轻人远离××”
  ·用私企薪金实际状态统计调查来看年轻人的工资妥当吗
  ·纯属子虚乌有的“年轻人远离国外旅游”
  ·不能嘲笑“远离报纸”的年轻一代
  ·不仅年轻人,所有男性都在远离烟酒
第9章  为了防止全球变暖,我们如今能做些什么
  ·给地球环境造成破坏性影响的全球变暖
  ·“全球变冷”和“全球变暖”哪个正确
  ·即使不用地球所有地点的气温数据也能看出偏差
  ·利用回归分析验证大阪的变暖
  ·最高数值相同最低数值上升,平均值就会上升
  ·日本并非变热了,而是变冷了
第10章  限糖减肥的结果和数据的对比
  ·如果真想瘦下来,要掌握正确的数据
  ·身体脂肪率只是统计上的推测值
  ·减肥效果应该通过相对比较来看、
  ·为了避免一喜一忧,建议采用移动平均法
  ·计算基础代谢,防止掉进饥饿状态的恶性循环
  ·即使限糖减肥,也必须保证每天摄入50克糖
  ·限糖和RIZAP效果的多重回归分析
第11章  生活水准开始下降了吗?恩格尔系数迅猛上升之谜
  ·是饮食生活的变化还是“安倍经济学”失败的表现
  ·把每月波动较大的家庭支出按12个月平均值来把握
  ·看似是糊涂账,实则是仔细调整得出的居民消费价格指数
  ·利用居民消费价格指数制作散点图
  ·漏掉了家庭生活调查的回答主体
结束语
参考图书

前言

  

    本书是为那些想学习数据科学却不擅长数学,又不知道从哪里学起的人写的超级入门书。
    大家好!初次见面,非常感谢各位能够对本书感兴趣!我叫松本健太郎,在东京从事与营销业务相关的数据分析工作,职业定位被称为“数据分析师”。我平时的工作内容是分析消费者隐含的心理,看清他们的真正需求,并将分析结果写成总结报告,所以也被称为“数据科学家”。
    本书的主题是“数据读法”。数据读法,并非简单地把“1”读作“1”,而是理解数据所具有的特征,并由此联想到数据背后隐藏的真相,觉察出数据的失真感,有时还要赶到现场对数据所要表达的结论做出解读。说到底,数据科学家的一大半工作都是在“解读数据”。可能有人会把数据科学理解为利用统计学及最近流行的AI(人工智能)所开展的很高难的科学,其实这是人们的误解。
    所谓数据科学,并不是“统计学+AI”。科学(science)的词源是“知识”“知道”,但后来发生了一点转变,是指建立在体系基础之上的知识和经验。因此,从广义上来看,数据科学就是指“关于数据的学问”“利用数据了解事物是什么的学问”。因此,如果认为“数据科学=统计学+AI”,就过于狭义了。虽然很多人学了数据科学,但因不擅长数学而备受挫折。我认为,他们很可能就是过于束缚在这个狭隘意义上了。
    例如,需要具备推理能力、思考能力、看透事物的观察能力和洞察能力等逻辑思考,也是“知道”的重要学问之一。这种学问体系就是数据科学‘,掌握了这个体系的人被称为数据科学家。
    通过本书,读者能够模拟体验数据科学家平时都是如何读取数据的。通过对数据的读取,多少能够掌握一些数据的处理方法,提高自己理解和分析数据的能力,能让大家产生“从明天开始再好好学学数据科学”的想法,也就达到了我撰写本书的目的了。
    那么,就让我们开始一起学习吧。
    松本健太郎

后记

  

    非常感谢大家能够将本书读到最后!
    也许很多人都想,阅读数据是多么平常的一件事情。但如果读者能够通过本书减少平时接触数据的费解感,了解将数据本身原样接受的危险,加深对阅读数据所抱有的偏见的理解,那就没有比这更让我感到高兴的事情了。
    我在开头已经阐述,本书是为那些想学习数据科学却对数学很不擅长,最重要的是不知从哪里学起才好,正在为此而困惑的人写的超级入门书。读者读完本书,就理应能够带着“这个数据正确吗”“这个数据反映了现实吗”的眼光展开分析了。
    有时我也会想,以各种各样的数据来表现纷繁复杂的现代社会,并对其进行深入解剖,这件事本身太不自量力。通过数据来表现,也许会导致实际发生的某些现象被忽视或被误解。我认为,能够考虑到这些再展开分析的人,才算得上一流的数据科学家。
    在接触数据之前,先对数据展开思考,这难道不是“超级入门”的秘诀吗?
    在本书从撰写直到出版的整个过程中,我得到了多方的指导。
    我从我就职的Dekom公司的大松孝弘社长那里学到了“打破偏见”的思考方法,从公司调查分析团队那里掌握了数据解读能力,在此均表示深深的感谢。此前在Lockon公司的营销指标研究所担任所长期间,我接受了数据计测方法的彻底训练。这些训练成果在本书中都得到了充分利用。任何事情都只有经过训练才能有深刻体会。
    当我每次向编辑名古屋刚先生汇报本书的写作进展时,都得到了他“非常有趣”的好评。我一边感叹他真的是一位夸奖人的高手,一边很快走上正轨,从着手准备到完成书稿仅用了半年时间。对他除了感谢还是感谢。 最后,我相信,通过本书,各位读者阅读数据的眼光都会得到锻炼。无论是在kaggle(为开发商和数据科学家提供学习和竞赛的平台)上,还是在数据分析的现场,我都期盼与各位幸会的那一天。 松本健太郎

精彩页(或试读片断)

  

    第1章  让全是偏见的我拥有解读数据的能力
    ·有人仅相信想相信的内容
    要提升读取数据的能力,必须先学会怀疑数据,说到底就是要学会怀疑人的判断和行动。因为每个人都有“思想的偏见”,多少都带有一点“自己才是正确的”的想法,这种认识越强烈,偏见就越严重;偏见一严重,就更愿意相信自己想相信的内容,眼光仅对准对自己有利的数字,甚至还会对数字做出信口开河的解释。
    更可怕的是,处于这种状态的人很难意识到自己的偏见,他们始终认为自己在正视现实并做出了合理且理性的判断。人们把这种症状命名为认知偏见。
    认知偏见并非在互联网普及、信息摄入量增加之后才出现的症状,而是在更早的时候就已经出现了,甚至可能是自人类诞生后就一直存在的症状。
    ·从古代开始人就充满偏见
    下面举几个具有代表性的例子。
    其一是在《高卢战记》中记载的故事。公元前58年至公元前51年在高卢(相当于现在法国、比利时和瑞士一带)发生的古罗马与高卢、日耳曼之间的战争,史称高卢战争。顺便提一下,《高卢战记》是古罗马军队的指挥官尤利乌斯·恺撒撰写的。
    据《高卢战记》记载,为了打破战争的胶着状态,副将萨比努斯向敌军派去了奸细,奸细在敌军阵营里散布流言,“罗马军队害怕了”“指挥官恺撒正在苦苦支撑,萨比努斯正派军队前往支援”。敌军正好处于粮草难以为继的境况之中,于是就简单地相信了对他们自己来说非常有利的流言,对萨比努斯的军队发动奇袭,结果被早已做好充分迎战准备的萨比努斯彻底击垮。
    捷报传来之后,恺撒在《高卢战记》里写下这样一句话:“人们都从自己的角度相信自己想相信和自己希望发生的事情。”
    另外,这里介绍一个关于巴西的日裔移民的悲剧。巴西方面希望缓解劳动力短缺的局面,日本方面希望缓解人口过剩的局面,双方一拍即合,从1908年开始,很多日本人移民到了巴西。到了巴西的日本人虽深受迫害,但也抱着怀念祖国的信念顽强地活了下来,其中也有一些日本人取得了成功。
    1945年8月,日本接受《波茨坦公告》,承认战败。但是,巴西移民中有一部分人不接受日本战败的事实,认定日本战胜了以美国为首的盟军部队,并称自己为“战胜帮”,同时把接受战败事实的人蔑称为“战败帮”。这就是如今日本还在使用的“战胜帮”和“战败帮”两个词汇的来源。
    双方的对立日益激化,相信自己想相信的事情的“战胜帮”于1946年对“战败帮”发起了恐怖行动,进而爆发了日本人和巴西人之间的大规模暴动。眼看事态不断加重,各国政府在“战败帮”的协助下,把在日本国内发行的报纸及来自“战胜帮”的亲友的信件送到“战胜帮”手中,千方百计让他们接受日本已经战败的事实。这个过程就用了十多年的时间。
    顺便提一下,在日本经济高速增长末期的1973年,从巴西回到日本的“战胜帮”中的一个人说了这样一句话:“有着如此气派辉煌的机场和摩天大楼的日本绝对不可能战败了。”
    最后介绍的是我们大家仍然记忆犹新的、由东日本大地震引发的福岛核辐射事故。为什么会发生那场核事故?怎样做才能防止那场核事故?政府、国会和百姓各自站在自己的立场上成立了调查取证委员会。其中,政府设立的事故调查委员会(东京电力福岛核电站调查取证委员会)在历经一年零一个月的调查、取证之后,拿出了报告。
    该报告在其结尾处写下了担任委员长的烟中先生的感想:“应发生的事情发生了,认为是不可能发生的事情也发生了。”“不想看见的看不见,想看见的看见了。”
    “海啸即使发生,照理来说也不会到达这里”“长时间全部停电,照理来说不可能发生”,在这些假设前提下建设并运营的核电站,却遭受了海啸的冲击,并导致全国大范围的停电。
    人们都按照自己的思路想:“即使发生了也不至于出现令人讨厌的状况吧。”但如果出于安全考虑采取一些对策,就会被以下这些话说服了:“这难道不是真的要发生吗?你想让当地居民每天都提心吊胆地过日子吗?”可他们并没有。那些被人们认定的无数想法积累起来,只因一点点的偶然事件就引发了那场重大事故。
    正是由于如上所述的认知偏见,致使人们生活在难忍的痛苦之中。同样的例子不胜枚举。尽管做出判断并依此行动的当事人很认真,但他们是否相信自己做出了不正确的选择呢?显然没有。所以,要想掌握读取数据的正确方法,最先要做的事情就是怀疑自己的判断和行动。
    “我是不会被认知偏见之类的事情牵着走的。”如果你也曾经这样想过,那么,我在这里随意拿出一个数据给大家介绍一下。
    P1-6