【第一话】他居然只用了一把王者的时间就入门了大数据?

🌕写在前面 🍊博客主页:kikoking的江湖背景 &#x1f3…

🌕写在前面


  • 🍊博客主页:kikoking的江湖背景
  • 🎉欢迎关注🔎点赞👍收藏⭐️留言📝
  • 🌟本文由 kikokingzz 原创,CSDN首发!
  • 📚参考书籍:《大话数据科学》
  • 📆首发时间:🌹2021年12月13日🌹
  • 🆕最新更新时间:🎄2021年12月13日🎄
  • ✉️坚持和努力一定能换来诗与远方!
  • 🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢感谢感谢!

20th Century Alchemist插画图片壁纸

目录

🌕写在前面

🔥1.大数据的定义

🍊1.1大数据的概念

🍊1.2大数据的特点

🍊1.3大数据的价值

🍊1.4 大数据涉及到的相关技术

🍊1.5 大数据在就业方面的细节

🔥2.数据挖掘

🍊2.1 数据挖掘的概念

🍊2.2 数据挖掘的理论技术

🍓改良技术

🍊2.3 数据挖掘标准过程(CRISP-DM)

🔥3.机器学习

🍊3.1 机器学习的概念

🍊3.2 机器学习的应用

🍊3.3 机器学习的七种学习类型

🍊3.4 机器学习的学习形式

🔥4.人工智能

🍊4.1 人工智能的概念

🔥5.数据科学

🍊5.1 数据科学的概念

🍊5.2 学好数据科学的原材料

🔥6.知识管理

🍊6.1 内隐知识与外显知识

🍊6.2 知识领域与未知领域

🍊6.3 知识的转移


🔥1.大数据的定义


🍊1.1大数据的概念

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据主要解决海量数据的采集、存储和分析计算问题。

例如:你的电脑硬盘容量只有2T,但是需要存储一个100T的文件,这时候你的电脑容量就不够用了,无法通过传统主流工具在合理时间内存储管理,而这就是大数据所要解决的事情!


🍊1.2大数据的特点

💎1.大量:数据量巨大,数据的记录或实例数量大

截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。

💎2.高速:数据成长快速,变化快速,算法快速,唯快不破

这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2025年,全球数据使用量将达到163ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

💎3.多样:数据变量繁杂,包含结构化和非结构化数据

这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

💎4.低价值密度:分析结果的价值密度低

价值密度的高低与数据总量的大小成反比。比如,在一个10TB的文件中提取1MB的有用信息,如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。

💎5.怀疑:数据来源和分析结果的正确性需要评价


🍊1.3大数据的价值

对于我们日常来说大数据可以为我们带来什么帮助呢?我们从以下这几个方面看看:

🍓1.大数据可以帮助企业更有效率,更快速,更省钱

具体实现:及时解析故障、问题和缺陷的根源;数据挖掘以规避欺诈行为

🍓2.大数据可以促使营销、份额、品质大幅增长

具体实现:根据客户的购买习惯,为其推送可能感兴趣的优惠信息;从大量客户中识别出金牌客户;对大量消费者或服务企业进行精准营销

🍓3.大数据可以促进企业转型或商业模型的改变

具体实现:制造业(如IBM)转型为信息服务业,中小微企业利用大数据做服务转型;传统企业面临互联网压力,必须进行转型,充分利用大数据的价值

🍓4.大数据可以形成平台互动共享的网络模型

具体实现:大数据使用模型,进而加深对重要用户的洞察力,可以追踪和记录其网络行为,识别业务影响;随着对服务利用的深刻理解,加快利润增长;同时跨多系统收集数据,发展IT服务目录


🍊1.4 大数据涉及到的相关技术

🍓大数据的处理过程

采集————>存储————>预处理————>建模————>分析————>形成结果

🍓大数据涉及的技术

涉及技术:以上整个过程涉及感知技术、存储技术、云计算技术、分布式处理技术等

建模分析技术有:统计学、数据挖掘、数据科学、机器学习、人工智能等


🍊1.5 大数据在就业方面的细节

✨✨✨我是分割线✨✨✨

🔥2.数据挖掘


🍊2.1 数据挖掘的概念

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,并将其转换成可理解的结构,以进一步使用;是数据库知识发现的分析步骤


🍊2.2 数据挖掘的理论技术

🍓传统技术

以统计分析为代表,统计学内所含时间序列、概率论、回归分析、类别类型分析、贝叶斯分类等属于传统数据分析

🍓改良技术

在改良技术方面,应用的有决策树理论、支持向量机SVM、随机森林法、类神经网络、关联规则法、深度学习等


🍊2.3 数据挖掘标准过程(CRISP-DM)

以下将介绍CRISP-DM作业程序的六个主要步骤:

🍓1.业务了解

理解企业需求,主要是以企业的观点,定义数据勘探问题,并制定初步计划方案找出研究目的,决定商业目标,形势评估,决定数据勘探目标及制定一个项目计划

🍓2.数据理解

收集数据,了解数据源,数据库及数据仓储、数据特性,对收集的数据进行初步分析

🍓3.数据准备

筛选数据中各项表格、记录以及变量,接着整理筛选出来的数据,应用于模型选择工具上;准备过程包括选择变量、清理遗失值、重构、整合及转换数据

🍓4.创建模型

着重于选择并应用一种或多种数据勘探技术,包括选择模型技巧(算法)、训练数据、机器学习、产生测试计划及模型评价。

🍓5.评估测试

对数据勘探的结果是否达到商业目标做评估,主要为测试数据分析结果,并证实模型是否符合企业所推动的方案的目的,以及进一步决定将来是否继续采用此模型。

🍓6.决策布署

此步骤主要是经评估后,若所建立的模型符合企业目标,则再进一步拟定该模型的推动计划,着重于将新知识融会到每天的商业运作过程中包括计划发布、监控与维护、产生最终报告,以及回顾整个项目

✨✨✨我是分割线✨✨✨

🔥3.机器学习


🍊3.1 机器学习的概念

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能如何在经验学习中改善具体算法的性能。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习是从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。

因为机器学习算法中涉及大量的统计学理论,尤其与推断统计学密切联系,所以也被称为统计学习理论。机器学习与数据挖掘有很多相同点,可以这样说:机器学习是从学习的观点来看数据挖掘


🍊3.2 机器学习的应用

机器学习广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、语音和手写识别、机器人等领域


🍊3.3 机器学习的七种学习类型

我们要知道一个学习系统是由学习和环境两部分组成。环境相当于老师,学习相当于学生主体。一个学生学习过程中,自己所使用的推理和思考越少,对老师的依赖就越大,老师的负担就越重。根据“学生”学习时所用推理多少与难易程度,可以分为7类

🍓机械学习

这不是机器学习,学习者无须任何推理或其他知识转换,直接接收环境所提供的信息

应用:生产装配线的工人

🍓示教学习

学生从环境中获取信息,把知识转换成内部可使用的形式,并将新的知识与原有知识有机地结合为一体

应用:专家系统在建立知识库时,采用此方法实现知识获取

🍓演绎学习

学生从公理出发,经过逻辑变换推导出结论,在推理过程中可以获取信息。

应用:数理统计的定理证明

🍓模拟学习

利用两个不同领域的相似性,通过模拟,从已知推未知(从源域的知识推导出目标域的相应知识)从而实现学习。可想而知,这种模拟学习更费脑子,需要更多的推理。

🍓基于解释的学习(EBL)

学生根据老师提供的目标概念、目标概念的一个例子、领域理论及可操作准则,首先构造一个解释来说明为什么该例子满足目标概念,然后将此解释推广为一个满足目标概念的充分条件

应用:EBL已被广泛应用于知识库求精和改善系统的性能

🍓归纳学习

老师提供某概念的一些实例或反例,学生对这些例子通过归纳推理得到该概念的一般描述(泛化)

应用:机器学习的验证数据就是泛化

🍓创新学习

科技上的发明创造除了需要经验,需要量的积累;还需要灵感和顿悟,也就是质变,而机器很难学会“不依赖量变产生质变”


🍊3.4 机器学习的学习形式

🍓监督式学习

监督式学习就是从给定的训练数据样本中,学习出一个规则或函数,当新的数据到来时候,可以根据这个规则或函数预测结果

监督式学习的变量有自变量和目标变量

监督式学习算法:分类和预测(包括回归分析和统计分类)

🍓非监督式学习

没有目标变量,主要应用于记录或实例的聚类、变量的关联规则、变量的降维

🍓半监督式学习

训练预测非监督式的目标变量值,再监督式学习

🍓强化学习

强调如何基于环境而行动,以取得最大化的报酬

✨✨✨我是分割线✨✨✨

🔥4.人工智能


🍊4.1 人工智能的概念

人工智能是研究如何使用计算机做过去只有人类才能做的智能工作,用于模拟、延伸和拓展人的智能的理论方法,主要包括机器人、语言识别、图像识别、自然语言处理和专家系统等

🍓人工智能理论体系

包括了哲学、数学、计算机科学与技术、心理学、经济学、数学逻辑、神经科学、语言学等

🍓人工智能技术体系

包括机器学习算法、机器学习架构、自然语言理解、计算机视觉、智能机器人、智能搜索、自动推理、自动程序设计、机器视觉、人脸识别、视网膜识别、智能控制等

✨✨✨我是分割线✨✨✨

🔥5.数据科学


🍊5.1 数据科学的概念

数据科学是从学科或职业的角度,来看数据或大数据;数据科学研究的是数据本身(数据的各种类型、状态、属性及变化形式和变化规律)

🍊5.2 学好数据科学的原材料

学习好数据科学需要掌握好统计演算知识计算机科学知识产业专业知识

·统计演算知识计算机科学知识是技术层面的知识

·产业专业知识是领域核心知识

·只懂得计算机科学知识产业专业知识会产生错误判断的危险,要具备算法的逻辑观念!

✨✨✨我是分割线✨✨✨

🔥6.知识管理


知识管理是知识的分类和转移。知识的分类从层级来分有:数据创建信息,信息挖掘知识,知识产生智能,智能制造智慧

🍊6.1 内隐知识与外显知识

🍓内隐知识

只能“意会”的个人的知识,例如:习惯、行为、认知、信仰、心得、预感、直觉等主观的经验性、模拟性、情景特殊性知识,无法以言语文字表达,而存在于意见、人际网络、关系中。生活中例如:凭着意识打王者荣耀就是内隐知识

🍓外显知识

可以“言传”的,以报告、分析、手册、公式、程序等表达的知识。例如:专利、项目报告、市场研究报告、计算机程序等


🍊6.2 知识领域与未知领域


🍊6.3 知识的转移

🍓共同化(内—>内)

共同化:从个人的内隐转移到其他人的内隐知识

主要操作:交谈沟通+脑力激荡+传授练习+案例讨论

🍓外部化(内—>外)

外部化:从个人的内隐知识转移到其他人的外显知识

主要操作:观念架构+汇总知识+请教专家+概念表达

🍓组合化(外—>外)

组合化:从外显知识转移到外显知识

主要操作:文件学习+因果连接+数据挖掘+机器学习

🍓内部化(内—>内)

内部化:从他人的内隐知识转移到个人的内隐知识

主要操作:观摩教育+举一反三+心得创意+自由意志


对于上述的知识转移的四化,我们同理应用在平时的日常学习生活中,合理安排四化的顺序可以大质量地提高学习效率与学习效果!

本文来自网络,不代表软粉网立场,转载请注明出处:https://www.rfff.net/p/2957.html

作者: HUI

发表评论

您的电子邮箱地址不会被公开。

返回顶部