交互文件命名规则

文件夹的整理方法

一般用一个大的文件夹作为一个项目最原始的管理,还是拿千寻租房的项目来打比方。首先大的文件夹取名为该项目的名字“千寻租房”。首先阁主先针对有多个版本需要管理,并且UI和UX都需要进行接触的工作内容进行说明。文件整理方式如下图。

一般一个项目会涉及到以下几个内容的整理:

  • 01 Wireframe即low-fi(低保真效果图)文件的地址;
  • 02 Visual Flow是Hi-fi(高保真效果图)地址;
  • 03 UI Kits是图片资源输出的地址(比如说icon);
  • 04 Documents并不是产品文档,而是APP里面需要的一些文档,比方说《服务条款》等;
  • 05 App icon即APP的icon在各个平台上需要的尺寸图和它的源文件,尺寸常备1024x1024px,512x512px,167x167px,152x152px,120x120px,80x80px,58x58px(可以参考相关iOS规范);
  • 06 Video Templates是有视频文件的情况下放置视频;
  • 07 AppStoreScreenShot专门为screenshot(即用来简介APP功能的页面,需要上传到各个APP的发布平台)进行准备的,因为安卓平台实在太多了,有时候每个平台规定的尺寸还不太一样,所以专门为它怎被一个文件夹;
  • 08 Lauch Card因为在UI层面上需要耗费的时间比较多,一般在改版的时候放在比较靠后的需求,所以也可以单列出来。

而作为设计师,接触最多的就是01,02,03,所以讲他们三个放在最前面,这也是给文件夹进行编序的原因,所以看到从01到08,序列号是按照它们使用的频率和重要程度来进行排序的。

为什么不将03进行版本的区分?因为同一个APP,从1.0改版的2.0的时候,icon可能延续了部分1.0版本的内容,所以部分是公用的,如果再在上面进行分类,反而程序员进行查找的时候要去翻多个子文件夹,反而不太方便。设计师只要告诉程序员所用图片的名字,程序员可以直接根据单个的icon路径,直接在里面进行提取。当然这也只是其中的一种解决方案。

每个版本又可以进行功能块进行子文件夹的分类,比方说上图中的这一部分。

Archive是用来放历史文件的,对于设计师来说历史文件是不能丢的,说不准哪一天老板就说“还是改回第一版吧~”你懂得~

以上是针对工作内容综合性比较强的同学进行设计的文件整理方式。倘若有的同学工作内容比较集中,比方做单做UI或者单做UX的,那么文件的整理方式也可以进行如下进行整理。因为内容比较单一,所以只需要进行版本号进行区分也行。

文件夹的命名方式是“项目名+版本号”。比方说1.0版本的千寻租房项目,那么命名就是“千寻租房1.0”,如果有平级的2.0版本,就在它平行的下面再建一个文件夹叫“千寻租房2.0”。那么无论找什么版本的文件都一目了然。

Sketch文件的命名以及它的图层的整理

1. Sketch的命名规则

Sketch的命名如上图可以看出,“项目名字功能块版本号_修改日期”,比方说在5月5日做的千寻租房1.0版本的首页,那么它的命名就是“千寻租房_index_1.0_0505”。加上日期是为了方便别人和自己查看哪个是最新的版本,有时候在查找历史文件时也能起到帮忙回忆的作用。

作为UX设计师,你需要知道的52个专业术语

“注意用户做什么,而不是他们说什么。”

——雅各布 尼尔森

《作为UX设计师你需要知道的52个专业术语》是给设计者的一个有意义的补充,我将用通俗的语言把这些专业术语按字母顺序列出,并加以解释。

52个专业术语

3次点击法则

如果用户点击三次仍无法访问他们想要的页面,他们将离开网站。

5秒测试

一个5秒测试包括向用户展示应用程序或网站界面5秒钟,然后用户回想他们刚才看到的内容。这是一个评价关键视觉效果,以及判断用户的关注点是否符合预期影响的好方法。

二八法则

由帕累托原则(Pareto principle)引出 ,适用于任何网站,网页app或软件环境,即80%的结果是由20%的功能和特征所承担。

A / B测试

A / B测试说的是你将两个不同版本的线上内容提供给用户,来观察他们更倾向于哪一个。

视频传送门:What A-B Testing is_腾讯视频

可访问性

可访问性是指一个网站或app是否可以被轻松使用和理解,以及该网站/app对残疾人或其他人群的特殊需要是否考虑完善,比如通过配色设计使色盲者也能轻松阅读。

视频传送门:Everyone is different!_腾讯视频

主动倾听

这是一种采访技巧,即采访者通过认真倾听和及时的做出一些反应,来使交流更好地进行下去。

数据分析

数据分析可以有效地提供你的网站/app的流量信息,它告诉你流量从何而来,以及用户主要在哪里停留。它为了解你的网站/app是否可行提供了一个很好的视角。

视频传送门:What Web Analytics Is_腾讯视频

卡片分类法

卡片分类是一种帮助设计或评估站点信息架构的方法。在一个卡片分类会话中,参与者按自己的理解将细目分成不同的组,也可能需要给这些组贴上一定的标签。你可以使用卡片,纸张或在线卡片分类工具来进行卡片分类。

视频传送门:Card sorting_腾讯视频

点击流分析

点击流分析是指在网站分析中收集和分析用户会去访问哪些页面,以及以什么顺序去访问等这类数据的过程。访问者在网站访问的路径称为点击流。

视频传送门:Hadoop Tutorial_腾讯视频

竞争者分析

这是对当前和潜在竞争对手的优势和劣势的一种评估。

使用情境分析

使用情境分析涉及收集和分析以下信息:目标用户、任务、支持其目标的工具、产品使用的物理环境、技术约束及其他会影响用户体验的因素。

情境分析的数据可以通过访谈、研讨、调查、站点访问、 小组(焦点)座谈 、 观察性研究和情境调查来收集。

转换率

转化率是指在线完成目标交易的访问者的所占比。在电子商务中,转化营销是指将网站访问者转化为付费客户的行为。提高转化率的过程称为转化率优化。

日记分析

日记分析是一种收集有关用户行为,活动和经验的定性数据的研究方法。通常情况下,用户定期进行主动报告活动以创建活动日志,日记分析周期可以从几天到一个多月。

最终用户

这指的是使用网站/app或参与、研究课题的人。

参与度 (用户参与度)

用户参与度是关于如何引起用户关注并保持其注意力的一个度量。任何吸引用户关注一个页面(无论是按钮还是菜单)的功能都是至关重要的。

输入框

输入框(也称为数据或文本框)是用户需要进行文本或数据输入的地方。

错误分析

它是任务分析的一部分,用于标识每个指定的任务流集合出现错误的频率和类型。

错误率

在给定时间段内发生错误的频率。

人种志/人种志研究

这是通过使用观察和面对面交流等方法,对人及其所处环境进行的一种研究。

视频传送门:什么是Ethnography_腾讯视频

眼动追踪

这是在研究人的眼动观察屏幕或环境时产生的行为模式。通过眼动跟踪软件可以追踪用户眼睛在屏幕上的运动以了解用户频繁关注何处,并会以什么顺序浏览。

视频传送门:Eye Tracking Demo_腾讯视频

鱼骨图

它是一幅旨在识别给定情况下因素之间因果关系的图表。它由一个指出了问题的“头”和代表了各种因素及其分类的延脊椎排列的骨骼组成。鱼骨有助于视觉化指出特定问题的潜在原因。

视频传送门:What is a Fish bone diagram_腾讯视频

费茨定律

它是一个数学模型,根据目标大小和邻近度来预测指向目标所需的时间。目标越小离得越远,用户与之交互的时间越长。

视频传送门:Fitts’ Law_腾讯视频

焦点小组座谈

这是与参与者的一组讨论,主持人对特定主题引导出一系列的问题。其目的是获取有关用户,产品,概念,原型,任务,策略和环境的反馈。

视频传送门:Market Research Focus Group_腾讯视频

免费列表

一种用于获取用户对特定主题领悟力数据的收集技术,要求人们列出所有他们可以想到的与该主题相关的事物。

格式塔原则

也被称为“简单原则”(Law of simplicity),即每一种刺激都以其最简单的形式被察觉。人们不能孤立地去感知事物,而是将其作为更大的整体的一部分去观察该事物。

视频传送门:Gestalt Principles_腾讯视频

HEART框架

Google的HEART框架可以让你从更高的的维度去衡量用户体验。衡量的指标是:幸福、参与度、采用、保留和任务分析。

视频传送门:The HEART Framework_腾讯视频

希克定律(Hick’s Law)

希克定律描述了一个人对于他/她的选择作出决定所需的时间。增加选择次数将增加决策时间。

人为因素

人为因素和人体工程学(也称为舒适设计)是指通过设计产品、系统或过程来合理考虑到它们与使用它们的人之间的关系的实践。

截性研究

截性研究通常是在公共场所或业务中亲自进行的调查。例如,采访者可能会接触那些离开商店的人,询问他们的体验。

KISS

保持简单的愚蠢(首字母缩写KISS)。这是是1960年美国海军的设计原则,它指出,如果保持简单,大多数系统将会发挥其最佳效果。简洁性是设计的关键目标。

易学性

学会有效地使用一个系统或界面的难易程度。

利克特量表

这是一种调查方法,被访者被要求按一定的量化标准评估他们的答案。量化标准可能是正数、负数和中间的一个数。

意境地图/心智模型

用户心智模型越接近网站的功能,网站的可用性就越高。

视频传送门:Mental Models and Perception_腾讯视频

扫雷

旨在标识页面链接所在位置的操作。用户将光标快速移动到页面上,通过观查光标或指针在哪里时会发生变化来提示链接的存在。

参与式设计

参与式设计(最初的合作设计,现在经常是共同设计)是一种试图在设计过程中使所有利益相关者(如员工,合作伙伴,客户,最终用户)积极参与的设计方法,其目的是确保最终结果满足他们的需求。

视频传送门:Participatory design

路径

用户在浏览一个网站时所采用的路由。路径可以由面包屑显示。

人物画象

基于可用数据和用户访问所创建的代表性用户。虽然角色的个人资料可能是虚构的,但用于创建用户类型的信息不是。

视频传送门:How To Create UX Personas_腾讯视频

定性研究

一种关注语境和言论,而不是数字或统计数据的人类行为学研究。

视频传送门:Qualitative research_腾讯视频

定量研究

一种关注数字和统计数据的人类行为学研究,可以通过民意调查,问卷调查和咨询来完成。

视频传送门:Quantitative research 2_腾讯视频

远程可用性研究

远程可用性用户研究可以通过使用屏幕共享软件,让参与者可以在自由选择的环境中进行。研究过程中,你可以记录下参与者的面部表情和声音。

这种研究的优点是,你的参与者数量可能远远多于你的定位。因此,你可以在更短的时间内进行更多的研究活动。

视频传送门:Remote Usability Test_腾讯视频

典型抽样

选择一组代表你的目标受众的参与者。

视频传送门:数据加权和有代表性的样本_腾讯视频

调查

调查是针对特定群体提取特定数据的所产生的一个问题清单。调查可以通过电话,互联网,面对面等其他各种方式进行。

视频传送门:通过调查更好的进行用户研究_腾讯视频

目标市场

一个产品所面向的一组目标用户。

任务分析

用于识别和理解用户与网站或app交互行为的方法。

任务流程图

一种在网站上对任务及其相互关系的视觉表达方法。

出声思考

出声思考(或出声思维)是一种在可用性测试中收集数据的方法。在可用性测试期间,通过让用户思考并说出他们所见所为来收集有价值的信息。

真实意图研究

真实意图研究衡量用户使用网站的体验,并通过回答以下问题得到有助于改进设计的意见:

  • 谁来参观?
  • 他们为什么来?
  • 他们喜欢或不喜欢什么?
  • 他们的体验有多成功?
  • 这些问题的答案有助于我们同化用户并了解如何满足他们的需求。

视频传送门:真实意图的研究_腾讯视频

可用性

用户与用户界面进行交互的有效性和满意度。

视频传送门:什么是可用性_腾讯视频

可用性标杆

这衡量了系统的当前可用性,并为将来可用性测量定了一个基准。

可用性实验室

一个用于通过观察和记录用户与系统的交互行为来进行可用性测试的空间。其他观察者可能存在,或者可以在另一房间通过双向镜或视频流观察。

用户流

用户流是用户完成任务所执行的步骤。“顶部路径”是最常见的用户流。

用户研究

用户研究侧重于通过观察技术,任务分析和许多其他方法来了解用户需求、行为和动机。

视频传送门:什么是用户研究_腾讯视频

“令你反感的客户是你最大的学习动力来源。”

——Bill Gates

关于UX研究的文章

如何像专业人士一样进行用户体验研究

How To Conduct User Experience Research Like A Professional

UX设计研究中的崩溃课程

https://uxdesign.cc/a-crash-course-in-ux-design-research-ea00c3307c82

用户体验研究:入门完全指南

http://www.uxbooth.com/articles/complete-beginners-guide-to-design-research/

体验地图

https://medium.com/capitalonedesign/download-our-guide-to-experience-mapping-624ae7dffb54

在UX研究中拥抱不确定性

https://medium.com/airbnb-design/embracing-uncertainty-in-ux-research-973a962b2e8e

7伟大的尝试和测试的UX研究技术

7 Great, Tried and Tested UX Research Techniques

Dropbox的设计研究

https://medium.com/dropbox-design/design-research-at-dropbox-cecb4a62566a

用户研究的7宗罪

https://medium.com/@userfocus/the-7-deadly-sins-of-user-research-22857c5a971b

UX Research作弊表

UX Research Cheat Sheet

在大数据时代与用户交谈的情况

https://medium.com/@mgallivan/the-case-for-talking-to-users-in-the-age-of-big-data-bca4159e9620

相关书籍

Jeffrey Rubin和Dana Chisnell的手册或可用性测试

Medicine & Health Science Books @ Amazon.com

量化用户体验:Jeff Sauro和James Lewis用户研究的实际统计

Practical Statistics for User Research: Jeff Sauro, James R Lewis: 9780123849687: Amazon.com: Books

Nate Bolt和Tony Tulathimutte的远程研究

Remote Research – Rosenfeld Media

Indi Young的心理模型

Mental Models – Rosenfeld Media

卡顿排序由唐娜斯潘塞

Card Sorting – Rosenfeld Media

研究UX研究

UX研究与策略与Designlab

UX Research & Strategy on Designlab

Google用户体验研究研究

https://www.google.com/usability/

UX和Nielsen Norman集团的可用性研究方法培训

UX and Usability Research Methods Training by Nielsen Norman Group

“想成长为设计师?花大部分时间考虑它的运作方式,而不是看起来如何。”

——乔希·帕克特

 

原文链接:https://uxplanet.org/51-research-terms-you-need-to-know-as-a-ux-designer-fac0d40a59d7

大数据独角兽Palantir之核心技术探秘

1Palantir源起:B2B大数据和企业级Google

Palantir(中文名帕兰提尔,源于《指环王》中可穿越时空、洞悉世间一切的水晶球Palantír)被誉为硅谷最神秘的大数据独角兽企业,短短几年内跻身百亿俱乐部,成为全球最高估值排名第四的初创公司。它的主要客户只在美剧和好莱坞里出现,如美国联邦调查局(FBI)、美国中央情报局(CIA)、美国国家安全局(NSA)、美国军队和各级反恐机构,当然还有如JPMorgan这样的华尔街金融大鳄等等。

关于Palantir的传奇故事很多,CIA通过他家的大数据技术追踪到本拉登;创始人Alex Karp师从德国的Jürgen Habermas(研究西方马克思主义)获得哲学博士,热衷中国气功和太极;帮多家银行揭露旁氏骗局挽回数十亿损失,帮助摩根大通解决欺诈交易和黑客攻击问题,每年节约数亿美元;

公司创始人和投资人(号称“硅谷黑帮”)由海军陆战队员随时保护以防不测;产品只卖美国及其盟友国;与棱镜门有说不清楚的关系等…这些花边新闻不是本文的关注点,本文重点从大数据技术角度来揭密Palantir的B2B大数据王国。

如果说谷歌是互联网大数据的霸主(确实如此,我在前文《从Tensorflow看谷歌的云端人工智能战略》有详细解读),那么Palantir的目标就是做未来企业级大数据霸主,这家公司的愿景就是做企业和政府领域的Google。为什么这样讲?从技术角度来分析,这是大数据发展的必然趋势,互联网上的数据多半是UGC用户产生内容,或是如电商平台这种某细分领域的独立生态数据,而真正的大数据金矿还在众多大型企业和政府机构的服务器集群中沉睡。

比如一个国家的情报部门和各部、各局信息中心,无不是掌握着成千上万关键领域的大数据,包括各种业务数据、监控数据、DNA样本、语音视频图片、地图时空数据等(当然前提是信息化程度及其发达,就像我们的税务系统一样,而不是房产登记系统),面对如此海量、多源、异构而且高关联性、复杂性、动态性大数据,如果没有快速的大数据分析技术和工具支持,那只能是望数兴叹。

而Palantir的大数据技术和产品就是专门针对大型企业和政府机构需求而生(与互联网公司的大数据技术有较大不同),其官方主页上的自我定位也很准确:“Palantir’s mission is to solve the most important problems for the world’s most important institutions.”。企业级大数据玩家当然政府和金融是最具数权(信息权利)的两个领域,所以Palantir研发的平台级大数据产品只有两个版本:Palantir Gotham(服务政府及军队客户)和Palantir Metropolis(服务金融、法律及其它客户)。

如果说谷歌、亚马逊、Facebook等互联网巨头是B2C大数据,那么Palantir就是B2B大数据,多数企业和政府机构对大数据的应用还处于起步和探索阶段,互联网下或关键领域内网、专网中结合私有云技术的B2B大数据分析是大数据时代发展的必然,而且应用潜力和价值更为巨大,谷歌旗下DeepMind公司开始跟大型医院和卫生部门合作就是最好的注解,互联网巨头以其已有的大数据技术优势,其业务触角正在向传统行业延伸。


图1. Palantir官方主页的服务宗旨

2Palantir产品技术体系:军事、金融和警务大数据案例分析

网上有个段子,虽然真假不能确认,但却能从中看出Palantir的发迹史:“美国911之后,CIA等部门忙于调查各种线索。

Stanford的几个教授以公开的海量信息为输入,利用大数据处理技术建立关于人物关系的网络,最后锁定了一批疑似人,并迅速将结果发布出去,使得CIA等部门大为震惊,因为教授们的结果与CIA花人力物力大量侦查和审讯的结果很近似,让CIA们误以为教授们有牵连,迅速飞到Stanford找教授们问话。从此,“人脑+电脑“来分析复杂问题并辅助反恐成为可能”,Palantir正是在这一大背景下诞生和发迹的。目前Palantir有两大核心产品,Palantir Gotham和Palantir Metropolis,前者主要服务于国防安全和政府管理领域,后者主要服务于金融领域。

两大产品体系下辖十多种解决方案,如反欺诈(Anti Fraud)、网络安全(Cyber Security)、国防安全(Defense)、内部威胁(Insider Threat)、危机应对(Crisis Response)、保险分析(Insurance Analytics)、案例管理(Case Management)、疾病控制(Disease Response)、智能化决策(Intelligence)等。两个产品线的核心技术是服务客户整理、分析、利用不同来源的结构化和非结构化数据,创造一种人脑智能和计算机智能的共生分析环境及工具,人脑和大数据分析互补,提升客户的智慧和洞察力,从而解决大数据环境下的复杂问题决策。

Palantir在大数据江湖上最传奇的战绩,一是帮多家银行追回纳斯达克前主席麦道夫庞氏骗局的数十亿美金,二是帮助奥巴马政府追捕到本拉登。下面我们以军事、金融、警务三个方面的案例来对其产品的技术体系和服务内容进行初步探索和分析:

(1)以军事国防解决方案为例。其核心目标是将多个军事情报领域的海量数据进行融合和关联分析,转化为可操作的决策指挥能力,多情报领域数据的集成和融合是要解决的关键问题,包括非结构化和结构化数据流,如链接图,电子表格,电话,文档,网络数据,传感器数据,甚至动态视频、图像等。

Palantir提供了一个基于全量多模态数据融合和协同挖掘分析的大数据支撑框架,可以对在地理、空间上分散的人、装备、环境、事件等进行大规模实时关联和因果分析,以指导复杂战场环境下的军事行动。这些大数据技术已被美国军方广泛运用于战场态势分析和预测,如定位伊拉克战场可能存在的炸弹或地雷位置,帮助美军在巴格达规划一条被袭概率最小的路径,或者分析亚丁湾海盗活动的热点区域。

这些分析整合了美军等多方原本孤立的数据源(如军事情报部门和陆海空、海军陆战队等组织机构的数据),通过Palantir的Nexus等技术,无缝整合同步数据和进行分析模型协同,包括各类数据模型、安全模型和本体对象的管理,其全量数据分析和知识管理能跟踪每一个数据和模型的读,写和编辑、保存,以积累战场空间的决策知识。基于通用的大数据融合分析平台,使指挥人员和调度人员能在单一系统内解决所有问题,包括敌人的活动情报分析(情报报告,事件行为等),关联分析(背景、跟踪、时空、反应等)和预判决策等功能。

下面几个图(图2-4)是Palantir 为美国军队提供的软件功能界面,从其中的功能和数据元素我们可以看出Palantir 的大数据分析技术已经深入美国核心情报军事机构,帮助其实现作战打击链的全局决策支持,从分析情报、打击目标,再将军事行动中获得的新情报与现有大数据进行融合更新,极大提高了情报分析和指挥决策能力。

图2. 国防部和海军的一个联席分析功能界面,对其舰船、飞机、情报文本和相关战场环境资源做了融合和关联,在统一视图里面进行管控,技术实现上把上述资源映射为各类事件、实体、对象及其关系。

图3. 阿富汗战场的融合分析功能界面,对各个区域的各类事件(武装袭击、爆炸、绑架等)进行了大规模关联分析,通过大规模数据可视化钻取和查询,可以找出事件之间的因果关系链。

图4. 战场空间感知态势图,战场环境下各类资源和事件总体态势分析

(2)以金融欺诈解决方案为例。Palantir凭借其为政府服务的影响力,在2010年摩根大通成为它的首批非政府客户。后来Palantir帮多家银行追回纳斯达克前主席麦道夫庞氏骗局的数十亿美金,名声大振,其出色的大数据技术获得华尔街金融大鳄们的认可,目前许多银行、保险、对冲基金,包括美国证券交易委员会都在使用Palantir的产品和技术。

反欺诈是金融领域的一项关键业务,信用评级、风险管理、关联交易、洗钱、逃税等都涉及此项分析内容。而金融是信息化程度极高的行业,拥有海量的相关数据。Palantir的Metropolis平台可将许多孤立的金融环境数据汇集到统一分析系统,通过时间序列以及关联分析、频繁项分析和知识图谱、社交网络等机器学习技术挖掘出有价值的信息。下面图5-6是Palantir金融版功能界面。

图5. Palantir金融版Metropolis平台功能界面图

图6. 通过关联交易、知识图谱、社交网络和频繁项等机器学习技术建立的反欺诈分析视图

(3)以警务预测解决方案为例。Palantir通过与美国各州的警队合作,将遍布在城市及乡镇各处卡口、警车上的摄像头拍下的照片及视频入库存储,与警方的人口数据库、犯罪数据库、DNA数据库等进行深度融合,提取出如车牌号码、人脸、DNA及体态等关键信息,这些信息虽然繁琐且表面看起来关联性不强,但其间却蕴藏着各式各样的关系(强、弱;直接、间接等),联系之间更是隐藏着深层的信息。

通过大规模数据可视化交互技术可将数据间有价值的关联关系深度挖掘出来,形成完整的证据链条,为警方节约大量的人力和时间,而且通过间接关联分析,一定程度上能解决线索中断的问题。

通过预测性警务模型分析历史犯罪数据,还能计算出最有可能在警察下一次执勤时发生犯罪活动的地点。2011年,美国海关的一名情报人员在墨西哥被一群毒贩射杀,美国警方随即展开名为Operation Fallen Hero的行动,利用Palantir大数据技术,在浩瀚的人物、地点以及事件等等元素中间建立复杂的关系链,同时融合联邦探员自身掌握的信息,如大毒枭们,及其下线的融资渠道以及运毒路线,通过对与本案相关多源数据关联的可视化展现、交互分析,将分散隐蔽的证据、信息进行有效衔接,同时筛选排除干扰信息,将证据链完整呈现。最终通过资金往来以及人际关系网络分析理清了关键人物以及关键联系,并确定了主要嫌疑犯,逮捕了600多名毒贩和大批毒品武器。

图7. 传统的嫌疑人关系网及证据链分析示意图

图8. Palantir系统锁定嫌疑人分析功能界面,通过整合各类人员信息,包括地址、邮件、电话、消费、旅行等各类数据;可视化关系网络,来分析各类人员信息和事件之间的关联关系,构造完整的证据链条。

通过上述三个解决方案的初步业务和技术分析,Palantir的核心技术关键词可见一斑。一是敏捷大数据架构,重在数据规模的可扩展性,兼顾分析实时性和灵活性;二是全量的数据融合和关联存储,通过本体论抽象出各类数据资源的关系进行映射存储和关联索引;三是分析模型的动态组合和快速定制,针对不同分析场景可以快速组建分析模型;四是面向人机共生的大数据可视化技术,构造全局分析链,把人脑决策和数据可视化探索进行深度融合。下面我们分别对这几个方面的核心技术进行探索和解读。

3Palantir架构设计:敏捷大数据架构的优美实现

Palantir的核心技术是构建了“大数据分析的基础设施”,如果AI时代谷歌的DeepMind是互联网的大脑(B2C-AI),那么Palantir很可能就是企业巨头和政府的AI大脑(B2B-AI)。

这套大数据基础设施一定是敏捷灵活的,才能催生智能。Palantir从数据融合、应用建模和可视化决策三个层面为客户提供各种敏捷数据分析平台和系统,基于海量数据的融合和分析,可以曝光恐怖分子的网络,计算战场环境下的安全驾驶路线,探索犯罪分布和追索嫌疑人,还能跟踪致命病毒的爆发路径等。这一切的实现都是基于其敏捷大数据架构(Scale, Speed, Agility)。我在前文《说说敏捷大数据》和《大数据应用从小做起?谈微服务和大数据架构》中对敏捷大数据给出了初步定义:“敏捷大数据是基于数据科学的迭代性本质,利用高效构件化和微服务化技术,对大数据架构和关键组件等进行服务化设计,实现多粒度数据的融合处理和计算模型的标准化配置和管理,从而能根据特定分析需求快速搭建原型系统,快速迭代大数据分析结果,快速将原型转化为生产系统,提升大数据分析效率和数据决策价值”。

敏捷大数据的核心要素遵从SFV原则(Small,Fast,Validation,SFV):一是小、二是快、三是证,小的业务分析目标切入,快速出原型快速迭代,证明有效之后再扩张。

从Palantir的技术组件和功能分析来看,通过其数据融合和本体抽象映射,以及模型组合和可视化等技术,应该说初步实现了敏捷大数据分析目标。下面从大数据架构角度解读几个关键的技术点:从图10的Palantir大数据物理架构设计图可以看出,其核心是围绕全量的数据融合和关联存储,通过本体论抽象出各类数据资源的关系进行映射存储和关联索引,设计实现参考了全文搜索的思想,不过是在多源、异构、多模态条件下的全文索引和搜索,里面涵盖了复杂的动态本体论,以及对现实对象和实体的转换、映射和关联等操作,相比互联网搜索引擎的索引技术,是进行了深度扩展的。

另外,Palantir采用了clusterable数据存储技术如Phoenix系统,支持PB级规模数据扩展。从底层的数据整合,数据管道的定制,以及自定义的分析指标和用户界面,都被整合进一套可视化的向导式的大数据分析平台。另外设计了revdb可跟踪任何对象的动态变化,以支持动态模型分析和实时决策。

图9. Palantir大数据系统技术架构设计图

Palantir通过适配器和系统API,将多源异构数据表示为统一的模型(Model),也就是数据动态本体的融合实现,作为分析的基本数据单元,模型是源数据集的行和列转化为现实世界中实体的概念对象,任何可用数据描述的现实世界对象都可以作为模型。模型之间可以多重组合,构成更大的模型,以支持复杂的计算。

Palantir系统在初始化时需要配置分析目标所需的模型类型及其相关属性。同样,Document作为实际的数据+分析单元,是一种动态数据流,可以不断迭代并作为新的分析模型输入,而且简单的Document可以组合为更复杂的Document,而Metrics可对模型Model进行各种计算。通过Model、Metrics和Document三种系统对象进行关联分析操作,简单的Model被作为更复杂Model的构建块,简单的Document被作为更复杂的Document构建块,基于动态本体的支持,可以让分析人员构建和分析任意现实数据和对象,针对数据科学的迭代本质,可以让分析人员不断转变分析逻辑,验证新假设,并将新发现交给决策者,决策者重新制定新关注点,并向分析者提出新问题。

最后通过这种迭代式、交互式、可视化大数据分析技术(如图11)进行切实的辅助决策支持。可以看出,上述Palantir系统设计的各种元素及其设计思想,是极其符合敏捷大数据架构特征的,可以说是一种敏捷大数据架构的完美实现。

图10. Palantir大数据可视化功能界面图

4Palantir大数据融合:本体论与全量数据的无缝融合索引设计

Palantir敏捷大数据的设计实现,采用现实世界的本体抽象理论方法,基于现实对象和实体的数据映射模型,动态本体是由来自多个数据源的数据(包括结构化数据如日志文件,电子表格和表格;和非结构化数据,如电子邮件,文档,图像和视频等。)进行转换和集成,从原始存储格式转化为数据实体对象和相关的属性(类似于数据仓库的数据集市模型,如雪花和星型模式),实体及其关联关系代表了现实世界中的人、物、事件、时空等对象属性以及它们之间的连接。

因为现实世界的对象属性时刻在变化,所以这些模型也是要能随时间变化的,动态本体设计就是基于这一核心思想,并对各类数据源的自动添加,删除,修改及其映射等操作进行了简化。这种灵活的、统一的动态本体数据模型,极大简化和标准化了数据集成和数据融合过程。

如何对现实世界进行本体设计和实现是Palantir最为基础的核心技术,先看看什么叫本体论:“Ontology(本体论)一词是由17世纪的德国经院学者郭克兰纽(Goclenius,1547-1628)首先提出。

在古希腊罗马哲学中,本体论的研究主要是探究世界的本原或基质。各派哲学家力图把世界的存在归结为某种物质的、精神的实体或某个抽象原则。巴门尼德提出了唯一不变的本原“存在”,使关于存在的研究成为这一时期的主题。亚里士多德认为哲学研究的主要对象是实体,而实体或本体的问题是关于本质、共相和个体事物的问题。他认为研究实体或本体的哲学是高于其他一切科学的第一哲学。

从此,本体论的研究转入探讨本质与现象、共相与殊相、一般与个别等的关系。本体论(ontology)是哲学概念,它是研究存在的本质的哲学问题。但近几十年里,这个词被应用到计算机界,并在人工智能、计算机语言以及数据库理论中扮演着越来越重要的作用。”—来源于百度百科。

图11. 基因本体示意图

十年前,我做文本分类挖掘时了解过“本体”这一概念,当时觉得太玄太虚?当我看到Palantir创始人Alex Karp师从德国的Jürgen Habermas获得哲学博士,再看他家产品的设计理念,才恍然大悟,也许这个本体论真是反应了世界知识结构的本原呢?

虽然Karp是个哲学博士,但看来他是深谙计算机知识工程的本质的,通过现实世界数据的本体设计,再加上以人为中心的大数据分析理念,成就了让美国军方和金融大鳄认可的核心技术和产品,再次说明了让大数据应用落地并产生价值是需要有几把刷子的(当然前提是他家产品确实是得到高度的认可,而不是虚假的营销和包装)。

Palantir的无缝数据融合关键技术在于数据模型(本体)是灵活的,动态的,而且要能反映人、事、物和环境的关联关系及推理过程,这是大数据技术面临的核心挑战。Palantir通过本体设计、模型组合和数据集市等设计方法和技术,实现了各领域的智能分析,比如财务分析,基本数据类型和本体模型包括金融工具,日期,投资组合,指数和策略等,金融研究人员的思考、经验、谈论和推理等内容作为本体数据的衍生,构成类似数据集市的大的领域本体。在其它军事、网络分析产品中,设计思路和方法类似。

本体数据类型包括了人、地点、事物和事件所有关系及其相关属性,而这正是我们人脑中思考表达世界的方式,突出人在分析过程中与现实世界数据的交互能力(human-driven analysis),再结合可视化技术,通过这种数据融合分析过程,我们就会非常擅长在大数据中找寻具有特殊意义和决策价值的信息。

 5Palantir大数据计算:多维关联挖掘与全链因果分析视图

基于本体论设计的海量数据融合和关联索引,是大数据计算的基础。而机器学习算法和强大的数据扫描及分析引擎(可以同时扫描多个数据库)是大数据计算的关键技术。针对现实环境中大数据多源、异构、海量等特征,传统的计算模型难以直接处理。

一般来讲,数据计算层需满足主流大数据处理框架的各种计算模型与方法实现,如基于云计算并行框架,来实现基于Hadoop批处理、Storm流处理、Spark内存处理的高效数据挖掘与机器学习。

而且要支持MapReduce、Storm、Spark等多种计算模式下的多种数据挖掘模型与方法。Palantir的数据计算层网上公开资料不多,具体基于那些机器学习模型实现的信息很有限,总体看来其应用的机器学习算法并不太多,其核心是全面的数据融合,索引和可视化分析。

但其设计思想还是可以大概梳理出来的,Palantir的数据计算层主要通过资源管理器进行实现,包括模型和数据两个层面的资源:一是用于分析模型资源的统一管理。资源管理器允许分析人员定义和应用一系列过滤器,快速进行各类分析模型的组合和构建。子模型的结果可以建立快照和保存,并用于组合更大的分析任务模型。

二是用于数据本体资源的管理,数据本体作为一个灵活的映射为图形对象及其关系的真实世界实体,如“人”和“组织”的相关特征,以及它们之间的连接,需要集成许多不同种类的多源异构数据资源,并通过数据库索引技术把各级数据本体及其属性、相互联系等融合成有机整体,以供可视化全证据链分析。

图12. Palantir大数据计算与关联分析功能界面图

分析人员可以利用机器学习、统计和数学符号库对各类模型进行计算和构建,简单的模型可以作为构建更复杂模型的基础,而更为精巧复杂的分析行为就是一个流线型、模块化的过程。

Palantir创建的分析模型以一种被称为Document的形式进行存储,模型可以分享,链接和重组,而且可以加入工作流程中进行迭代分析。通过Model、Document和Metric的组合和连接,构建模型组合和关联分析的整个分析链条,并在可视化界面上进行互动操作和多视角关联分析。

通过这种数据计算建模方式,基于数据融合本体模型和以人为中心的数据可视化技术,实现快速查询,快速迭代和分析协同,将整个过程的相关碎片信息汇集到Palantir系统,建立关联联系,分析因果关系,最终构建一套强大的通用大数据分析平台。

6Palantir大数据可视化:决策导向与人机共生的分析环境

大数据分析工具固然重要,但是人的判断更重要,机器智能只能是辅助决策(特别是重要的决策)。

通过大规模机器学习,可以获得领域专家或决策者关注的价值规律信息,但应用要落地,就必须对挖掘分析结果进行直观理解和形成辅助决策知识,传统的人机交互方式对大数据可视化决策来讲还不够,大数据可视化互动操作(钻取、多层次、多视角)、对基于GPS/GIS/卫星图像的大规模空间网络和附加数据图层可视化、动态数据流轨迹和链路可视化等技术都需要深入研究。

Palantir的产品把海量多源、异构数据的融合和机器学习算法引擎整合得很优美,处处体现了敏捷大数据设计思想。但更为出彩的设计还是它的可视化技术,Palantir提出了一种人机共生的可视化大数据交互探索分析理念,这里我再加了决策导向,为什么要人机共生,当然是更好地服务于决策,Palantir的本体数据模型设计同样是想帮助人们更好地理解现实世界的各类实体、对象及其联系。

图13. Palantir大数据可视化交互界面图

我们都知道,大数据不仅数量庞大而且是动态变化的,大数据环境下普通用户如何才能理解和使用好分析工具很关键,甚至很多用户对自身的分析需求都不知道的情况下。

Palantir不只是做数据整合和把分析结果摆出来就完事了,而是把初步分析结果呈现给用户,让用户深度参与后续的探索过程,从而发现各种信息之间的联系,帮助用户寻找的深层分析需求和数据之间的深度关联,整个过程是不断迭代和优化的,最终提高用户的决策能力。

要让用户搞清楚这一个过程,多种维度的可视化技术十分关键,当然Palantir的数据本体模型设计,在一定程度上降低了用户对数据的理解难度,相比分类、聚类、预测、神经网络及其复杂参数项等概念来讲,现实数据和实体、属性、事件、关系等进行映射,一般人还是可以理解的。Palantir的交互式可视化界面采用了丰富的大数据可视化技术。

各类表格,散点图、地图、网络图、热点图、曲线图等的快速展示和流畅交互,为用户提供了一个分析主题数据相关的全盘视角,而且可视化功能随着数据源或分析条件变化可以动态调整和实时响应,下图是Palantir典型的可视化图表。

图14 Palantir大数据可视化典型图表

7.总结与启示

最后做个小结,本文对大数据独角兽企业Palantir的核心技术进行了初步探索和解读,虽然我们军方和国家安全部门的大数据应用情况,暂时不是很了解。但从企业应用和各级地方政府大数据应用的了解情况看,我们与美国在大数据领域的关键技术研究方面还是有较大差距。

正是因为Palantir这种明星公司可能有过度包装宣传的因素,所以本文从技术角度进行了解析,对其技术成熟度和技术先进性应该说有了一定理解和把握,包括其大数据架构、大数据融合(将所有的相关数据进行自动连接,构建相关数据链)和核心技术的设计思想、大数据计算和模型元素(Model-Metric-Document分析嵌套)组合以及以人为中心的可视化技术等内容。当然受限于核心技术资料的公开度,各项关键技术暂时无法做细致深入的解构。

多年前我和一位朋友就讨论过一个问题,当然那时候还没有大数据这个概念,当时我们在思考能否设计一个软件,能整合和查询大型企业所有相关数据,包括各种业务系统数据库、全局信息环境下各类PC和各级服务器上的文本、图片、视频或公网的相关竞争情报数据等,其实就是后来BI领域火过一阵的企业搜索,不过当时很多国内企业连统一视图的报表都做不好,结构化数据都管理不好,何来非结构数据的融合需求呢?想来也是太超前了,但大数据要有价值,就不能放过任何数据。

现在Palantir的B2B大数据业务就是在做这个事情,而且是做大做强了。所以说,要构建大型企业和政府机构的决策大脑,B2B的企业大数据系统必须要上,而且其应用价值不会比互联网大数据应用价值小。Palantir的政府大数据系统、金融大数据系统、DeepMind的医疗大数据系统、通用电气(GE)的物联网大数据系统等,都在向这个趋势演化。

全量大数据分析,一定面临数据多源异构、关联性、动态性和不确定性等复杂多变的问题,Palantir的“人机共生”大数据分析理念值得我们学习,而且会是将来AI时代最为重要的大数据应用模式。

例如军事情报分析和反欺诈分析,敌人或犯罪分子的应对手段也是在动态变化的,只靠历史数据分析是不够的,而且最新动态信息跟不上的话,分析结果可能会造成严重误导(就像猪的世界里一定不会有被宰杀的记录进行存档),大数据系统一定要解决增量、动态、反馈、知识、决策这几个关键问题,而且是要把这几个方面串起来,形成完整的分析链,采用Palantir产品设计的人脑和系统共生的分析方式,从而能够对快速变化作出实时响应。大数据不仅仅是数据采集,分析和管理,更为重要的是领域业务、知识模型和本体抽象融合,把人的理解和决策,与机器智能的融合、计算、推理能力强强联合,是Palantir最为核心的大数据技术,另外Palantir做的不只是产品,通过技术人员的现场服务,帮助分析人员理解融入人机共生的大数据分析环境,这才能最大化大数据系统的辅助决策价值。

总之,大数据和AI时代的基础设施,除了互联网界的谷歌、亚马逊等巨头之外,在传统大型企业和政府领域还会有Palantir这样的B2B大数据独角兽,换句话说,Palantir代表了美国在线下大数据领域的核心竞争力(特别是结合空天技术的军事、公共安全大数据领域,是大数据时代国防和内部安全的核心技术保障),互联网毕竟还是虚拟空间,不能构建真实世界完整的数据视图,军事、金融、政务、交通、医疗等领域融合自身线下大数据和线上数据的高效分析智能决策,才是未来国家大数据治理之根本。如此看来,人工智能时代,不管是B2C还是B2B大数据,核心技术的落后其后果是难以估量的。

来源:http://mp.weixin.qq.com/s?__biz=MzA5NDExMTAzNA==&mid=2649981946&idx=1&sn=436f05793340413b549debaf5c9bec6f&chksm=8854b7afbf233eb925cb29e0844ae83d05606aaa7d1bce567dff0753eedb83e2ce80ae098f4f&mpshare=1&scene=1&srcid=0406UZ2jOL7q71wokLSi298C#rd

分布式计算开源框架Hadoop入门实践(一

来源:https://www.evget.com/article/2017/4/28/26165.html
概述:Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。

在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice —日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQL就完成了访问控制以及统计的工作。然而未来,对于海量日志分析的工作,还是需要有所准备。现在最火的技术词汇莫过于“云计算”,在Open API日益盛行的今天,互联网应用的数据将会越来越有价值,如何去分析这些数据,挖掘其内在价值,就需要分布式计算来支撑海量数据的分析工作。

回过头来看,早先那种多线程,多任务分解的日志分析设计,其实是分布式计算的一个单机版缩略,如何将这种单机的工作进行分拆,变成协同工作的集群,其实就是分布式计算框架设计所涉及的。在去年参加BEA大会的时候,BEA和VMWare合作采用虚拟机来构建集群,无非就是希望使得计算机硬件能够类似于应用程序中资源池的资源,使用者无需关心资源的分配情况,从而最大化了硬件资源的使用价值。分布式计算也是如此,具体的计算任务交由哪一台机器执行,执行后由谁来汇总,这都由分布式框架的Master来抉择,而使用者只需简单地将待分析内容提供给分布式计算系统作为输入,就可以得到分布式计算后的结果。

Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。

当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关内容,都是一个新手的学习过程,难免会有一些错误,只是希望记录下来可以分享给更多志同道合的朋友。

什么是Hadoop?

搞什么东西之前,第一步是要知道What(是什么),然后是Why(为什么),最后才是How(怎么做)。但很多开发的朋友在做了多年项目以后,都习惯是先How,然后What,最后才是Why,这样只会让自己变得浮躁,同时往往会将技术误用于不适合的场景。

Hadoop框架中最核心的设计就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。

MapReduce从它名字上来看就大致可以看出个缘由,两个动词Map和Reduce,“Map(展开)”就是将一个任务分解成为多个任务,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。这不是什么新思想,其实在前面提到的多线程,多任务的设计就可以找到这种思想的影子。不论是现实社会,还是在程序设计中,一项工作往往可以被拆分成为多个任务,任务之间的关系可以分为两种:一种是不相关的任务,可以并行执行;另一种是任务之间有相互的依赖,先后顺序不能够颠倒,这类任务是无法并行处理的。回到大学时期,教授上课时让大家去分析关键路径,无非就是找最省时的任务分解执行方式。在分布式系统中,机器集群就可以看作硬件资源池,将并行的任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,同时这种资源无关性,对于计算集群的扩展无疑提供了最好的设计保证。(其实我一直认为Hadoop的卡通图标不应该是一个小象,应该是蚂蚁,分布式计算就好比蚂蚁吃大象,廉价的机器群可以匹敌任何高性能的计算机,纵向扩展的曲线始终敌不过横向扩展的斜线)。任务分解处理以后,那就需要将处理以后的结果再汇总起来,这就是Reduce要做的工作。

hadoop

上图就是MapReduce大致的结构图,在Map前还可能会对输入的数据有Split(分割)的过程,保证任务并行效率,在Map之后还会有Shuffle(混合)的过程,对于提高Reduce的效率以及减小数据传输的压力有很大的帮助。后面会具体提及这些部分的细节。

HDFS是分布式计算的存储基石,Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。分布式文件系统基本的几个特点:

  1. 对于整个集群有单一的命名空间。
  2. 数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在。
  3. 文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会由复制文件块来保证数据的安全性。

hadoop

上图中展现了整个HDFS三个重要角色:NameNode、DataNode和Client。NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。Client就是需要获取分布式文件系统文件的应用程序。这里通过三个操作来说明他们之间的交互关系。

文件写入:

  1. Client向NameNode发起文件写入的请求。
  2. NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
  3. Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

文件读取:

  1. Client向NameNode发起文件读取的请求。
  2. NameNode返回文件存储的DataNode的信息。
  3. Client读取文件信息。

文件Block复制:

  1. NameNode发现部分文件的Block不符合最小复制数或者部分DataNode失效。
  2. 通知DataNode相互复制Block。
  3. DataNode开始直接相互复制。

最后再说一下HDFS的几个设计特点(对于框架设计值得借鉴):

  1. Block的放置:默认不配置。一个Block会有三份备份,一份放在NameNode指定的DataNode,另一份放在与指定DataNode非同一Rack上的DataNode,最后一份放在与指定DataNode同一Rack上的DataNode上。备份无非就是为了数据安全,考虑同一Rack的失败情况以及不同Rack之间数据拷贝性能问题就采用这种配置方式。
  2. 心跳检测DataNode的健康状况,如果发现问题就采取数据备份的方式来保证数据的安全性。
  3. 数据复制(场景为DataNode失败、需要平衡DataNode的存储利用率和需要平衡DataNode数据交互压力等情况):这里先说一下,使用HDFS的balancer命令,可以配置一个Threshold来平衡每一个DataNode磁盘利用率。例如设置了Threshold为10%,那么执行balancer命令的时候,首先统计所有DataNode的磁盘利用率的均值,然后判断如果某一个DataNode的磁盘利用率超过这个均值Threshold以上,那么将会把这个DataNode的block转移到磁盘利用率低的DataNode,这对于新节点的加入来说十分有用。
  4. 数据交验:采用CRC32作数据交验。在文件Block写入的时候除了写入数据还会写入交验信息,在读取的时候需要交验后再读入。
  5. NameNode是单点:如果失败的话,任务处理信息将会纪录在本地文件系统和远端的文件系统中。
  6. 数据管道性的写入:当客户端要写入文件到DataNode上,首先客户端读取一个Block然后写到第一个DataNode上,然后由第一个DataNode传递到备份的DataNode上,一直到所有需要写入这个Block的NataNode都成功写入,客户端才会继续开始写下一个Block。
  7. 安全模式:在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。

下面综合MapReduce和HDFS来看Hadoop的结构:

hadoop

在Hadoop的系统中,会有一台Master,主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。还会有多台Slave,每一台Slave通常具有DataNode的功能并负责TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。

说到这里,就要提到分布式计算最重要的一个设计点:Moving Computation is Cheaper than Moving Data。就是在分布式处理中,移动数据的代价总是高于转移计算的代价。简单来说就是分而治之的工作,需要将数据也分而存储,本地任务处理本地数据然后归总,这样才会保证分布式计算的高效性。

为什么要选择Hadoop?

说完了What,简单地说一下Why。官方网站已经给了很多的说明,这里就大致说一下其优点及使用的场景(没有不好的工具,只用不适用的工具,因此选择好场景才能够真正发挥分布式计算的作用):

  1. 可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。
  2. 经济:框架可以运行在任何普通的PC上。
  3. 可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。
  4. 高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。

使用场景:

个人觉得最适合的就是海量数据的分析,其实Google最早提出MapReduce也就是为了海量数据分析。同时HDFS最早是为了搜索引擎实现而开发的,后来才被用于分布式计算框架中。海量数据被分割于多个节点,然后由每一个节点并行计算,将得出的结果归并到输出。同时第一阶段的输出又可以作为下一阶段计算的输入,因此可以想象到一个树状结构的分布式计算图,在不同阶段都有不同产出,同时并行和串行结合的计算也可以很好地在分布式集群的资源下得以高效的处理。