Splunk使用指南与智能运营

Posted by admin on Jun 23, 2011 in 更多文档 | 0 comments



什么是Splunk?

Splunk是一款IT数据搜索引擎,可收集、索引并利用所有IT系统和基础架构(物理、虚拟或云基础架构)中产生的IT数据。利用Splunk与IT数据,可显著提高IT和公司的可视性和智能化。

IT数据

所有IT应用程序、系统和基础架构每时每刻都在生成数据。这些IT数据明确记录了所有用户交易、客户行为、机器行为、安全威胁、欺诈活动及其他活动。这些数据也是动态的、非结构性的并且是非标准的,并且是用户组织中数据的主要组成部分。

IT数据是非常宝贵的资源,但很少有组织能够从中挖掘出他们所需要的价值。现有的数据分析、管理和监控方案并非为这一类型的数据而设计。

以信息管理为例。数据库和关系数据库管理系统是根据刚性模式并专门为结构性和相容数据而设计的。这两个系统能够提供历史分析但无法实现实时可视性。企业搜索专为人类产生的数据而设计,如文件和网页。人类产生的数据与机器产生的IT数据截然不同,其不同之处在于人类产生的数据在规模与多样性方面拥有更高的数量级。

另一方面,IT管理工具、安全信息和事件管理是相互独立,并仅为单个组织的一个层面设计。两个系统在源数据方面均不够全面,仅是在处理特定的数据类型与来源时进行硬连接。上述两个系统也可以跨系统监控,但它们收集的数据之间存在巨大的空白。也无法提供任何历史语境。

找到一个更好的办法来筛选、提炼并了解数量惊人的IT数据能够改变IT组织的管理、安全和IT审计方式,同时也能为公司提供有价值的洞察力,帮助分析公司客户和服务的趋势和行为。

Splunk解决方法

Splunk是专为解决整个IT数据问题应运而生的。Splunk是一款IT数据引擎。它能够收集、索引并利用所有非结构性时序IT数据。它可以从任何用户可以想到的数据来源中读取数据,例如网络通信、Web服务器、自定义应用程序、应用程序服务器、管理程序、GPS系统、股市订阅、社会媒体以及预先存在的结构性数据库等。

Splunk还拥有其他产品所没有的功能。它能实时了解用户IT系统和基础架构中正在发生的事件,并深度分析已经发生的事件。它能将IT数据变成用户需要的分析结果,帮助用户做出明智的决定。

Splunk可解决许多IT领域方面的问题,例如:

  • 应用管理(程序):跨应用程序环境排查问题;监控性能下降
  • 安全与合规性:提供快速的事件响应,关联并深入监控所有数据来源
  • 基础架构与运营管理:主动监控,确保系统正常运行时间;迅速查明并解决问题
  • 业务分析:获得客户、服务和交易的可视性与智能性;实时辨识趋势及模式

找到并解决问题、追踪攻击者的踪迹、报告合规性以及分析客户行为,这些均需全面进行。

排查问题一般意味着将Web服务器日志、面向服务架构消息、数据库交易、虚拟性能以及配置变化联系起来。

调查安全事故不但要求分析服务器日志、防火墙和入侵监控系统扫描中的事件,还要求分析应用程序事件、配置及脚本以了解已经发生的安全事故。

要满足合规性,除了要求对整个基础架构进行系统评价,还要求长期保留基础架构中的IT数据,并为日常运作需要而设定更多的数据存取障碍。当公司要寻找更高质量的信息时,对于可能合并于公司数据的大量IT源中的交易和事件,应进行实时关联并与分析。

Splunk仅用一个方案便提高了网络工程师、系统管理员、安全和合规分析师、开发员、支持/服务台工作人员以及类似的商业用户的可视性。我们把这称为提供智能运营。

Splunk的不同之处

Splunk与以前在IT系统中管理、审计、保护和收集信息的方法不同。以下是Splunk的不同之处:

无风险的直接结果。Splunk使企业软件变得更加简单。用户可以在几分钟内免费下载并安装Splunk,输入任何IT数据并立即获得效益。运行Splunk不需要过多的咨询人员或数据库管理人员。这个可以直接被证明,因为大多数用户都是在受到攻击时下载并安装Splunk。以前需要花费几小时甚至几天时间调查的严重的服务问题或安全事故,现在只需要几分钟就可以完成。

Splunk使用的是高性能的索引和搜索技术。全世界每天有数百万人搜索并浏览计算机上数十亿的网页。搜索是灵活的、直观的并能显示直接结果。Splunk的核心是功能强大的索引及搜索技术,它给予了速度和反应一个全新的定义。有了Splunk,用户可以在数秒内搜索数十亿的事件并立即看到搜索结果。

专为非结构性时序数据设计。IT数据是一种非结构性数据。它是基于时序、动态和非标准数据。它能捕捉所有的机器对机器和人机互动,生成的数据量远超过结构性企业数据。IT数据正在以指数级的速度增长。由于Splunk使用的不是预定义模式,因此,它能够从任何可以想到的数据来源上读取任何格式的数据。

分析实时和历史数据。传统的IT系统不能同时提供实时监控和历史分析功能。有了Splunk,用户可以在同一个方案中搜索和分析实时的高速数据流和历史IT数据。这意味着用户可以及时地辨识用户所关心的行为或活动的模式并做出反应。

索引任何来源的IT数据。系统管理、安全信息与事件管理、复杂事件处理/ECA(事件、条件和动作)以及日志管理产品需要花费几周甚至几个月的时间来开发或为每个数据源配置自定义连接器。Splunk可以直接从几千种数据源中直接收集数据,并将数据实时且安全地传送到中心位置。当用户无法从网络上获取数据时,还可以安装Splunk forwarder。数据转发器的体积轻便,它们能够监控本地应用程序日志文件、按计划采集输出状态命令、从虚拟或非虚拟数据源中获取性能度量或者在配置、任务和属性更改时查看文件系统变化。

用户的亲睐。以前用户使用Splunk管理孤岛的IT基础架构。但随着现今分布式、高扩展性计算的出现和基于Web的复杂应用程序和虚拟化的扩散,这已经行不通了。Splunk对IT孤岛进行了划分。用户可以在同一个地方实时地搜索、报告、监控并分析每一个应用程序、服务器和设备上的所有数据。用户还可以很方便地将Splunk与现有的企业管理、安全和合规性工具整合在一起。发现并解决问题、追踪攻击者的踪迹、追踪交易以及从运营数据中获得新的信息忽然间变得如此快速简单。

自定义仪表板和视图。Splunk可以帮助用户理解数量惊人的IT数据,满足不同用户以及组织内不同团体的需求。可以为实时IT数据创建自定义图表,并将数据整合成多种图表形式及视图。Splunk为管理人员、商业分析师、安全分析师、审计人员、开发人员以及系统管理员提供个性化的图表。这些图表都可以PDF形式定时发送。

为用户的IT数据创建应用程序(app)。在Splunk上创建应用程序可为特定用户带来不同的角色体验和案例。用户可以在组织内以及在Splunk交流社区共享并重复使用应用程序。在我们的交流社区(网址:www.splunkbase.com)上已经有越来越多的应用程序可以使用。该交流社区由我们的社区、合作伙伴及Splunk一起构建。应用程序包括按地区划分将数据可视化以及提供预置合规视图的应用程序,还包括各种技术的应用程序,如Windows、 Linux和Unix系统、虚拟化和联网技术等。

紧跟变化的步伐。在现今动态、可视化的IT环境中,只有变化是永恒的。我们所想的往往是错误的。传统的IT管理和安全方法是假设用户已经预先了解所有可能的故障和风险并假设数据格式保持不变。现在已经完全变了。实际上,大多数的IT组织花在自定义和维护工具的时间比他们实际使用工具的时间要多得多。

Splunk不依赖一些灵活性有限且当数据格式变化时即不再适用的脆弱架构。Splunk可以随时实时索引用户鼠标所点击的所有数据。用户所需的任何与数据有关的解释,如提取现场数据、标记主机的子集等都可以根据用户的搜索快速完成。

从笔记本电脑到数据中心。当需要精打细算时,一些组织往往找不到他们所需的资源。而Splunk的定价和功能适合所有的环境使用。只需5分钟,用户既可以下载并在笔记本电脑上运行。用户还可以在全球最大的基础架构——每天索引的数据达到几TB的基础架构上扩展Splunk。




为智能运营提供主要功能

  • 随时随地索引任何来源的IT数据
  • 在同一地点实现自由式搜索及事件调查
  • 自动从IT数据中发现信息,用户也可自己添加信息
  • 监控任何IT数据且当特定情况出现时提供警报
  • 强大的IT数据报告与分析功能
  • 为不同角色创建自定义仪表板和视图
  • 可使用商用硬件无限扩展数据量
  • 基于角色的安全与数据存取精细控制
  • 支持多租户,部署灵活

通用的索引

每秒钟用户基础架构中的单个组件都会生成数百条事件。数据中心每天能记录几TB的数据。数据的格式和存储位置如此不同,用户可能开始烦恼如何才能存取IT数据。Splunk为用户提供了一系列灵活的输入方式,不需要特殊的连接器来输入不同格式的数据。这样用户就可以从应用程序、服务器和网络设备(物理、虚拟和云网络设备)上立即索引日志,点击流数据、配置、陷阱和警报、信息、脚本、性能数据和性能统计数据。

灵活的数据输入。用户可以在Splunk上点击服务器或网络设备上的系统日志,设置WMI轮询、实时监控实时日志文件、监控文件系统和Windows注册表的变化、安排一个脚本来执行并捕捉系统状态命令输出、与事件应用程序界面连接、查询数据库、预订消息队列以及调用远程资源。不论用户是如何获得数据,也不论数据的格式是什么,用户都可以用同一种方式索引数据,不需要特殊的解析器或连接器来写入或维护数据。

实时索引。IT人员依靠最新的信息进行排查、安全事故调查、合规性报告及其他重要的任务。Splunk可以连续不断的实时索引用户的IT数据,包括用户的日志、配置数据、事件变化、诊断命令输出、应用程序界面中的数据以及消息队列甚至用户自定义应用程序中的日志。

捕捉一切信息。Splunk将把原始数据和内容丰富的索引存储在一个高效、压缩和基于文件系统的数据存储区,并具有数据签名和审计功能保证数据的完整性。

非刚性模式。Splunk中没有预定义的模式。依赖脆弱模式的解决方案灵活性有限且当数据格式变化时便不再适用。若用户想对数据作出任何说明,如从同一公用区中提取或标记主机的一个子集,均可在搜索时轻松完成。

自动编年。所有流数据表明提取时间戳并将其标准化极其重要。即使事件的格式是最不典型或非传统的格式,Splunk都可以自动确定任何事件的时间。丢失时间戳的数据可根据上下文推断其时间戳。

搜索与调查

Splunk可单点搜索并浏览用户所有的IT数据。

搜索并查看任何信息。自由式搜索支持大家熟悉的Web搜索,如直观的布尔运算符、嵌套和引证字符串以及通配符搜索。这使得用户能够实现快速重复搜索和精确搜索,无需知道具体的数据格式。

实时搜索。利用Splunk的实时搜索功能,用户可在同一系统和界面搜索实时数据流和已编入索引的历史数据,这是最佳的实时搜索方式。有了Splunk,用户可以根据历史背景实时分析行为和活动。

时间搜索。鉴于IT数据的数量大、重复性高,用户往往一开始即限定搜索的时间范围。

Splunk关注的是事件发生的时间,因此用户可以将时间与期限结合起来进行搜索。Splunk在系统出现故障前即可在几秒钟内搜索用户基础架构每一层级的错误和配置变化,这一功能速度超快、效果超强。

互动结果。与命令行脚本与工具相比,互动界面可大大改善用户完成任务的体验与速度。在时间轴放大和缩小结果,可快速查看结果的趋势、峰值及异常情况。点击深入搜索用户的结果即可轻松在数据的大海里捞到用户想要的信息。无论用户是在排查客户问题或调查安全警报,不需要花费几小时甚至几天,只需几分钟甚至几秒钟即可找到想要的答案。

交易搜索。在网上发送邮件、下订单或连接IP电话都将在各个IT组件中产生一系列事件。用户常常要搜索同一个交易事件中所发生的细节情况。例如,找出在登录和退出的时间段里同一用户ID所有邮件发送事件,这些事件都在十分钟之内发生。Splunk使用户能够通过找出共同特征将事件联系起来,再将这些事件作为交易的一部分进行储存,从而使用户能够找到不同搜索参数的同一类交易。

搜索实时数据。系统和安全管理员经常需要紧急处理一些实时显露出来的问题。有了Splunk,用户可以跨越多个文件在基础架构的任何一处搜索实时高速数据流。

添加信息

Splunk可以自动从用户的IT数据中找到信息,用户也可自行添加信息,将用户数据的潜在价值完全开发出来。用户可以向数据添加诸如事件、交易、模式和统计等信息。用户也可以进行数据辨识、命名并标记。从使用一个特定的用户名找到所有事件到即刻获得特定用户活动的统计数据,用户还可以关联并命名跨多个数据源的交易。Splunk将灵活性与自由式搜索结合起来,并与IT数据一起为用户提供前所未有的体验。

搜索时匹配信息。Splunk在搜索时将IT数据与信息相匹配,而非试图按预先设定的脆弱数据库模式将数据标准化,这可以避免使用传统方法带来的问题,再也不需要管理复杂的自定义解析器和连接器。用户可以使用对外资产管理数据库、配置管理系统和用户目录中的信息轻松丰富IT数据信息。现在用户可以灵活地管理IT数据,再也不需要改变数据。

更加出色。Splunk允许每一位用户都能在Splunk上添加自己的信息。用户储存搜索、辨识不同类型的字段、事件和交易,这使得其他人的系统变得更加智能化。并且这些信息并不会随着用户的离开而消失。

监控与警报

用户使用搜索不是为了在特殊事件或问题发生时作出反应,而是为了主动出击。Splunk拥有灵活的告警功能,可扩大用户的监控覆盖范围。此外,Splunk可以跨越用户的整个IT系统,它将是用户兵火库中最灵活的监控工具。

将搜索转变成警报。用户可以储存任何基于时间的搜索并按时间排序进行持续监控,也可以用电子邮件或RSS的方式触发警报。用户可以打开一个脚本采取补救行动、发送SNMP陷阱到系统管理控制台或生成一张服务台权证。排程告警主动寻找类似事件,是完成问题或安全事故调查的一种绝佳方式。

关联复杂事件。Splunk使用户能跨越整个IT基础架构,对多个IT数据源中的复杂事件进行关联分析,让用户监控更多有价值的事件。例如,用户可以将一系列的关联事件当做一笔交易来追踪以确定事件的持续时间或状态。

监控特定情况。Splunk可根据一系列的临界条件和基于趋势的条件发出告警。搜索语言已经超越了简单的布尔搜索进入字段搜索、统计搜索和分搜索。用户可以关联任何想要关联的事件并对复杂的模式发出告警,其中复杂的模式包括废弃的购物车、强力攻击以及欺诈脚本。

报表与分析

如果用户曾经想要快速地将难以理解的IT数据生成报告,那么Splunk可以满足用户的这个要求。Splunk可以创建一个内容丰富、信息量大的报告来进行任何类型的分析,无需预先了解搜索命令。用户可以以PDF的形式按计划提交任何报告并与管理层、公司用户或其他IT利益相关方共享。

搜索结果报告。Splunk可以轻松地根据搜索结果创建图形和图表并将重要的趋势通过视觉化的表现方式显示出来,让用户看见高值和低值、总结最高值并报告出现最多和最少的情况。如此简单的大量数据分析方式将使用户(及其老板)惊叹。例如,Splunk可提供显示防火墙活动事件中IP地址发送的总字节数的报告,显示每一IP地址的每一协议的字节数的表格以及显示一个特定员工笔记本电脑上每小时防火墙流量的图表。任何字段均可用作报告标准。请注意,由于搜索时用户已经确定了字段,因此,可以不用重新索引数据即可指定新的字段。

分析关联事件。Splunk支持五种类型的关联。基于时间关联,即根据时间、接近性或间隔确定关系。基于交易关联,即追踪跨越多个孤岛、系统和数据源的交易,使用户能够报告并分析重要活动,如完成一项新服务交易的时间,或确定一项复杂的交易是否已经实际完成等等。次搜索,即将一次搜索的结果在另一次搜索中使用。查找,即与Splunk之外的外部数据库相关联。联接,支持类SOL内部和外部联接。

与其他人共享。现在用户的整个组织都可以利用IT数据的价值。用户可以将报告以安全和只读格式(如PDF格式)存储起来并与管理人员或其他同事共享,甚至可以将报告并入图表。

自定义仪表板和视图

用户可以随心所欲地以更多的方式了解海量数据。用户可以在Splunk上为其不同类型的客户(技术型或非技术型客户)创建自定义仪表板和视图。整合报告、搜索结果甚至是外部应用程序中的数据。以PDF的形式将任一图表按时发送给任一用户。

实时仪表板。图表上整合了实时与历史数据的多种图表、视图和报告,从而满足不同用户的需求。Splunk这一最佳数据搜索引擎为管理层、商业或安全分析师、审计师、开发员和系统管理员提供了个性化仪表板。

与其他应用程序兼容。Splunk可以与其他基于Web的应用程序兼容,可兼容的应用程序包括Tivoli、SAP、安全控制台等,让用户全方位地查看从前的信息孤岛。

创建并下载Splunk应用程序

如果用户正在索引并利用所有IT数据,还可以使用Splunk应用程序实现更多的操作。

自我创新。Splunk让创建应用程序变得更加简单并能为目标用户带来不同的角色体验和用例。Splunk应用程序框架支持在单个用户界面开发并包装应用程序。为特定的用力提供特别的用户体验,也可增加现有的供应商技术。

共享和下载应用程序。

用户可以在组织内以及在Splunk交流社区共享并重复使用应用程序。 在我们的交流社区(网址:www.splunkbase.com)上已经有越来越多的应用程序可以使用。该交流社区由我们的社区、合作伙伴及Splunk一起构建。用户可以找到按地区划分将数据可视化的应用程序以及支持特定用途的应用程序,如企业安全或PCI规范。当然,还有适用不同操作系统的应用程序和第三方技术,如Windows、Linux、Blue Coat、思科、WebSphere和F5 Networks公司。

轻松管理。一旦安装Splunk应用程序,用户即可使用基于角色的数据存取控制并将应用程序与根据特定的用户经验安装在用户的整个组织,将用户IT数据的价值带给其他用户。

强大的可扩展性

有了Splunk,用户可以从将设置从单个的商用Windows、Linux或Unix 服务器扩展为每天可索引几TB的最大最复杂的多地理、多数据中心基础架构。Splunk构架是构建在MapReduce框架之上,因此可以从商用服务器线性扩展到无限的数据量。用户将发现其在数据访问、存储、搜索以及将数据传递到其他系统方面拥有更多的选择。

安装简便。用户不需要依靠第三方程序即可轻松安装并运行Splunk独立的软件包。它可以在所有的主要操作系统和硬件平台上运行。此外,由于Splunk是一款软件,因此它能存在于任何基础架构(无论是物理或虚拟),而不需要专用的硬件、电源和机架空间。

分析大型数据。用户数据中心生成的数据令人无法想象。一个生产服务器每天可生成数百兆字节的数据。防火墙和Web服务器每天分别生成的数据是上述数据量的好几倍。

数据量也受到保留要求限制,保留要求可从事件响应保留的几天到合规性的几个月甚至几年。

Splunk构建在MapReduce框架之上,因此可跨越商用硬件线性扩展至任何数据量。考虑性能以及比较用户IT数据的收集、索引和利用的方法时,需要考虑以下几点:

索引量。每秒处理事件数(EPS)是常用的索引量测量方法,但也应考虑到事件的大小可从几百字节到一兆字节甚至更高。每秒事件处理数评级一般按照最优事件大小评估一个特定供应商的设备或方案。用户要寻找的供应商应能够索引用户数据中的每一字节,而不需要使用自定义解析器或连接器。若供应商不能或不愿意向用户说明每秒处理的事件数,该用户可以放弃该供应商,寻找愿意向其说明这一标准的供应商。

搜索速度。任何类型的搜索应在几秒钟之内返回搜索答案,而非需耗时几分钟甚至几小时。以分布式计算框架为基础,Splunk能自动将任何搜索转变成并行程序,具有快速检索功能并能分析大量数据集。单个商用服务器即可支持在几秒钟内搜索数十亿事件。

存储效率。存储效率按原始数据流大小的百分比衡量。存储效率决定用户保留数据及相关索引时需要的存储容量。一个好的方案要求按原始数据流容量的25-50%来保留用户的数据以及一系列有用的索引。谨防那些要求10%或10%以下原始数据的方案。这意味着只能存储压缩数据,无法存储索引。

归档。最终用户可以决定将其数据储存在哪一层极。分层储存可以降低成本并保证适度的冗余。根据硬盘的利用率和使用历史,数据归档可在构建多层级数据存储区时派上用场。确保用户的解决方案能让用户根据存储区的大小或历史设置归档政策并可随时随地恢复用户的归档。

线性扩展。仅需添加更多的计算能力,用户即可以垂直或水平扩展Splunk。用户可以在不同的实体服务器、虚拟和非虚拟服务器组合、或大型的多核心、多处理器的机器上运行一个分布式配置。通过在用户的配置中安装多个索引器和搜索引擎,Splunk可以平衡用户的工作量。

分布式搜索。一般来说,要将用户所有的数据根本上集中在一个地方并不可行。用户可能需要在不同的技术或地理孤岛上跨越多个装置和数据存储区进行搜索。

数据路径与复制。当需要管理全部的数据流时,用户将希望能够根据数据的特征和内容为数据选择路径。这一点对扩展并保卫用户的Splunk设备很重要。此外,Splunk作为用户IT基础架构中关键任务的一部分,用户将越来越依赖Splunk。此时用户可能想要将重要的数据复制到多个服务器,以保证其能更快更方便地获取这些数据。

整合。如果用户喜欢大多数的IT商店,那么用户肯定已经在管理工具、监控工具和分析工具上花费了一大笔钱。如果用户能将Splunk与这些工具整合起来,那岂不是很棒?想象一下,用户可以从其网络管理控制台进行上下文搜索、将Splunk警报发送到系统管理控制台或者当出现异常情况时自动创建故障单。Splunk还提供多个集成点以及一个强大的文档化的应用程序界面。

安全

用户需要保证你的IT数据一直是安全的。特别是当用户意识到其IT数据是一笔多么宝贵的信息资产。Splunk提供安全的数据处理、访问控制、审计功能、数据完整性保证功能并将其与企业单点登录方案整合在一起。

安全的数据存取与传送。IT数据有时是敏感的数据。Splunk支持先进的匿名化将机密数据从搜索结果中屏蔽。个人消费者或企业信息也要求安全地存取、传送和存储。使用TCP/SSL或类似方案加密存取数据流时,用户应该评估可能的解决方案。使用HTTPS、SSH或类似协议时进行命令行存取时需确保用户的数据存取的安全性。

精细的访问控制。当然,用户还需控制客户可以采取的行动以及访问的数据、工具和仪表板。用户不需要让应用程序开发小组访问其IDS扫描、警报以及防火墙日志。Splunk是一个灵活的基于角色的系统,它可以让用户构建自己的角色并与其组织对不同等级用户制定的政策相映射。

在某些环境中,如多租户服务,用户可能需要在根本上控制对数据的访问。Splunk独特的设备能按路线选择数据,让用户在根本上将不同数据存储区的数据分离开来。用户还可以将其与LDAP和活动目录整合起来,将不同的组映射至不同的角色。

单点登录。如果在内部使用访问控制并且有组织访问控制政策,用户需确保已经将Splunk与其认证系统整合在一起,无论该认证系统是LDAP、活动目录、电子目录或其他认证系统。

审计功能。一旦用户设置了访问控制,其便可以监控访问数据的人员。Splunk会记录行政和用户活动,所以用户可以审计访问数据的人员、访问的数据类型及时间。

数据完整性。用户还需确保其数据的完整性。用户如何知道其正在查看的搜索结果和报告,其所使用的数据没有被篡改过?有了Splunk,用户可以给单个事件签名,也可以给事件流签名。Splunk还有信息完整性度量功能,保证原有事件流中未被插入或删除事件。

强化部署。如果在服务器上运行的Splunk功能降低,则保持审计追踪和签名事件毫无价值可言。请用户确保供应商提供了强化指导。

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>