@ArrowLLL
2017-05-15T00:25:03.000000Z
字数 6135
阅读 3589
Elon Lin
大数据时代的来临
- 存储数字化
- 表现形式多样化,内容丰富
- 数量巨大,增长迅速
- 传播速度快、范围广、具有交互性
- 结构复杂,分布广泛
- 信息源复杂,无序
- 动态不稳定性
基于信息传播的互联网安全管理问题,反映的是网络用户公开发布的信息所带来的社会公共安全问题,这里面所涉及的技术主要包括 主题信息监控,舆情监控,社交网络社团挖掘等。
- 交叉。网络内容信息安全既是一门新兴的客体,又需要多个学科交叉研究。
- 互联。网络信息内容安全以互联网为研究载体。
- 海量。网络信息内容安全问题面对的是海量信息。
- 融合。传统信息安全是内容安全的保障,而这需要有利结合。
- 句法分析。判断“信息是否为可读语句”,又称为语句分类。
- 主题分类。判断“由可读语句表达的信息是否属于所关注的安全领域”,又称领域分类或主题分类。
- 倾向分类。判断“落入某领域的信息是否符合所定义的安全准则”,又称安全分类。
- 提高网络用户及网站的使用效率。
- 净化网络空间
- 提高国家信息安全保障水平
- 网络信息内容的可信度
- 数据水印技术
- 基于大数据uuud网络信息真实性分析
- 移动互联网信息内容安全
主要分为 网络媒体信息 和 网络通信信息 两类。
网络媒体信息,指传统意义上的互联网网站的公开发布信息,网络用户通常可以基于通用网络浏览器获得互联网公开发布的信息。
通过以下划分方法继续细分 :
1. 网络媒体形态 : 广播式媒体 与 交互式媒体
2. 发布信息类型 : 文本信息、图像信息、音频信息和视频信息
3. 媒体发布方式 : 直接匿名浏览的公开发布信息, 需要身份认证访问的网络媒体信息;
4. 按网页具体形态分类 : 静态网页,动态网页
网络通信信息,指互联网用户使用除网络浏览器以外的专用客户端软件,实现与待定点的通信或进行点对点通信时所交互的信息。
带身份认证媒体发布信息获取
- 基于Cookie机制实现身份认证
- 基于网络加护重构实现媒体信息获取
内嵌脚本语言片段的动态网页信息获取
- 利用HTML DOM树提取动态网页内的脚本语言片段
- 基于Rhino实现Javascript动态网页信息获取
基于浏览器模拟实现网络媒体信息获取
- 身份认证表单自动填写
- 身份认证协商与发布信息一致
- 对网页内嵌URL逐一进行点击浏览与导出
有线网络
- 端口镜像复制模式
- 攻击交换机以得到所有的数据包
- 攻击模式包括 MAC Flooding 和 ARP包欺骗
无线网络
- 设置成混杂模式
- 射频监听工作模式
pcap_lookupdev()
函数pcap_oplive()
函数pcap_compile()
函数pcap_setfilter()
函数pcap_loop()
函数方法 : 基于字符串匹配, 基于统计方法, 基于理解方法。
常用分词系统 : BosonNLP中文分词系统、庖丁中文分词系统, jieba分词 等
停用词是指与其他词相比,通常没有实际意义的词语。
计算机对其处理不但是没有价值的工作,还会增加运算复杂度,通常文本的停用词处理中可采用基于词频的方法将其除去。
语义级别由低到高可分为 : 亚词级别,词级别,多词级别,语义级别和语用级别。其中应用最广泛的是词级别。
常用的三种 特征选择方式 : 过滤(filter), 组合(wrappers) 和 嵌入(embedded)
重点: TF-IDF算法 —— 使用python做tf-ifd算法实践
定义
根据用户的信息需求,运用一定的标准和工具,从大量的动态网络信息流中选取相关的信息或剔除不相关信息的过程。
特点
- 过滤系统是为无结构化和半结构化大数据而设计的信息系统
- 信息过滤系统主要用来处理大量的动态信息
- 过滤系统包含大量的数据
- 典型的过滤系统应用包含输入的数据流或是远程数据源的在线广播
- 过滤是基于对个体或群组的信息偏好的描述,也称为用户趣向
- 过滤是从动态的数据流中收集或去掉某些文本信息
意义
- 改善Internet信息查新技术的需要
- 个性化服务的基础
- 维护我国信息安全的迫切需要
- 信息中介(信息服务供应商)开展网络增值服务的手段
根据过滤方法分类
基于内容的过滤, 基于网址的过滤,混合过滤
根据操作的主动性分类
主动过滤,被动过滤
根据过滤位置的分类
上游过滤, 下游过滤
专门过滤软件、网络应用程序、其他过滤工具
掌握朴素贝叶斯, 参考 贝叶斯推断应用:垃圾邮件过滤
话题检测与跟踪,Topic Detection and Tracking, 简称 TDT。
传统的关键词检索技术,信息冗余度高,对信息简单罗列,难以全面把握。话题检测与跟踪技术能把分散的信息有效地汇聚并组织起来,从整体上了解一个话题的全部细节以及该话题中事件之间的相关性。
要实现话题发现与跟踪,需要解决以下问题 :
1. 话题/报道的模型化(常用模型有语言模型和向量空间模型)
2. 话题 - 报道相似度的计算;
3. 聚类策略(重点掌握K-Means算法)
4. 分类策略(阈值选择策略)。
评测标准都是建立在检验系统漏检率和误检率的基础上 :
和 分别代表 漏检率和错检率;
和 分别是系统漏检和错检的条件概率;
和 是先验目标概率();
是综合了系统漏检率和错误率得到打性能损耗代价
规范化表示为
社会网络指的是社会行动者(Social Actor)及其关系的集合。社会网络强调每个行动者都与其他行动者有或多或少的关系,还关注行动者之间的“多元关系”,即联系。
社会网络分析主要研究社会实体的关系链接以及这些连接关系的模式,结构和功能。
社会网络分析的基本视角是 关系取向 和 位置取向
社会网络构建
1. 具有社团结构的无权网络模型,如 BA模型。
2. 基于分离者模型的社团结构模型。
社会网络的发现
1. 非重叠社团算法。是指识别出的社团之间互不重叠,每个节点有且仅属于一个社团;
2. 重叠社团算法。
舆情指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主题的民众对作为客体的国家管理者产生和持有的社会政治态度。如果把中间的一些定语省略,舆情就是民众的社会政治态度。
舆情的主要表现形态有 : 文本、图像和视频、网络行为等。
信息采集技术
包括数据爬取,数据存储,数据清洗等
热点发现技术
主要算法有 : Single-pass聚类算法,K-means, KNN最近邻算法, SVM支持向量机,SOM神经网络聚类。
热点评估与跟踪
热点评估有词频统计和情感分类两个主要手段。
热点跟踪主要使用KNN最近邻法和朴素贝叶斯算法。
舆情等级评估
综合评判方法实现舆情等级评估的构建步骤:
- 确定对象集和评估因素集
- 确定评估集
- 评估指标权重的确定
- 评估指标隶属度的确定
总体框架的关键
关键技术分析
典型应用
- 定点站点深入挖掘机制
- 异构数据归一化存储与目标站点热点查询
- 监控目标热点自动发现功能
发展趋势
- 针对信息源的深入信息采集
- 异构信息的融合分析
- 非结构信息的结构化表达
开源情报 : 指通过对公开信息或其他资源,包括报纸/刊物、电视、互联网等进行分析后所得到的情报。
开源情报的价值体现 :
- 情报收集成本小,风险低
- 开源情报内容更加丰富
- 开源起个包工作具有隐蔽性
信息源可靠性
信息源可靠度可参考如下指标 :
- 形式特征
- 组织特征
- 链接特征
- 价值特征
信息内容可靠度
评价信息内容可靠度有以下几点 :
- 明确公开源数据/公开源信息和公开源情报的区别。
- 要考察信息所表述的内容是否合情合理
- 从语言学角度考察,高可靠性的内容一般行文直接了当、清晰明确
- 从参考引用文献角度考察,高可靠性的内容会为数字、主要观点标引出处。
定量分析方法有 :
- 聚类分析
- 关联规则挖掘
- 事件序列分析
- 社会网络分析
- 路径分析
- 预测分析
多源数据融合
把通过不同渠道、利用多种采集方式获取的具有不同数据结构的信息汇聚到一起,形成具有统一格式、面向多种应用的数据库及和,这一过程称为多元数据融合。
相关性分析
大数据时代数据处理理念的三大转变 :
- 要全体不要抽样
- 要效率不要绝对精确
- 要相关不要因果
系统框架
- 系统采编报子系统 : 信息采集层依托开源情报数据采集体系,根据采集策略,实时准确采集来自不同数据源的数据,并对数据进行抽取结构化等清洗预处理。
- 情报感知分析子系统 : 情报感知分析子系统建立并更新原始素材库,为系统提供基础数据。实现数据的归类存储与数据更新。能够按数据来源分析存储原始数据,形成原始资料库,并对其做索引,供系统对原始信息的查找
- 大数据服务提供子系统 : 主要实现提供各种动态快讯、智能简报、热点分析报告、专题深度报告等功能
处理流程
- 信息采集业务 :将互联网、标准资源库、企业资源库、现有工程数据、内部资料和其他来源数据收集起来,形成原始数据。
- 开源情报加工和分析业务 : 对开源情报进行深度挖掘加工,自动提炼信息关键词、摘要,针对结构化后大数据做索引。
- 情报展示与服务业务 : 将平台的服务和产品采用多种方式发布、推送给不同的用户,包括订阅、热点周报、专题报告及年度汇总报告等。
引入大数据,应用大数据,探索大数据,利用大数据,研发大数据
寻找与原文章相似的其他文章, 步骤 :
以上です~