Catop's Blog

记一次环球影城游览相遇游客的人脸识别及时序分析

2025-03-16T02:30:00.000Z

前言

前段时间趁实验室同学来京参赛，一起约着去了一趟环球影城（北京环球度假区，UniversalBeijingResort）。虽是淡季的工作日，但不得不说环球人气真的火爆。尽管如此，玩完之后还是觉得很值的。

估计很多人来此的重要动机之一就是看哈利波特展区，这个展区确实是整个园区最精致的部分。霍格沃茨魔法学校附近绝对是出片的好地方，有不少商拍摄影师在此跟拍，演出也非常还原（尽管我并没看过哈利波特）。

城堡比欢乐谷的精致许多。

进入城堡内部，准备体验禁忌之旅。

功夫熊猫主题的室内展馆也十分精致，有着非常不错的置景和灯光。

作为过山车爱好者，霸天虎惊险程度 > 刺激程度，二刷了。

环球的夜景被许多人低估了，来拍人像的话真的很出片。

仿佛看到了 GTA 里面的梦中游乐园。

正宗美式效果。

晚上赶上了城堡的灯光秀。

再见啦👋。

想法

一天下来走了许多冤枉路，步数达到了2.4万。正好运动相机录制了许多素材，能否分析一下有没有与我们重复相遇的人呢，相遇时间间隔是多少？

有了这个点子后，打算写个小工具来实现。

技术选型

之前就了解过InsightFace，对亚洲人识别效果很好。Faiss是个向量数据库，在LLM领域的RAG中常用到，当然也可以用来对比人脸 Embedding 向量的相似度吧。

InsightFace：开源的高精度人脸识别框架
Faiss：Facebook AI开发的相似性搜索库，专为大规模向量检索优化
FFmpeg：用于高效视频处理的命令行工具，可以提取视频帧

实现思路

工作流程如下：

视频分割：将运动相机录制的视频按每秒提取一帧，并以时间戳命名
人脸检测与特征提取：识别每一帧中的人脸，并提取人脸特征
人脸匹配与数据库构建：比较人脸特征相似度，构建人脸出现记录
时序分析：分析人脸出现的时间模式，计算相遇显著性

代码实现

具体代码放在了 Github：BaiHLiu/AreWeMeetBefore

结果分析

使用 pandas 做了一些简单的分析。我希望找到的是相遇间隔最长的人脸，且图片为每秒截取一张，短时间内可能存在多张相同人脸出现。定义 $S_i$ 为人脸 $i$ 的得分，$\varDelta T_i$ 为最后与最早相遇时间之差，$C_i$ 为人脸 $i$ 出现的次数。直观的想法为 $S_i$ 与 $\varDelta T_i$ 成正比，与 $C_i$ 成反比。

进行归一化，定义归一化的时间跨度 $\hat{T}_i$ 和归一化的出现次数 $\hat{C}_i$ ：

$$\hat{T}i = \frac{\Delta T_i - \min{j}(\Delta T_j)}{\max_{j}(\Delta T_j) - \min_{j}(\Delta T_j)}$$

$$\hat{C}i = \frac{C_i - \min{j}(C_j)}{\max_{j}(C_j) - \min_{j}(C_j)}$$

人脸得分 $S_i$：

$$S_i = \frac{\hat{T}_i}{\hat{C}_i}$$

去除同伴等误报后，发现最长间隔才 5 分多，差评。

论文阅读 - Fashion Faux Pas: Implicit Stylistic Fingerprints for Bypassing Browsers’ Anti-Fingerprinting Defenses

2025-02-28T09:00:01.000Z

本文是我在《Web 追踪前沿》上论文阅读作业之一。 Fashion Faux Pas: 绕过浏览器反指纹防御的隐性风格指纹。文章主要探索如何在不使用 JavaScript 的情况下生成浏览器指纹，以绕过现有浏览器的反指纹防御措施。核心在于利用不同环境对 HTML 元素渲染的差异性和 CSS 的媒体查询特性构造探针 HTML 元素，再配合 iframe 获取元素尺寸，从而反推出用户环境信息，据此提出了风格指纹的（Stylistic Fingerprints）概念。实验表明该方法在多款隐私导向型浏览器上均有效，与 FingerprintJS 的识别能力相当，且优于现有的 CSS 风格指纹。文章发表在 IEEE S&P 2023，作者来自伊利诺伊大学芝加哥分校和 IBM 公司。

背景和动机

浏览器指纹识别发展与问题

越来越多的用户、法律法规关注到浏览器指纹引起的隐私问题。在现代隐私导向的浏览器环境中，传统的基于 JavaScript 的指纹有效性受到可靠性挑战，有许多反跟踪防御技术：

限制特定 API 调用：例如 Tor 浏览器会阻塞 Canvas API，某些浏览器可能会限制 WebRTC 的调用。
随机化 API 返回值：例如 Brave 浏览器对 Canvas API 返回值进行随机化，WebGL、User-Agent 和硬件信息随机化等。
限制系统资源访问：Firefox 限制网站可使用的系统字体，防止网站利用字体信息识别用户设备。

同时，新的指纹技术还需考虑性能开销问题，否则会阻碍其在现实世界中的部署。

研究动机

浏览器在不同的环境中呈现的 HTML 元素是不同的，受浏览器、OS、屏幕尺寸、系统字体等影响。CSS 具备媒体查询、字体加载等能力。
鉴于现有反跟踪防御主要针对基于 JavaScript API 的指纹技术，本文探索如何在不使用 JS API 的情况下生成指纹，通过利用 HTML 和 CSS 特征来推断用户环境信息，提出隐式风格浏览器指纹（stylistic fingerprints）的概念。
证明追踪者可利用其他特征和隐式技术追踪用户，且不受现有先进防御措施的影响。

实现效果

有效性：对包括 Safari、Firefox、Brave、Tor 等隐私导向型浏览器做了实证分析，证明了其有效性。同时，进行了一项时长9周的真实世界部署，结果显示该方法与 FingerprintJS 效果相当。同时还计算了指纹特征的熵，表明其较高的辨别性。
高效性：在性能开销上与 FingerprintJS 相比对页面渲染影响可忽略不计，用户交互延迟小于 100ms。
全面性：比先前 CSS 技术收集数据更全面，且对浏览器防御措施更具鲁棒性。

设计与实现

风格指纹

风格指纹是由网页呈现器生成的视觉属性构建而成的特征，完全依赖 CSS 和 HTML 元素，而无需调用 Javascript API。想实现这一点，有几个重要挑战：

须选择具有辨别能力的 HTML 元素，且需要在屏幕上有策略地排列，以保持稳定的指纹。
隐式方法推断特征可能会导致难以计数的网络请求，需要一种巧妙的设计。
需要一种有效的方法来编码 HTML 元素中的可用信息，以便服务器能够实际创建指纹。

CSS @media query 特性

CSS3 中的 @media 查询可以针对不同显示媒介和屏幕尺寸定义不同的样式，例如指定屏幕宽度小于 300 px 时的样式：（📺 demo 01-css3-media-query）

@media screen and (max-width: 300px) {
    body {
        background-color:lightblue;
    }
}

iframe 诱导的元素尺寸查询

@media 查询只能查询窗口或屏幕的尺寸，无法测定具体的 HTML 元素。因此通过引入 iframe 来诱使 @media测量元素的尺寸。

一个直观的实施方案为，每个 HTML 元素配合一个iframe使用，然而这样一来查询太多，对页面加载时间产生负面影响。因此采用对角排列元素来获得所有三个元素的尺寸之和。

这样一来，通过置入大量@media 查询，从服务器的请求记录中就可以得知目标 HTML 元素的尺寸。

【问题：】用 min-width 属性以升序排序，当一个匹配到之后，后面的尺寸就不用再测试了吧，如何停下来的呢？

识别方法

使用 25 个 iframe 和 339 个 HTML 元素，能够探测 30 种指纹特征，根据其指纹特征的类型分为四类：环境（Environment）、字体（Fonts）、广告拦截器（Ad blocker presence）、CSS 媒体属性（CSS media properties）。系统将这些探针元素都放置在一个 $800 \times 1000$ px 的 iframe 中，称为 main iframe。

Environment 识别

浏览器在不同的环境中呈现的 HTML 元素是不同的，受浏览器、OS、屏幕尺寸、系统字体等影响。例如对于 </code> 元素，在 MacOS Monterey 的 Chrome v99 中呈现的尺寸为 430px/150px，而在 Windows 11 中呈现为 432px/162px，在 Ubuntu 18.04 为 348px/145px。当浏览器版本发生变化（如 v93）时，这些尺寸也可能不同。文章使用了 101 种不同类型的 HTML 元素。<h4 id="Fonts-识别"><a href="#Fonts-识别" class="headerlink" title="Fonts 识别"></a>Fonts 识别</h4>对于字体识别，一种常见的方案是：枚举一些 <code>@font-face</code> 规则，为每个字体设置远程加载 URL，如果字体存在本地，则不会请求伪造的 URL。这种方式会导致大量的 HTTP 请求，为了减少这种性能开销，作者开发了一种基于元素尺寸的新型字体指纹识别方法：为一个 <code></code> 元素分配一个 Tesing font family 以及两个 fallback fonts，这里选用 Arial Black 和 Arial 作为回退字体，因为 Arial Black 在多数系统中存在且比其他字体家族宽度大。当测试字体家族不可用时，元素会回退到 Arial 进行渲染；若测试字体可用，则元素不会使用回退字体且会以不同尺寸渲染，通过观察元素尺寸变化来判断字体是否可用。【📺 demo 02-fonts-query】<h4 id="Ad-blocker-识别"><a href="#Ad-blocker-识别" class="headerlink" title="Ad blocker 识别"></a>Ad blocker 识别</h4>使用 <code></code> 和 <code><div></code> 创造能命中常见广告拦截器（例如 AdBlock、AdGuard ）的元素，如果存在广告拦截器，则诱使广告拦截器删除该元素，不会请求对应 URL。<h4 id="CSS-media-properties-识别"><a href="#CSS-media-properties-识别" class="headerlink" title="CSS media properties 识别"></a>CSS media properties 识别</h4>一个例子如下图所示，如果对应 <code>media</code> 特性被满足，则页面上将出现一个宽度为 2px 的 HTML 元素。最后，通过 iframe 探测相关 HTML 元素的尺寸，即可了解有哪些元素被渲染，反推出浏览器支持哪些 <code>media</code> 特性。为优化性能，文章将构造的 HTML 元素根据它们所识别的属性进行分组，目的是最大限度地提高容器在辨别特定环境特征时的熵，并满足主 iframe 的高度限制。对于同一组的 $n$ 个元素，支持对应属性则 $b_i=1$ ，否则 $b_i=0$ ，其总宽度或高度为$$\sum_{i=0}^{n-1} b_i * 2^i $$总和是基于 2 的幂次的独特组合，因此可推断每个 $b_i$ 的值。定义了 3 个检测 Level，尽可能用上 <code>@media</code> 支持的属性，实现细粒度地检测设备特征。<h3 id="方法部署"><a href="#方法部署" class="headerlink" title="方法部署"></a>方法部署</h3>有几种常见的方式：<ul><li>诱使用户访问专门的指纹识别网站</li><li>能够将一行 HTML 代码注入到合法网页中，使得用户响应中包含指纹识别负载</li><li>利用中间人代理服务在代理的网页响应中注入指纹代码。</li></ul><h2 id="实验结果"><a href="#实验结果" class="headerlink" title="实验结果"></a>实验结果</h2><h3 id="指纹识别防御的绕过"><a href="#指纹识别防御的绕过" class="headerlink" title="指纹识别防御的绕过"></a>指纹识别防御的绕过</h3>在 Firefox、Brave、Tor、Safari、Opera 等浏览器及相关隐私插件上进行测试，评估方法的抗指纹防御能力。<h3 id="执行效率"><a href="#执行效率" class="headerlink" title="执行效率"></a>执行效率</h3>网络方面，对 <code>@font-face</code> 的优化以及合理排布构造的 HTML 元素，大大减小少了网络请求数量。经传输压缩后，传输的资源约为 330 KB。客户端开销方面，与 FingerprintJS 进行了对比。发现本文方法在 domInteractive 时间方面（DOM 树已准备好，可进行用户交互）比 JS 方法耗时更短，但 domComplete 时间显著增加了，对页面的加载效率影响还是较大的。总体上整个页面的加载时间小于 1 秒。【问题：在老旧设备上呢？毕竟实验是在i9 macbook 上做的。】<h3 id="实测研究"><a href="#实测研究" class="headerlink" title="实测研究"></a>实测研究</h3><h4 id="总体效果"><a href="#总体效果" class="headerlink" title="总体效果"></a>总体效果</h4>作者在三个不同在线门户网站上部署了指纹识别系统，进行了为期9周的试点研究。用户对象主要是计算机科学家，且提前公布了这项研究计划，作者认为这些用户的隐私意识更强。结果表明提出的 StylisticFP 与 FingerprintJS 效果相当。<h4 id="碰撞稳定性"><a href="#碰撞稳定性" class="headerlink" title="碰撞稳定性"></a>碰撞稳定性</h4><ul><li>跨访问稳定性方面：FPJS 在跨访问时因计算出不同指纹而无法识别 188 台设备，而本系统仅对 41 台设备失效，说明本系统在多次访问过程中更稳定，即相对不易因访问的变化而产生指纹的大幅变动，减少了因跨访问不稳定导致的识别失败情况。</li><li>跨设备稳定性方面：这种碰撞发生在具有软硬件的多个设备被分配相同指纹值的情况下，反映了在不同设备之间，由于系统的某些特性（如风格指纹相对稳定），可能会出现无法准确区分设备的情况。</li></ul><blockquote>💡 这里可以看出，指纹风格的稳定性需要找到一个合适的值。如果过于稳定，虽然在一定程度上保证了系统的可靠性和一致性，但会导致在相对同质的设备环境中出现较多碰撞，影响对设备的精确区分；而如果稳定性太差，像 FPJS 那样在跨访问时频繁改变指纹，又会导致大量设备无法被识别，降低系统的有效性。</blockquote>实际上，既然该实验场景存在能够唯一确定用户的会话（Session）信息，我觉得评价指纹与用户身份之间的对应关系时，可采用标准化互信息（Normalized Mutual Information, NMI）作为指标，即：$$ NMI(S,F) = \frac{2\cdot I(S;F)}{H(S) + H(F)} $$$$ I(S;F) = H(S) - H(S|F) = H(F) - H(F|S) $$其中，$I(S;F)$ 表示会话（Session）与指纹（Fingerprint）之间的互信息，反映两者共享的信息量，$H(S)$ 和 $H(F)$分别为会话和指纹的熵，表征各自的不确定性。当指纹与会话完全一一对应时，条件熵 $H(S|F)$ 和 $H(F|S)$ 均为 $0$ ，此时 $NMI=1$ ；若两者完全独立，则 $NMI=0$ 。<h4 id="特征熵值"><a href="#特征熵值" class="headerlink" title="特征熵值"></a>特征熵值</h4>作者采用 AmIUnique 提出的归一化香农熵来量化各种指纹识别特征的判别能力，如表1所示。总之，实验表明隐式风格指纹不仅是现有技术的可行替代品，而且具有足够的辨别力，可以在现有的防御措施面前胜过 FPJS。<h2 id="总结与思考"><a href="#总结与思考" class="headerlink" title="总结与思考"></a>总结与思考</h2>这篇文章巧妙利用了不同浏览器对 HTML 元素的显示差异，以及 CSS 中提供的媒体查询特性，将浏览器环境的属性差异转化为布局差异，再通过隐藏的 iframe 测量这些尺寸差异，将浏览器环境信息反馈给服务端并反推出属性。这种不基于 Javascript 的新型指纹识别方法在对抗指纹防御方面有本质的优势，但 CSS 指纹识别能力较为局限，文章解决了其中几个关键问题：<ol><li>指纹属性局限性：先前 CSS 技术依赖的媒体特征有限，仅使用如 “any-pointer” 等常见的有限的媒体特征。本方法全面挖掘了 CSS 的潜力，支持23种媒体特征，在识别性方面达到 FPJS 的水准。<blockquote>为什么别人没想到或者用得少呢，是什么原因？</blockquote></li><li>性能问题：以往技术会产生大量网络请求，如某些方法生成 1347 个请求，而本方法通过优化设计（包括探针 HTML 元素的分组和幂次尺寸编码、字体 fallback 机制），显著减少了请求数量（优化后仅 83 个），降低网络占用。</li><li>抗防御能力不足：如 Tor 禁止 @font-face 本地文件使用和强制某些媒体查询返回固定值会使先前技术失效，而本方法使用隐式推断，能有效绕过部分防御。</li></ol><h3 id="未来工作"><a href="#未来工作" class="headerlink" title="未来工作"></a>未来工作</h3><h4 id="缓解措施"><a href="#缓解措施" class="headerlink" title="缓解措施"></a>缓解措施</h4>作者提到两种可能的缓解措施：<ol><li>完全阻止 iframe，但这会导致许多网站工作不正常。</li><li>阻止 media query，例如 Tor 就会报告一些虚假的媒体特性。然而欺骗所有媒体特性是不可行的，因为它们是响应式网页设计的关键部分。</li><li>动态监控向服务端的资源请求；或者随机向 CSS 属性添加噪声。</li></ol><blockquote>该工作没有开源，对于缓解措施方面难以实际测试。但基于对论文的直观理解，我认为该方法的特征还是比较明显的，具有一定可检测性，在“问题讨论”章节继续展开。</blockquote><h4 id="非追踪用例"><a href="#非追踪用例" class="headerlink" title="非追踪用例"></a>非追踪用例</h4>本研究侧重于风格指纹带来的隐私威胁，但浏览器指纹识别也可用于安全应用，如账户保护、风险控制等。<h3 id="问题讨论"><a href="#问题讨论" class="headerlink" title="问题讨论"></a>问题讨论</h3><h4 id="可检测性"><a href="#可检测性" class="headerlink" title="可检测性"></a>可检测性</h4>基于论文核心技术点，检测逻辑可以聚焦以下特征：<ol><li>iframe 内容可见性：大量透明、不可见背景的 iframe </li><li>密集媒体查询：大量 min-width/min-height 的 CSS media query 规则</li><li>字体指纹：使用 @font-face 加载本地字体</li><li>广告拦截探针：包含触发多款广告拦截器的元素</li><li>网格布局：使用 CSS Grid 对角线排列元素</li></ol>最明显的一点在于， 为了不影响网页正常显示，以上特征元素均置于同一个 iframe 中，即 $800 \times 1000$ px 的 <code>main iframe</code>。然而在实际部署中，可以通过页面间随机化探针布置等方式减少过于集中的特征。最关键的在于，作者提供了一种新的“风格指纹”思路，证明追踪者利用隐式技术追踪用户是可行的。<h4 id="移动端可能显示异常"><a href="#移动端可能显示异常" class="headerlink" title="移动端可能显示异常"></a>移动端可能显示异常</h4><blockquote>原文 2.5-HTML Element Arrangement 小节中提到：“我们将所有元素放置在一个 800px x 1000px 的 iframe（以下简称主 iframe）中，以确保元素的尺寸在不同的屏幕分辨率下保持一致。”</blockquote>根据非权威统计数据显示，2024 年移动端浏览器典型分辨率为 $360 \times 800$ px，低于 main frame 所需尺寸，可能使浏览器出现非预期的滚动条，或者无法正常测量。<h2 id="其他思考"><a href="#其他思考" class="headerlink" title="其他思考"></a>其他思考</h2><ol><li>无 JavaScript 实施 XSS： <figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 </pre></td><td class="code"><pre>M. Heiderich, M. Niemietz, F. Schuster, T. Holz, and J. Schwenk, “Scriptless attacks: stealing the pie without touching the sill,” in Proc. ACM Conf. Computer and Communications Security, 2012. </pre></td></tr></table></figure> <a href="https://www.nds.rub.de/media/emma/veroeffentlichungen/2012/08/16/scriptlessAttacks-ccs2012.pdf">https://www.nds.rub.de/media/emma/veroeffentlichungen/2012/08/16/scriptlessAttacks-ccs2012.pdf</a> <a href="http://lcs.ios.ac.cn/~sws/downloads/liangbin.pptx">http://lcs.ios.ac.cn/~sws/downloads/liangbin.pptx</a></li><li>由 csstracking.dev 开源的 CSS 指纹项目：<a href="https://github.com/OliverBrotchie/CSS-Fingerprint">https://github.com/OliverBrotchie/CSS-Fingerprint</a></li></ol> </article> <article> <h1>论文阅读 - CASIE: Extracting Cybersecurity Event Information from Text</h1> 2025-01-15T10:20:01.000Z <blockquote>本文是我在《机器学习》课程上完成的结课作业。 CASIE聚焦于网络安全文本领域的命名实体识别和事件抽取，针对网络安全领域的关注点，对事件和类别做了针对性的特征工程。采用 BIO 标注体系，Bi-LSTM + Attention 作为基础模型，并对比了多种 Embedding 模型对效果的影响，具备很高的实用价值。作者来自马里兰大学，文章发表在 AAAI 2020。</blockquote><h2 id="摘要"><a href="#摘要" class="headerlink" title="摘要"></a>摘要</h2>现有的事件抽取方法主要关注人物相关的信息，这些方法与网络安全事件抽取的核心区别主要有：a) 所需领域专业知识不同；b) 事件本身复杂性不同。本文的主要贡献有：<ul><li>定义了五种网络安全事件及其语义角色，以及20种角色参数类型。</li><li>贡献了一套新闻通讯语料库，对网络安全事件进行了标注。</li><li>提出 CASIE 网络安全事件信息提取模型和工具。</li></ul><h2 id="问题建模"><a href="#问题建模" class="headerlink" title="问题建模"></a>问题建模</h2>在事件抽取步骤中，定义了如下概念：<ul><li>Event Nugget: 事件片段，指清晰描述事件的单词或短语。</li><li>Event Argument: 事件参数，指事件参与者或属性值。</li><li>Role: <code>Nugget</code> 和 <code>Argument</code> 之间的语义关系。</li><li>Realis: 具有 Actual、Other、Generic 三种取值。</li></ul>对于攻击和探测事件，定义的子类型有：<code>Attack.Databreach</code>、<code>Attack.Phishing</code>、<code>Attack.Ransom</code>、<code>Discover.Vulnerability</code>、<code>Patch.Vulnerability</code>。<h2 id="方法"><a href="#方法" class="headerlink" title="方法"></a>方法</h2>主要包括六个步骤：事件片段识别、事件参数识别、事件参数与角色的关联、事件真实性识别、事件核心参照、映射至知识图谱。本文主要聚焦于前四个步骤。<h3 id="事件片段及其参数识别（Event-Nugget-and-Event-Argument-Detection）"><a href="#事件片段及其参数识别（Event-Nugget-and-Event-Argument-Detection）" class="headerlink" title="事件片段及其参数识别（Event Nugget and Event Argument Detection）"></a>事件片段及其参数识别（Event Nugget and Event Argument Detection）</h3><h4 id="特征工程"><a href="#特征工程" class="headerlink" title="特征工程"></a>特征工程</h4><blockquote>对于一个 NLP 入门学习者来说，首先需要了解一些前置知识。包括：<ul><li>浅层句法组块（Shallow Syntactic Chunk）：指对句子进行分析时，按照一定的语法规则和语义关系将连续的单词组合成的较大的语言单位。例如名词短语（NP）、动词短语（VP）、句子（S）。</li><li>依赖树（ Dependency Tree）：表示单词之间的依存关系，例如在句子 “The boy kicks the ball” 中，“kicks” 是核心动词，“The boy” 是动作的执行者（通过 nsubj 依存关系连接），“the ball” 是动作的对象（通过 dobj 依存关系连接）。</li></ul></blockquote>在事件片段特征方面，首先使用斯坦福推出的 NLP 工具套件 <code>CoreNLP</code> 对原文进行预处理，包括分词、词形还原、词性标注和命名实体识别、停用词去除。为了更好地涵盖软件名称、恶意软件等实体，还引入了 DBpedia Spotlight 和 Wikidata 两个外部知识库。在事件参数特征方面，结合了事件片段中的部分特征，并进一步细化和补充。例如确定每个单词的浅层句法组块类型及深度、最近事件类型等特征，使其能够更精准地定位和关联与事件相关的元素，具体特征如下：<ul><li>每个单词的浅层句法组块类型（如 S、NP、VP 等）及其深度（选择分析树中的最低层级）。</li><li>最近事件的类型（即五种事件类型）。</li><li>在依赖树中到最近事件核心词的距离（关系跳数）。</li><li>与最近事件核心词的相对位置（如在同一句子之后、在同一句子之前、在不同句子之后、在不同句子之前）。</li><li>到最近事件核心词的依存分析路径（如 conj - nmod - nsubj 等）。</li><li>与最近事件核心词的共同成分分析树节点（如 NP、PP、VP 等）。</li></ul><h4 id="词嵌入方法"><a href="#词嵌入方法" class="headerlink" title="词嵌入方法"></a>词嵌入方法</h4>作者尝试了比较多的 Embedding 方法，并在后续实验中进行了对比，包括：<ul><li>上下文无关性 Embedding：通过不同语料训练的 <code>Word2Vec</code>，包括<code>Transfer-Word2vec</code>、<code>Domain-word2vec</code>、<code>Cyber-Word2vec</code>。</li><li>上下文相关的 Embedding：<code>BERT-Base Uncased</code> 预训练模型。</li></ul><blockquote>值得注意的是，作者并没有直接使用 BERT 原始的输出作为最终的嵌入结果，而是经过实验对比，选择倒数第四个隐藏层的输出作为更优的词嵌入表征。这也是我们值得学习的思路。</blockquote><h4 id="模型结构"><a href="#模型结构" class="headerlink" title="模型结构"></a>模型结构</h4>将各个语义特征的 Embedding 值进行聚合，使用 Bi-LSTM + Attention 提取特征，经过一层带 Dropout 的全连接层后输出，再使用 CRF(条件随机场) 得到 B-I-O 序列标签，具体如下。<ul><li>Embedding Layer：把每个语言特征（包括单词序列，也包括POS、NER、Dependency等特征序列）的嵌入层进行聚合（Concatenate）。对每个特征，输出大小为类别总数的一半。对于单词序列，不同的单词就作为不同类别。</li><li>LSTM Layer：一层 Bi-LSTM 。</li><li>Attention Layer：使用 Location Attention 机制，属于传统 Attention 的变种，引入位置信息来增强注意力权重计算，通常会与内容注意力（Content-based Attention）结合使用，形成 Content-Location Attention。</li><li>CRF层：条件随机场，捕捉标签之间的依赖关系，提高序列标注的准确性。</li></ul>这里有一个问题，在原文中并没有详细说明如何计算的 Location Attention 分数，在开源的代码来看是调用了 keras 的 <code>SeqSelfAttention</code>，似乎没有体现 Location Attention。但不妨来学习一下，Location Attention 的注意力权重通常可表示为$$ \alpha_t=Softmax(f_{content}(x_t)+f_{location}(t)) $$内容注意力比较熟悉：$$ f_{content}(x_t)=q_t^T k_i $$位置注意力有多种运算方法，例如位置编码、卷积操作等。使用位置编码时，可表示为：$$ f_{location}(t) = v^T \cdot p_t $$其中 $v$ 是可学习的线性变换权重矩阵，$p_t$ 是位置 $t$ 的编码向量。例如在 Transformer 中，位置编码通常使用正弦和余弦函数生成。<h3 id="事件参数与角色关联（Event-Argument-and-Role-Linking）"><a href="#事件参数与角色关联（Event-Argument-and-Role-Linking）" class="headerlink" title="事件参数与角色关联（Event Argument and Role Linking）"></a>事件参数与角色关联（Event Argument and Role Linking）</h3>为每个事件参数分配一个角色标签，如表1所示。<h4 id="特征工程-1"><a href="#特征工程-1" class="headerlink" title="特征工程"></a>特征工程</h4>提取以下特征：<ul><li>事件参数表面词的词向量</li><li>事件片段特征工程的(2)、(3)、(8)项，即 CoreNLP/DBpedia 实体类别、Wikidata 相关类别、关系跳数（hops，取依赖关系树中到最近事件节点头的距离）。</li><li>目标事件参数类型、目标事件参数的左右侧事件参数类型。</li></ul><h4 id="模型结构-1"><a href="#模型结构-1" class="headerlink" title="模型结构"></a>模型结构</h4>包含一个嵌入层和三个全连接层，单词嵌入层经过两个全连接层，然后与其他特征的嵌入层连接。由于在预测参数角色之前已经知道了事件类型，因此为每种事件建立单独的神经网络，从而排除无关类型。<h3 id="事件真实性识别（Event-Realis-Identification）"><a href="#事件真实性识别（Event-Realis-Identification）" class="headerlink" title="事件真实性识别（Event Realis Identification）"></a>事件真实性识别（Event Realis Identification）</h3>将事件真实性分为 Actual、Other、Generic。当找到事件片段（Nugget）后，realis 特征向量就是 Nugget 及其周围词向量的聚合。实验表明以7个单词为上下文窗口的效果最佳。因情态动词和否定词是事件真实性的重要证据，因此停用词也包含在 realis 识别中。识别分为两步，首先识别是否为 Generic，若为 Generic 则进一步识别是 Actual 还是 Other。模型结构也较为简单，包括一层 Embedding 和两层全连接层。<h2 id="数据集及实验"><a href="#数据集及实验" class="headerlink" title="数据集及实验"></a>数据集及实验</h2>在数据集标注方面，选取了 5000 篇网络安全新闻（Cyberwire 2019），对其中包含文中所提到的五个事件的文章进行人工标注，约 1000 篇。<h3 id="评估指标"><a href="#评估指标" class="headerlink" title="评估指标"></a>评估指标</h3>采用为 TAC 事件任务（NIST 2015）开发的指标，通过计算事件要点或参数提及范围与真实范围的重叠来评估。TAC KBP 2015 包含事件块（Event Nugget）任务和事件论元（Event Argument）任务，与本文一致。通过 Precision、Recall、F1 指标来评估。<h3 id="交叉验证"><a href="#交叉验证" class="headerlink" title="交叉验证"></a>交叉验证</h3>使用 900 篇文章进行 8 折交叉验证训练模型，并使用 100 篇文章进行测试，多次运行取平均分数。<h3 id="消融实验"><a href="#消融实验" class="headerlink" title="消融实验"></a>消融实验</h3>对 Nugget 和 Argument 检测的特征进行分组，进行消融实验，展示了不同特征集对检测结果的影响。<h3 id="对比多种-Embedding-方法"><a href="#对比多种-Embedding-方法" class="headerlink" title="对比多种 Embedding 方法"></a>对比多种 Embedding 方法</h3>对预训练的 BERT、Transfer Word2vec、Domain Word2vec、Cyber Word2vec 等不同词嵌入方法进行测试。结果表明，预训练 Bert 多项指标均高于 Word2vec。在 Word2vec 行列，Domain Word2vec 表现最佳。<h2 id="总结与思考"><a href="#总结与思考" class="headerlink" title="总结与思考"></a>总结与思考</h2>这篇文章属于深度学习时代的 NLP 典型任务在网络安全领域的应用，尽管在大模型时代来看，其需要额外附加外部知识、精心做特征选择。对我的启发主要有以下：<ul><li>领域针对性设计：传统事件抽取多关注人物相关信息，而本文针对网络安全领域，明确了其与通用领域在专业知识和事件复杂性上的差异，进而定义特定的网络安全事件、语义角色及角色参数类型。</li><li>分层特征设计：在不同任务步骤（如事件参数与角色关联、事件真实性识别）中，针对具体任务需求，设计与之匹配的特征，这种分层和针对性的特征设计思路，有助于模型在不同子任务中更好地捕捉关键信息。</li><li>词嵌入方法对比：尝试多种词嵌入方法，并对 Bert 输出层进行选择优化，而不是直接采用 Bert 的最终输出。</li><li>交叉验证与消融实验：通过8折交叉验证训练模型多次取平均分数，以及对特征分组进行消融实验，增强了实验的完备性。</li></ul> </article> <article> <h1>论文阅读 - Toolformer: Language Models Can Teach Themselves to Use Tools</h1> 2024-12-21T12:20:01.000Z <blockquote>本文是我在《自然语言处理》课程上完成的论文阅读作业之一。 Toolformer 聚焦于提升 LLM 通过 API 调用外部工具的能力，提出了 Toolformer。通过对 API 文档和示例的自监督学习，模型可以在问题中有效地决定何时调用、调用何种工具、传入的参数、最优的结果。作者来自 Meta 公司和 Universitat Pompeu Fabra，发表在 NIPS 2023。原文地址：<a href="https://arxiv.org/abs/2302.04761">arxiv/2302.04761</a></blockquote><h2 id="引言"><a href="#引言" class="headerlink" title="引言"></a>引言</h2>大语言模型尽管在 <code>zero-shot</code> 和 <code>few-shot</code> 问题上有很大提升，但由于模型离线性和自回归本质等因素，其本身存在一些限制，包括：<ul><li>无法获取最新信息</li><li>存在幻觉现象</li><li>小规模LM的推理能力欠缺</li><li>缺乏数学运算能力</li><li>无法感知时间进程</li></ul>因此，常用的解决方案是让模型能够调用外部工具，用工具的输出来补充或改写上下文。然而，现有的方法主要有两大不足：依赖人工的大量标注，或者只局限于特定任务中。<blockquote>读到这里很容易想到 <code>Langchain</code> 框架，其也可以轻松地访问外部工具。我们在编写自定义工具时只需在注释中给出工具的简要介绍、参数定义，框架随后在遇到相关问题就会自动选取合适工具并调用。Langchain 应该主要对应提到的第一种不足。</blockquote>作者认为优秀的 API 工具选择器应具有以下特征：<ul><li>工具选择的学习应该是自监督的，不依赖大量的人工标注。因为人工标注不仅成本高，且人类认为重要的内容不一定是模型认为重要的。</li><li>外挂工具后，LM 应不丢失其通用性，并且可以自主决定何时、采用何工具。模型应能更全面地使用工具，而不局限于特定任务。</li></ul>文章最核心的部分，在于提出的自监督数据集的构建方案。首先对数据集中输入文本$x$进行位置划分，对于每个分割点$i$，选出Top $n$个候选 API $C_i^{j}$，随后分别执行得到结果$r_i^j$。分别计算执行结果与next tokens的损失$L_i^j$，若结果表明能降低损失，则保留该候选 API。因此，只需要少量人工编写的 API 示例，LM 就可以构造大批工具调用数据集。最后，使用这些数据集微调模型即可。作者在 GPT-J 模型（参数量6.7B）上实验，结果表明大幅提升了模型 zero-shot 能力，在多个任务上超出了规模大很多倍的 GPT-3 模型。<h2 id="读前问题"><a href="#读前问题" class="headerlink" title="读前问题"></a>读前问题</h2>在继续阅读论文主体之前，有以下几个问题和思考：<ol><li>文章提到人工标注工具选择开销较大，那么什么时候才会遇到有大量API需要标注的情况？对于一个实际的大模型，外挂的每个工具 API 应该都需要单独开发的，像 Langchain 那样在 API 编写过程中加入少许提示即可。有没有与 Langchain 的定量对比？ 读后回答：没有做这方面实验，文中主要在 GPT-J 上设计对比实验，证明 Toolformer 预训练有效，但未与其他调用工具的方式做对比。</li><li>”人类认为有用的提示“和”模型认为有用的提示“有何区别？有没有做这方面实验，如果有的话那对 Prompt 编写会是很好的启示。 读后回答：没有做这方面实验，因为数据集规模比较大（只一个QA问答数据集就接近20k条），人工编写难度大。</li><li>框架中分割位置$i$是如何确定的？ 读后回答：通过提示工程，给出 Bootstrap Prompt，让模型自己判断。</li><li>Next Tokens的loss计算的窗口大小是多少？感觉也会影响到最终效果。 读后回答：是从当前位置$i$一直计算到序列结尾，即从$x_i,…,x_n$。每个位置的损失计算主要考虑在该位置进行 API 调用（有响应或无响应）与不进行 API 调用时模型对后续标记预测的影响，理论上是对每个 API 调用位置独立评估其对模型预测的帮助程度。<blockquote>因此，感觉当多个 API 调用的结果组合起来才能更好地帮助模型预测时，当前的损失计算方式可能无法完全捕捉到这种复杂关系。</blockquote></li><li>文中方法需要对模型进行 Fine-tune，对比提示工程来说效果怎样？ 读后回答：这方面没有作对比。</li></ol><h2 id="方法"><a href="#方法" class="headerlink" title="方法"></a>方法</h2><h3 id="数据集构建"><a href="#数据集构建" class="headerlink" title="数据集构建"></a>数据集构建</h3>文中通过自监督实现了 API 调用数据集构建，通过编写一段预提示（Exemplary Prompt，有的论文也叫 Bootstrap Prompt），让 LM 完成 API 调用位置选择，执行选出的 API 拿到结果，随后过滤得到有效的 API 调用。<blockquote>非常值得学习的是他们评估一个 API 调用是否有效的方法，通过比较加入 API 前后生成序列 Loss 的差异，来定量评估了效果。这比现在大模型工作的许多评估（WinRate、ELo、NLP指标等）更具表现力。此外，他们解决“何时调用”的方案也十分精巧，是直接获取解码序列每个时刻的输出 Top-K，设定开始符号的概率阈值来判断，这是 Langchain 等将模型完全视为黑盒的框架所做不到的。</blockquote><h4 id="预提示构建"><a href="#预提示构建" class="headerlink" title="预提示构建"></a>预提示构建</h4>Exemplary Prompt 如原文 Figure3 所示。将 API 调用部分以特殊起止Token $\verb|<API>|\space\verb|</API>|$ 包裹。作者为实验可操作性起见，并没有因此而修改词表，而是将起止和结果符号用”[“、”]”、”->” 代替了。这点是我们值得借鉴的。为了衡量加入 API 后是否对预测有帮助（即损失降低），定义了仅包含 API 调用、包含 API 调用及结果的提示词$$ e(c) = \verb|<API>| a_c (i_c) \verb|</API>| \space\space e(c,r) = \verb|<API>|a_c(i_c)\rightarrow r \verb|</API>| $$<h4 id="Sampling-API-Calls"><a href="#Sampling-API-Calls" class="headerlink" title="Sampling API Calls"></a>Sampling API Calls</h4>也就是让模型决定哪里需要进行 API 调用，解决 “When” 的问题。具体步骤是：<ul><li>生成提示（Prompt）：对于每个 API ，根据 Exemplary Prompt 编写提示 $P(x)$，以鼓励 LM 在示例输入序列 $x=x_1, … ,x_n$ 中添加 API 调用注释。</li><li>计算概率：计算模型 $M$ 在每个位置 $i\space (i\in{1, … ,n})$ 开始API调用的概率 $p_i = p_m(\verb|<API>||P(x), x_{1:i-1})$。</li><li>确定候选位置：设置采样阈值$\tau_s$，保留所有$p_i > \tau_s$的位置 $I={i | p_i > \tau_s}$。如果得到位置超过$k$个，则仅保留前$k$个。</li><li>采样API调用：对于每个位置$i\in I$，以$[P(x), x1, …, x_{i-1},\verb|<API>|]$为前缀，$\verb|</API>|$为结束标记，形成最多m个 API 候选调用 $c_i^1,…, c_i^m$。</li></ul><h4 id="Executing-API-Calls"><a href="#Executing-API-Calls" class="headerlink" title="Executing API Calls"></a>Executing API Calls</h4>执行每个API $c_i$，得到结果$r_i$。<h4 id="Filtering-API-Calls"><a href="#Filtering-API-Calls" class="headerlink" title="Filtering API Calls"></a>Filtering API Calls</h4><ul><li>计算损失：对于序列 $\textbf{X}=x_1, …, x_n$，有候选 API $c_i$ 及其响应 $r_i$，给定权重序列 $(w_i | i \in \mathbb{N} )$，计算两个加权损失 $L_i^+$ 和 $L_i^-$。简单来说，前者为加入 API 调用及其结果后的损失，后者为不进行 API 调用和进行 API 调用但不提供响应这两种情况下损失的最小值。直观上，如果$L_i^-$较大而$L_i^+$较小，说明进行 API 调用后更有帮助。</li><li>筛选有用的API调用：给定阈值$\tau_f$，保留$L_i^- - L_i^+ \geq \tau_f$的调用。</li></ul><h3 id="模型微调"><a href="#模型微调" class="headerlink" title="模型微调"></a>模型微调</h3>对构建的数据集进行微调，只对需要的位置进行 API 调用序列的插入，而不改变其他内容，以此保持模型的通用性。<h3 id="模型推理"><a href="#模型推理" class="headerlink" title="模型推理"></a>模型推理</h3>当解码时遇到$\rightarrow$ Token 时（即”->”），暂停输出，调用对应 API ，并将结果加入到解码序列中，继续完成解码。<h2 id="实验部分"><a href="#实验部分" class="headerlink" title="实验部分"></a>实验部分</h2>作者主要进行了三方面的实验：一是测试提出的 API 调用选择方法是否在下游任务中真正有效；二是验证该方法不会损害 LM 本身的核心能力；三是测试不同规模的模型对工具调用的影响。 <h3 id="选用工具"><a href="#选用工具" class="headerlink" title="选用工具"></a>选用工具</h3>在挑选所使用的工具时，遵循两个原则：一是输入输出都可以用文本表示，二是可以获知他们用途的一些演示。因此，作者选用了问答系统、维基百科搜索、计算器、日历、机器翻译系统这几类 API 来做测试。<h3 id="实验场景"><a href="#实验场景" class="headerlink" title="实验场景"></a>实验场景</h3>数据集选用 CCNet 子集 $\mathcal{C}$。CCNet 他是一个从网络抓取数据中提取高质量单语数据集，发表在 LREC 会议上：<a href="https://aclanthology.org/2020.lrec-1.494/">CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data</a>。作者采用“启发式”方法创建了 CCNet 子集，例如判断文本中是否包含三个操作数，来决定是否保留作为 Calculator 任务的数据集，从而大幅缩减数据量。模型选用 GPT-J，是一个基于 GPT-3 的具备6B参数量的模型。截止2022年，它是目前公开可用的Transformer语言模型中，在各种下游zero-shot任务上表现最好的。<a href="https://huggingface.co/EleutherAI/gpt-j-6b">Hugging Face: GPT-J 6B</a>。文章还选用了规模大许多倍的 OPT（66B）和 GPT-3（175B）模型，来验证模型大小对工具调用的影响。参数方面，设定权重函数 $w_t$，来确保 API 调用发生在 API 提供的信息对模型实际有帮助的位置附近。对于 API 的采样阈值 $\tau_s$和筛选阈值 $\tau_f$，每个工具是独立选择的，可见原文 Table 2。对比实验做了三个场景：<ol><li>GPT-J + CC：用 CCNet 子集 $\mathcal{C}$ 微调的 GPT-J。</li><li>Toolformer Enabled：用文中方法制作的数据集 $\mathcal{C}^*$微调的 GPT-J。</li><li>Toolformer Disabled：使用2中所得模型，但解码时屏蔽所有 API Call。这是通过手工将每个位置解码输出中 $\verb|<API>|$ Token 的概率改为0实现的。</li></ol><blockquote>这里设计的3个对比场景值得学习。不难看出，1和2对比主要是为了证明在微调过程中引入 API 调用是否能提升模型的性能，即模型是否能学习到在合适的时机调用合适的工具来辅助处理任务。2和3对比主要是证明调用 API 之后是否真正能提高模型解决问题的能力，进一步验证使用工具的必要性。</blockquote>在模型解码方面，采用贪婪解码，当 Top-10 Token中包含 $\verb|<API>|$ 时则直接选用 $\verb|<API>|$。<h3 id="效果评估"><a href="#效果评估" class="headerlink" title="效果评估"></a>效果评估</h3><ul><li>通用知识评估：使用 <code>LAMA Benchmark</code> 的 SQuAD, Google-RE, T-REx 三套数据集来评估，用来检测语言模型中包含了多少的事实类与常识类的知识。值得注意的是，由于 LAMA 基于直接从 Wikipedia 获取的语句，作者阻止了 Toolformer 使用 Wikipedia API，以避免获得不公平的优势。</li><li>数学能力评估：使用 <code>Math Benchmarks</code> 来评估，这是UC Berkeley提出的一个用于评估机器学习模型的数学问题解决能力的数据集。 </li><li>问答能力评估：使用 <code>LAMA Benchmark</code> 的 WebQS、NQ、TriviaQA 三套数据集来评估。在一系列对比中，Toolformer 的成绩仅比 GPT-3 略低一筹。同时，还使用带有时间的数据集来评估其时间进程方面的能力，这一点超过了 GPT-3。 </li><li>多语种问答：使用 <code>MLQA</code> 来评估多语种问答能力，即上下文以英文表示，而问题是其他语种（包括中文）。结果表明在某些语言上，使用Toolformer会使效果变差。但是每种语言的 Toolformer(disabled) 都比 Toolformer 低，说明 API 调用是有用的，作者认为表明它已经学会使用机器翻译工具。 另外，作者认为OPT和GPT-3多语言能力较低的原因是没在多语言数据集上训练。最下面两组 All En 的测试证明了这一点。</li></ul>汇总结果如下，证明了 a. 调用工具API确实对提升问题解决能力有效; b. 使用 Toolformer 预训练的小规模模型在后续 Zero-shot 方面能力超过大模型 GPT-3。至此，文章完成了对于第一个方面的实验，即 Toolformer 方法有效提升了模型在下游任务中的能力。 对于是否会损害模型本身建模能力、不同规模模型对工具调用的影响，作者在4.3和4.4小节做了简要描述，结论如下：<ul><li>对模型训练的困惑度进行评估，表明 Toolformer 对模型本身建模能力影响不大。</li><li>提供工具的能力在约 775M 参数时才出现，较小模型使用和不使用工具性能相似。</li><li>模型规模增大时，不使用 API 调用解决任务的能力变好，同时利用 API 的能力也提高，但即使最大模型，使用和不使用 API 调用的预测之间仍有较大差距。</li></ul><h2 id="局限性"><a href="#局限性" class="headerlink" title="局限性"></a>局限性</h2>作者提到一个明显的局限是无法链式调用工具，因为每个 API Call 位置都是独立生成的。这点很好的解答了读前的问题4。同时，数据集生成的效率比较低，因为需要对每个文档单独进行提示工程推理，例如处理一百万份文档后，只能得到几千个有用的计算器 API 调用示例。最后，当前的 Toolformer 并未将调用 API 的成本纳入考虑。<h2 id="总结与思考"><a href="#总结与思考" class="headerlink" title="总结与思考"></a>总结与思考</h2>这篇文章我认为启发有以下几点：<ul><li>方法方面，结合提示工程设计了自监督的训练方案，使其可以用简单的 Loss 作为监督条件，来生成 Fine-tune 所用的数据集。在许多大模型 Fine-tune 的文章中，数据集生成是一个痛点，人工标注代价太大，而使用第三方大模型生成又无法保障质量。</li><li>技巧方面，对开源大模型的 Decoding 原始输出进行了利用和改造，没有将其完全作为黑盒来 Fine-tune。</li><li>评估方案方面，精巧的设计了几个对比实验，有力地证明了方法有效性。同时，还对方法本身之外的两个问题（是否导致困惑度增大、LM 规模与工具调用能力的关系）进行了测试，使结论更加充实。</li></ul>同时，关于本工作我还有自己的几点思考：<ul><li>该方案本身无法实现链式的工具调用，若想基于它实现的话，感觉可以尝试通过多轮对话的方式形成多个 API 调用点，从而构成简单的 CoT。</li><li>该方案需要对 LM 进行微调，使其获得选择 API 的能力。若模型规模特别大，微调将花费较大的时间和成本。除了使用更精简的微调技术外，感觉可以尝试大小模型协作的方案，例如使用提示工程让大模型初步分析可能的 API 调用位置，再让 Toolformer 小模型进行更精细的 API 调用决策和参数调整。</li><li>很希望将这个方法与纯 Prompt方式的（例如langchain）工具框架进行对比，看看哪种方式更有效。</li></ul> </article> <article> <h1>Docker 常识查漏补缺</h1> 2024-04-09T16:00:01.000Z Docker是一种轻量级的虚拟化技术，同时是一个开源的应用容器运行环境搭建平台。其解决了环境差异、依赖关系管理和部署一致性等问题，已经成为极为流行的技术。云原生技术的兴起，进一步强调了它的重要性。 笔者没有系统的学习过Docker，但日常却完全离不开Docker。在近期的几个项目中，发现了自己在这方面的诸多薄弱点，故回顾如下。<h2 id="1-pid与进程隔离"><a href="#1-pid与进程隔离" class="headerlink" title="1. pid与进程隔离"></a>1. pid与进程隔离</h2><h3 id="问题出现"><a href="#问题出现" class="headerlink" title="问题出现"></a>问题出现</h3>我意识到这个问题，是源于一次<code>elasticsearch</code>的使用。我在宿主机中安装了es，但现在需要另一个版本的es，为方便安装，就用docker启动了一个。时隔多日，我忘记了自己在docker中还启动了一个es服务。当需要kill掉它们时，却发现<code>kill -9 {pid}</code>后，会自动重启。在宿主机上<code>ls</code>这个目录，也找不到对应的文件。 最后才想起来是自己Docker启动的es，令好友也倍感诧异…甚至在Docker官方社区中，我们也能看到这样的讨论：其实，在宿主机中使用<code>ps</code>/<code>htop</code>等命令能看见Docker进程是正常的。这是由于Docker 是基于 Linux 内核的 Namespace 技术实现资源隔离的，所有的容器都共享主机的内核。<h3 id="什么是Namespace"><a href="#什么是Namespace" class="headerlink" title="什么是Namespace"></a>什么是Namespace</h3>Namespace 是 Linux 内核的一项功能，该功能对内核资源进行分区，以使一组进程看到一组资源，而另一组进程看到另一组资源。Namespace 的工作方式通过为一组资源和进程设置相同的 Namespace 而起作用，但是这些 Namespace 引用了不同的资源。资源可能存在于多个 Namespace 中。这些资源可以是进程 ID、主机名、用户 ID、文件名、与网络访问相关的名称和进程间通信。 简单来说，Namespace 是 Linux 内核的一个特性，该特性可以实现在同一主机系统中，对进程 ID、主机名、用户 ID、文件名、网络和进程间通信等资源的隔离。Docker 利用 Linux 内核的 Namespace 特性，实现了每个容器的资源相互隔离，从而保证容器内部只能访问到自己 Namespace 的资源。Linux中定义了6种Namespace：<table><thead><tr><th>Namespace</th><th>作用</th><th>描述</th></tr></thead><tbody><tr><td>Mount</td><td>隔离文件系统挂载点</td><td>每个namespace都可以有不同的文件系统视图</td></tr><tr><td>PID</td><td>隔离进程ID</td><td>每个namespace可以有自己的进程空间，使得一个进程在不同namespace中可以有不同的PID</td></tr><tr><td>Network</td><td>隔离网络设备</td><td>每个namespace拥有自己的网络设备、IP地址、路由表等</td></tr><tr><td>IPC</td><td>隔离System V IPC和POSIX message queues</td><td>每个namespace有自己的IPC资源</td></tr><tr><td>UTS</td><td>隔离主机名和域名</td><td>每个namespace可以有自己的主机名和域名</td></tr><tr><td>User</td><td>隔离用户ID和组ID</td><td>每个namespace有自己的用户和用户组，使得在namespace内部，一个用户可以被视为root用户，而在namespace外部，该用户只是普通用户</td></tr></tbody></table><h3 id="Docker中对Namespace的使用"><a href="#Docker中对Namespace的使用" class="headerlink" title="Docker中对Namespace的使用"></a>Docker中对Namespace的使用</h3>在宿主机上，可以观察到Docker 守护进程为每个容器创建了六种 namespace 的实例，并且由内核管理这种映射关系。那么，这种映射关系是由谁创建的呢？Docker 的运行时组件（如 containerd、runc 等）负责创建和管理容器，在创建容器时会配置 PID namespace。<h3 id="Cgroups"><a href="#Cgroups" class="headerlink" title="Cgroups"></a>Cgroups</h3>Namespace提供了资源隔离，而Cgroup则可以说是提供了资源管理。Linux Cgroup 可让为系统中所运行任务（进程）的用户定义组群分配资源 -–— 比如 CPU 时间、系统内存、网络带宽或者这些资源的组合。您可以监控您配置的 cgroup，拒绝 cgroup 访问某些资源，甚至在运行的系统中动态配置您的 cgroup。所以，可以将 controll groups 理解为 controller (system resource) (for) (process) groups，也就是是说它以一组进程为目标进行系统资源分配和控制。<h3 id="宿主机htop中排除Docker容器进程"><a href="#宿主机htop中排除Docker容器进程" class="headerlink" title="宿主机htop中排除Docker容器进程"></a>宿主机htop中排除Docker容器进程</h3>有了上述基础，实际上我们只需要排除指定的Cgroups就可以。不妨按F2设置显示CGROUP名称，再F4即可。 <h2 id="2-网络代理问题"><a href="#2-网络代理问题" class="headerlink" title="2. 网络代理问题"></a>2. 网络代理问题</h2><blockquote>来源：<a href="https://blog.csdn.net/vic_qxz/article/details/130061661"> victoruu: 配置docker pull代理</a></blockquote><h3 id="Docker-pull代理"><a href="#Docker-pull代理" class="headerlink" title="Docker pull代理"></a>Docker pull代理</h3>在执行<code>docker pull</code>时，如果网络环境较为复杂，我通常通过终端代理命令（例如<code>export https_proxy=http://127.0.0.1:1234</code>）来试图让pull过程走代理，实际上这是没有用的。在执行<code>docker pull</code>时，是由守护进程<code>dockerd</code>来执行。因此，代理需要配在<code>dockerd</code>的环境中。而这个环境，则是受<code>systemd</code>所管控，因此实际是<code>systemd</code>的配置。<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 </pre></td><td class="code"><pre>sudo mkdir -p /etc/systemd/system/docker.service.d sudo touch /etc/systemd/system/docker.service.d/proxy.conf </pre></td></tr></table></figure>在这个<code>proxy.conf</code>文件（可以是任意<code>*.conf</code>的形式）中，添加以下内容：<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 </pre></td><td class="code"><pre>[Service] Environment="HTTP_PROXY=http://127.0.0.1:8888/" Environment="HTTPS_PROXY=http://127.0.0.1:8888/" Environment="NO_PROXY=localhost,127.0.0.1,.example.com" </pre></td></tr></table></figure><code>dockerd</code> 代理的修改比较特殊，它实际上是改 <code>systemd</code> 的配置，因此需要重载 <code>systemd</code> 并重启 <code>dockerd</code> 才能生效。<h3 id="容器内代理"><a href="#容器内代理" class="headerlink" title="容器内代理"></a>容器内代理</h3>在容器运行阶段，如果需要代理上网，则需要配置 <code>~/.docker/config.json</code>。以下配置，只在Docker 17.07及以上版本生效。<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 </pre></td><td class="code"><pre>{ "proxies": { "default": { "httpProxy": "http://127.0.0.1:8888", "httpsProxy": "http://127.0.0.1.com:8888", "noProxy": "localhost,127.0.0.1,.example.com" } } } </pre></td></tr></table></figure>此外，容器的网络代理也可以直接在其运行时通过 <code>-e</code> 注入 <code>http_proxy</code> 等环境变量。这两种方法分别适合不同场景。 <code>config.json</code> 非常方便，默认在所有配置修改后启动的容器生效，适合个人开发环境。在CI/CD的自动构建环境、或者实际上线运行的环境中，这种方法就不太合适，用 <code>-e</code> 注入这种显式配置会更好，减轻对构建、部署环境的依赖。当然，在这些环境中，最好用良好的设计避免配置代理上网。<h3 id="Build代理"><a href="#Build代理" class="headerlink" title="Build代理"></a>Build代理</h3>虽然 <code>docker build</code> 的本质，也是启动一个容器，但是环境会略有不同，用户级配置无效。在构建时，需要注入 <code>http_proxy</code> 等参数。<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 5 </pre></td><td class="code"><pre>docker build . \ --build-arg "HTTP_PROXY=http://proxy.example.com:8080/" \ --build-arg "HTTPS_PROXY=http://proxy.example.com:8080/" \ --build-arg "NO_PROXY=localhost,127.0.0.1,.example.com" \ -t your/image:tag </pre></td></tr></table></figure><blockquote>参考来源： <a href="https://cizixs.com/2017/08/29/linux-namespace/">https://cizixs.com/2017/08/29/linux-namespace/</a> <a href="https://developer.aliyun.com/article/1406336">https://developer.aliyun.com/article/1406336</a> <a href="https://blog.csdn.net/vic_qxz/article/details/130061661">https://blog.csdn.net/vic_qxz/article/details/130061661</a></blockquote> </article> <article> <h1>Nginx以HTTP反向代理HTTPS的Exchange邮件服务</h1> 2024-01-16T16:00:01.000Z 笔者使用Nginx反向代理时，上游服务强制启用了HTTPS访问，但我们的需求是以HTTP统一对外提供服务。经过一些探索，发现问题主要来源于<code>上游应用302跳转</code>、set-cookie响应头的<code>secure</code>属性两方面，需要合理调整Nginx的站点配置文件来解决。<blockquote>This post shows how to proxy HTTPS Exchange Mail service with HTTP protocol when using Nginx reverse proxy. The key point is to handle <code>302 redirect</code> and <code>secure</code> attribute in configuration of Nginx.</blockquote>文章参考了 <a href="https://dhyuan.github.io/2021/04/07/micro_service/http_nginx_to_https_upstream/">浅流 - Nginx以HTTP反向代理HTTPS服务</a> 这篇文章，但其对Nginx的<code>more_set_headers</code>属性设置有问题，导致<code>set-cookie</code>头从<code>secure</code>属性的后面截断，在具有多个<code>set-cookie</code>响应头的登录场景中不适用。<hr><h2 id="问题发现"><a href="#问题发现" class="headerlink" title="问题发现"></a>问题发现</h2>问题背景参考原文，用以下配置运行 Ngnix，使其用 HTTP 协议在 9080 端口反向代理 19026 上的 HTTPS 服务。<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 </pre></td><td class="code"><pre>server { listen 9080; server_name 10.115.6.165; location /databoard/ { proxy_pass https://10.115.6.165:19026/databoard/; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header REMOTE-HOST $remote_addr; proxy_set_header X-Forwarded-Proto $scheme; proxy_redirect off; } } </pre></td></tr></table></figure>但是如果我们用浏览器访问 <a href="http://10.115.6.165:9080/databoard/login">http://10.115.6.165:9080/databoard/login</a> ,就会发现如下图所示的两问题：<h2 id="后端服务使用-redirect-重定向导致的问题"><a href="#后端服务使用-redirect-重定向导致的问题" class="headerlink" title="后端服务使用 redirect 重定向导致的问题"></a>后端服务使用 redirect 重定向导致的问题</h2>浏览器地址栏上显示被重定向到了<a href="https://10.115.6.165/databoard/dataCmder">https://10.115.6.165/databoard/dataCmder</a> .这是因为<code>后端Web应用</code>执行了redirect重定向语句，而重定向的协议、地址是基于web应用上下文的，而nginx并没有做特别的处理就转发给了浏览器，浏览器自然不能访问到这个地址。解决办法如下：<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 </pre></td><td class="code"><pre>map $upstream_http_Location $location { ~https://10.115.6.165/(?<param>.*) http://10.115.6.165:9080/$param; default $upstream_http_Location; } server { ... ... location /databoard/ { ... ... more_set_headers -s '301 302' 'Location $location'; </pre></td></tr></table></figure><h2 id="Cookie-携带-Secure-属性问题"><a href="#Cookie-携带-Secure-属性问题" class="headerlink" title="Cookie 携带 Secure 属性问题"></a>Cookie 携带 Secure 属性问题</h2>Cookie的<code>Secure</code>属性，意味着保持Cookie通信只限于加密传输，指示浏览器仅仅在通过安全/加密连接才能使用该Cookie，而我们的需求是以HTTP方式传送。如果不去掉，浏览器会提示不接受这个Cookie。对于该问题，原文采用的方案是通过nginx的<code>more_set_headers</code>模块，通过<code>map</code>中正则表达式对<code>Set-Cookie</code>进行改写。但该方案会导致<code>Set-Cookie</code>直接从<code>secure</code>属性的前面截断，如果<code>secure</code>属性在中间，或者是有多个<code>Set-Cookie</code>属性时，就无法适用。经过查阅 Nginx官方文档中的 <a href="https://nginx.org/en/docs/http/ngx_http_proxy_module.html#proxy_cookie_flags">Module ngx_http_proxy_module</a> ，发现从nginx 1.19.3开始，加入了<code>proxy_cookie_flags</code>的directive，恰好可以去掉<code>secure</code>属性并且加入<code>samesite</code>属性（如果不加入samesite属性，浏览器一样会拒绝）。因此，完整配置如下：<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 </pre></td><td class="code"><pre>map $upstream_http_Location $location { ~https://10.115.6.165/(?<param>.*) http://10.115.6.165:9080/$param; default $upstream_http_Location; } map $sent_http_set_cookie $resp_cookie { ~*(?<CK_WITHOUT_SECURE>.+)Secure $CK_WITHOUT_SECURE; } server { listen 9080; server_name 10.115.6.165; location /databoard/ { proxy_pass https://10.115.6.165:19026/databoard/; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header REMOTE-HOST $remote_addr; proxy_set_header X-Forwarded-Proto $scheme; proxy_redirect off; more_set_headers -s '301 302' 'Location $location'; # 主要看下面的部分 # more_set_headers 'Set-Cookie: $resp_cookie'; # 取消原文中的替换 proxy_cookie_flags ~ nosecure samesite=strict; # 调整为官方的方法 } } </pre></td></tr></table></figure>成功去掉了<code>secure</code>属性，加上了<code>samesite</code>属性。但是，需要注意的<code>more_set_headers</code>仅在Nginx 1.19.3以上才支持，因此您需要升级Nginx版本，以使用该方案。<hr><h2 id="Ubuntu编译安装新版本Nginx并加入相关模块支持"><a href="#Ubuntu编译安装新版本Nginx并加入相关模块支持" class="headerlink" title="Ubuntu编译安装新版本Nginx并加入相关模块支持"></a>Ubuntu编译安装新版本Nginx并加入相关模块支持</h2>如果不清楚如何升级自己的Nginx，可以参考以下。执行 <code>apt search nginx</code> 会发现Ubuntu22.04的apt源中nginx版本太老，为1.18.0，不能满足我们的需求。因此需要从源码编译安装，需要注意的是添加OpenSSL模块（不然无法代理HTTPS的服务）、并且添加 <code>headers-more-nginx-module</code> 这个附加模块。 (<a href="https://github.com/openresty/headers-more-nginx-module">https://github.com/openresty/headers-more-nginx-module</a>)使用以下命令进行编译配置。完成后 <code>make && sudo make install</code> 即可。安装完毕之后，默认路径在 <code>/usr/local/nginx/sbin/nginx</code>，因此可以 <code>sudo ln -s /usr/local/nginx/sbin/nginx /usr/bin/nginx</code> 建立一个软链接。编译安装的nginx默认没有<code>sites-enabled</code>这个目录，可以手工在其conf目录新建一个，并且在<code>nginx.conf</code>中引入:<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 </pre></td><td class="code"><pre># nginx.conf events { worker_connections 1024; } http { include mime.types; default_type application/octet-stream; ... ... include /usr/local/nginx/conf/sites-enabled/*; } </pre></td></tr></table></figure>随后将其注册为 <code>systemd</code> 服务，在 <code>/etc/systemd/system</code> 新建一个 <code>nginx.service</code> :<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 </pre></td><td class="code"><pre># /etc/systemd/system/nginx.service [Unit] Description=nginx - high performance web server After=network.target remote-fs.target nss-lookup.target [Service] Type=forking PIDFile=/usr/local/nginx/logs/nginx.pid ExecStart=/usr/local/nginx/sbin/nginx -c /usr/local/nginx/conf/nginx.conf ExecReload=/usr/local/nginx/sbin/nginx -s reload ExecStop=/usr/local/nginx/sbin/nginx -s stop PrivateTmp=true [Install] WantedBy=multi-user.target </pre></td></tr></table></figure>记得 <code>sudo systemctl daemon-reload</code> 重载服务，再 <code>sudo systemctl start nginx</code> 即可运行。 </article> <article> <h1>FRP 0.38.0 流量加密分析</h1> 2023-12-07T16:00:01.000Z FRP是一款开源的轻量级反向代理工具，可快速、稳定地代理NAT或者防火墙后面的服务，应用较为广泛。其使用Go语言编写，具备很好的跨平台特性。 FRP仓库地址：<a href="https://github.com/fatedier/frp">https://github.com/fatedier/frp</a><hr>由于网络上几乎没有分析frp协议及其加密机制的文章，而且frp每个版本的加密逻辑还不一样（例如0.38.0与0.52.0），笔者跟了一遍源码，简单记下这篇文章，供相关从业者参考。##结论<ul><li>加密算法：<code>AES-CFB</code></li><li>iv：首次发送报文时向对方传递</li><li>salt：固定盐值</li><li>会话密钥：用配置文件里的<code>token</code>以<code>pbkdf2</code>算法派生</li></ul><hr><h2 id="分析过程"><a href="#分析过程" class="headerlink" title="分析过程"></a>分析过程</h2>首先下载源码，搜索关键字<code>encrypt</code>，发现一处可能与加密相关的地方，跟进去。 发现引用了frpIo这个包，而这个包是从github引用，去它仓库克隆下代码来。 很明显<code>WithEncryption</code>就是加密逻辑的入口：传入密钥，对读写函数进行封装。 跟进<code>NewReader()</code>函数，找到具体的加密逻辑： + 第一步，使用<code>pbkdf2</code>算法从主密钥派生出会话密钥。需要的参数及寻找位置如下： + 主密钥：从frp代码的<code>/server/control.go</code>中发现，主密钥就是<code>serverCfg.Token</code>，也就是我们配置文件<code>frps.ini</code>Common中的<code>token</code>字段。 + 盐值：从frp代码的<code>/server/main.go</code>入口函数中找到，默认是<code>"frp"</code>。 + 迭代次数：固定64。 + 输出长度：与aes每个block长度一致，默认为16字节。 + 哈希函数：固定为sha1。<pre><code>+ 第二步，生成iv向量。虽然代码注释上写着“random iv”，但查看代码发现，iv只初始化了大小，没有赋值，因此固定是16字节的0.**当时狠狠坑了我好长时间**+ 第三步，AES CFB加密。这点需要了解基础的密码学常识，在CFB模式下首部不能有多余字符，否则分组错乱，整个密文解开都是错的。而在抓包分析时，经常有使用0或者其他标志填充首部，这点也容易导致解密失败。**编写解密脚本时需要注意。**</code></pre><h2 id="解密脚本编写"><a href="#解密脚本编写" class="headerlink" title="解密脚本编写"></a>解密脚本编写</h2>到此为止，整个加密逻辑就很清楚了。可以参照源码，用go编写解密脚本如下：<figure class="highlight go"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 </pre></td><td class="code"><pre>func Decrypt(token, ciphertext, iv []byte) ([]byte, error) { // 根据你的需求处理 token，用作密钥 key := pbkdf2.Key(token, []byte(DefaultSalt), 64, aes.BlockSize, sha1.New) // 创建 AES 加密块 block, err := aes.NewCipher(key) if err != nil { return nil, err } // 检查密文长度是否有效 if len(ciphertext) == 0 { return nil, fmt.Errorf("empty ciphertext") } // 使用 CFB 解密模式 stream := cipher.NewCFBDecrypter(block, iv) stream.XORKeyStream(ciphertext, ciphertext) return ciphertext, nil } </pre></td></tr></table></figure><h2 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h2>总结来说，frp是用配置文件里的<code>token</code>以<code>pbkdf2</code>算法派生会话密钥；首次发送报文时向对方传递<code>iv</code>；使用固定值作为<code>salt</code>；采用AES-CFB模式对流量进行加密。 </article> <article> <h1>蓝牙键盘流量包分析和还原</h1> 2023-11-20T16:00:01.000Z <blockquote>蓝牙键盘的按键还原与普通USB键盘有些许区别，但是在网上只找到了一个很好用的USB键盘流量包解析脚本，没有找到蓝牙键盘的。随后稍微研究了一下，加入蓝牙键盘解析的支持。</blockquote>脚本已放到Github：<a href="https://github.com/BaiHLiu/Bluetooth-UsbKeyboardDataHacker">https://github.com/BaiHLiu/Bluetooth-UsbKeyboardDataHacker</a><h2 id="工具说明"><a href="#工具说明" class="headerlink" title="工具说明"></a>工具说明</h2><ul><li>抓包工具：Wireshark 4.2.0</li><li>系统环境：Windows 11</li><li>键盘型号：罗技 K585</li><li>脚本运行：Ubuntu18.04</li></ul><h2 id="流量分析"><a href="#流量分析" class="headerlink" title="流量分析"></a>流量分析</h2>普通USB键盘数据包的数据长度为 8 个字节，击键信息集中在第 3 个字节。但对蓝牙ATT流量进行分析后发现，击键信息应该是在第 2 个字节。 <h2 id="脚本改造"><a href="#脚本改造" class="headerlink" title="脚本改造"></a>脚本改造</h2>主要需要修改tshark过滤字段，以及下面解析字节时的位置。 测试后发现所有键盘、Shift键等均可正确解析。<h2 id="代码"><a href="#代码" class="headerlink" title="代码"></a>代码</h2><figure class="highlight python"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 </pre></td><td class="code"><pre>import sys import os DataFileName = "usb.dat" presses = [] normalKeys = {"04":"a", "05":"b", "06":"c", "07":"d", "08":"e", "09":"f", "0a":"g", "0b":"h", "0c":"i", "0d":"j", "0e":"k", "0f":"l", "10":"m", "11":"n", "12":"o", "13":"p", "14":"q", "15":"r", "16":"s", "17":"t", "18":"u", "19":"v", "1a":"w", "1b":"x", "1c":"y", "1d":"z","1e":"1", "1f":"2", "20":"3", "21":"4", "22":"5", "23":"6","24":"7","25":"8","26":"9","27":"0","28":"<RET>","29":"<ESC>","2a":"<DEL>", "2b":"\t","2c":"<SPACE>","2d":"-","2e":"=","2f":"[","30":"]","31":"\\","32":"<NON>","33":";","34":"'","35":"<GA>","36":",","37":".","38":"/","39":"<CAP>","3a":"<F1>","3b":"<F2>", "3c":"<F3>","3d":"<F4>","3e":"<F5>","3f":"<F6>","40":"<F7>","41":"<F8>","42":"<F9>","43":"<F10>","44":"<F11>","45":"<F12>"} shiftKeys = {"04":"A", "05":"B", "06":"C", "07":"D", "08":"E", "09":"F", "0a":"G", "0b":"H", "0c":"I", "0d":"J", "0e":"K", "0f":"L", "10":"M", "11":"N", "12":"O", "13":"P", "14":"Q", "15":"R", "16":"S", "17":"T", "18":"U", "19":"V", "1a":"W", "1b":"X", "1c":"Y", "1d":"Z","1e":"!", "1f":"@", "20":"#", "21":"$", "22":"%", "23":"^","24":"&","25":"*","26":"(","27":")","28":"<RET>","29":"<ESC>","2a":"<DEL>", "2b":"\t","2c":"<SPACE>","2d":"_","2e":"+","2f":"{","30":"}","31":"|","32":"<NON>","33":":","34":"\"","35":"<GA>","36":"<","37":">","38":"?","39":"<CAP>","3a":"<F1>","3b":"<F2>", "3c":"<F3>","3d":"<F4>","3e":"<F5>","3f":"<F6>","40":"<F7>","41":"<F8>","42":"<F9>","43":"<F10>","44":"<F11>","45":"<F12>"} def main(): # check argv if len(sys.argv) != 2: print("Usage : ") print(" python UsbKeyboardHacker.py data.pcap") print("Tips : ") print(" To use this python script , you must install the tshark first.") print(" You can use `sudo apt-get install tshark` to install it") print("Author : ") print(" WangYihang <wangyihanger@gmail.com>") print(" If you have any questions , please contact me by email.") print(" Thank you for using.") exit(1) # get argv pcapFilePath = sys.argv[1] # get data of pcap os.system("tshark -r %s -Y 'bthci_acl && btatt' -T fields -e btatt.value > %s" % (pcapFilePath, DataFileName)) # read data with open(DataFileName, "r") as f: for line in f: presses.append(line[0:-1]) # handle result = "" for press in presses: if press == '': continue if ':' in press: Bytes = press.split(":") else: Bytes = [press[i:i+2] for i in range(0, len(press), 2)] if Bytes[0] == "00": if Bytes[1] != "00" and normalKeys.get(Bytes[1]): result += normalKeys[Bytes[1]] elif int(Bytes[0],16) & 0b10 or int(Bytes[0],16) & 0b100000: # shift key is pressed. if Bytes[1] != "00" and normalKeys.get(Bytes[1]): result += shiftKeys[Bytes[1]] else: print("[-] Unknow Key : %s" % (Bytes[0])) print("[+] Found : %s" % (result)) # clean the temp data os.system("rm ./%s" % (DataFileName)) if __name__ == "__main__": main() </pre></td></tr></table></figure> </article> <article> <h1>校园网SLAAC环境下IPv6的桥接与中继</h1> 2023-10-27T16:00:01.000Z 笔者所在的校园网中开通了IPv6，本以为会像家庭宽带那样，路由器自动DHCPv6桥接让小内网中的设备获取到全球v6地址，但经过探索发现其采用了无PD（Prefix Delegation）下发的SLAAC（Stateless Address Auto-Configuration，无状态地址自动配置）。本文基于该校园网环境，首先介绍v6基础知识，随后在Cisco设备用<del>不那么优雅的方法</del>完成配置。本文参考了<a href="https://blog.men.ci/ipv6-slaac-relay-and-bridge/">SLAAC 环境下的 IPv6 桥接与中继-Menci’s Blog</a>这篇文章，下面部分基础知识也是摘抄而来。建议没有接触过v6的读者先阅读并理解这些基础知识，对后续会有很大帮助。<h2 id="原理"><a href="#原理" class="headerlink" title="原理"></a>原理</h2><h3 id="SLAAC"><a href="#SLAAC" class="headerlink" title="SLAAC"></a>SLAAC</h3>SLAAC（Stateless Address Auto-Configuration，无状态地址自动配置）是 IPv6 网络中最常见的为单一主机分配地址的方式。一般来说，IPv6 终端网络使用 /64 的前缀长度，并使用 SLAAC 来配置每个主机的 /64 后缀。主机使用其网卡 MAC 地址来生成后缀，确保地址不会冲突。 这种配置方式的存在，得益于 IPv6 地址高达 128 位的地址空间。ISP 能够为每个用户网络分配 /64 乃至更大的地址空间，终端网络无需使用 DHCP 小心翼翼地在有限的地址池中为设备分配地址，也不需要使用 NAT 来让网络中的设备共享一个公网地址。SLAAC 协议由两种数据包组成，它们都属于 ICMPv6：<ul><li>Router Solicitation（路由请求），由需要配置 IPv6 的主机发送的组播包，向网络中的路由器请求路由宣告。</li><li>Router Advertisement（路由宣告），由路由器在收到请求后发送，或配置变更时发送。包含前缀、路由、有效时长等信息，也包含 DNS 服务器地址等一些扩展。 一些时候 SLAAC 不足以配置网络中的所有信息，仍然需要 DHCP，这种情况不是本文所介绍的重点，但可以用类似的方法解决。</li></ul>主机在收到路由宣告后，会使用其中的信息来为自己配置 IPv6 地址和路由表。注意，由于 SLAAC 是无状态的，主机并不需要将选择的地址上报给路由器。<h3 id="NDP"><a href="#NDP" class="headerlink" title="NDP"></a>NDP</h3>与 IPv4 的 ARP 协议类似，IPv6 使用 NDP（Neighbor Discovery Protocol）协议来将同一网络中其他主机的 IP 地址对应到 MAC 地址。这个过程与 ARP 基本一致，一方发送Neighbor Solicitation（邻居请求）组播包，包含所查询的 IPv6 地址，持有该地址主机返回Neighbor Advertisement（邻居宣告）。<h3 id="PD"><a href="#PD" class="headerlink" title="PD"></a>PD</h3>PD（Prefix Delegation）是 DHCPv6 的一项扩展，用于 DHCP 服务器将一整段地址分配给 DHCP 客户端。这种情况一般常见于 ISP 为用户分配 IPv6 地址。在客户端获取地址时，DHCPv6 服务器（作为上级路由器）会添加一条路由，将整个被下发的网段路由到客户端。这样一来，整个地址块（一般为 /64 或者 /60）均可被客户端网络使用。DHCPv6 客户端收到由 PD 下发的前缀后，即可通过 SLAAC 等方式为整个网络内的所有主机配置 IPv6 地址，这个过程不再需要上级路由的参与。这也是一般家用网络中最常见的 IPv6 地址分配方式。<h2 id="问题"><a href="#问题" class="headerlink" title="问题"></a>问题</h2><blockquote>如果我们的路由器本身处于一个没有 DHCPv6 PD 分配的环境中，只能通过 SLAAC 从上级路由（WAN）获得单个 IPv6 地址，应该如何为网络中（LAN）的主机分配 IPv6 地址？</blockquote>这种情况常见于校园网环境中，不存在 PD 前缀下发，只有 SLAAC 地址分配。以及，在一些家庭宽带环境下，ISP 提供的光猫完成了 PPPoE 拨号、DHCPv6 PD 获取前缀、SLAAC 下发地址的整个过程，接入光猫（上级路由）的路由器同样无法获得前缀。<h2 id="解决方案总结"><a href="#解决方案总结" class="headerlink" title="解决方案总结"></a>解决方案总结</h2>经过总结，主要有以下较为方便可行的方式实现WAN和LAN间PD和NDP报文的转发。<h3 id="中继（Openwrt为例）"><a href="#中继（Openwrt为例）" class="headerlink" title="中继（Openwrt为例）"></a>中继（Openwrt为例）</h3>在这种情况下，除 NAT 之外，使 LAN 中的终端设备接入 IPv6 的主要思路是，假装这些设备被直接接入到 WAN 中，从 WAN 上的上级路由获得 IPv6 地址，并在 LAN 和 WAN 之间对 SLAAC 和 NDP 协议进行代理 —— 双向转发 SLAAC 与 NDP 包，并将源 MAC 地址改为我们的路由器的 MAC 地址。在 WAN 和 LAN 中的设备看来，对方网络中的 IP 地址由我们的路由器所持有，所有流量均由我们的路由器。这种实现思路被称为 IPv6 中继（Relay）。OpenWrt 的 6relayd（早期）与 odhcpd（目前）实现了这个功能，在一般的 Linux 路由器上，我们也可以通过抓包来手动实现它（见 Menci/magpie），但实现较为复杂，运行效果并不好。<h4 id="中继方案可能出现的问题"><a href="#中继方案可能出现的问题" class="headerlink" title="中继方案可能出现的问题"></a>中继方案可能出现的问题</h4>在某些网络环境使用中继方案时，可能会遇到NDP中继无法学习到正确路由表的问题，该问题所表现的现象包括并不限于：<ul><li>同属于br-lan中的设备可以IPv6相互通信，其他情况无法通信。</li><li>br-lan中的设备刚接入时与公网IPv6设备可以通信，过一会（实际上是过了邻居条目有效期）后无法通信了。</li><li>br-lan中的设备始终可以与公网IPv6设备通信，但每次建立通信时前几个包延迟会特别大。</li></ul>这几种问题现象大概率说明 odhcpd 的 NDP 中继无法学习到正确的路由表（也就一直无法让目的地是 LAN 的分组进入 LAN 区域）。这个问题在博主Slient Blog的 <a href="https://blog.icpz.dev/articles/notes/odhcpd-relay-mode-discuss/#%E4%B8%AD%E7%BB%A7%E6%A8%A1%E5%BC%8F%E7%9A%84%E5%B1%80%E9%99%90%E6%80%A7%E4%BB%A5%E5%8F%8A%E5%8F%AF%E8%83%BD%E7%9A%84%E8%A7%A3%E5%86%B3%E6%96%B9%E6%B3%95">odhcpd 中继模式原理、局限以及解决方案</a> 中有详细分析，如下：<ol><li>目的地是 LAN 侧客户端 A 的 IPv6 分组直接到达 WAN 口；</li><li>路由器内核根据现有路由表进行转发，发现该分组属于 WAN 口的 /64 子网，所以在 WAN 口发送 NS 寻找 A 的 MAC 地址；</li><li>错误配置的 WAN 口上游回答了 NA 消息，导致 odhcpd 错误地学习了邻居信息并添加了 A 地址在 WAN 侧的错误路由表项；</li><li>路由器将该 IPv6 分组发回给了 WAN 口上游节点，导致丢包。</li></ol>至此后续到达 WAN 口的分组会不停重复上述过程，导致 LAN 侧的 A 虽然有 IPv6 地址却无法正常通信。博主借助openwrt的 <code>hotplug</code> 机制，编写了一个脚本，用于在 WAN 口获得 IPv6 地址后添加一条路由表，让整个子网重定向到 LAN 口。将以下脚本放在 /etc/hotplug.d/iface/80-reset-route6 并重启 WAN 接口即可：<figure class="highlight shell"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 </pre></td><td class="code"><pre>#!/bin/sh wan_dev="wan6" [ "$HOTPLUG_TYPE" = "iface" ] || exit 0 [ "$INTERFACE" = "$wan_dev" ] || exit 0 RTMETRIC=127 . /lib/functions/network.sh network_get_physdev lan_dev lan || exit 0 ifup_cb() { local _lan_dev="$1" local _metric="$2" local wan_subnet network_get_subnet6 wan_subnet "$wan_dev" || return _wan_network=$(owipcalc "${wan_subnet}" network) ip -6 route replace "$_wan_network" dev "$_lan_dev" metric "$_metric" } ifdown_cb() { local _lan_dev="$1" local _metric="$2" ip -6 route flush dev "$_lan_dev" metric "$_metric" } case "$ACTION" in ifup) ifup_cb "$lan_dev" "$RTMETRIC" ;; ifdown) ifdown_cb "$lan_dev" "$RTMETRIC" ;; ifupdate) ifdown_cb "$lan_dev" "$RTMETRIC" sleep 1 ifup_cb "$lan_dev" "$RTMETRIC" ;; *) ;; esac exit 0 </pre></td></tr></table></figure><h3 id="直接桥接（Iptables为例）"><a href="#直接桥接（Iptables为例）" class="headerlink" title="直接桥接（Iptables为例）"></a>直接桥接（Iptables为例）</h3>直接桥接是指将 IPv4 和 IPv6 视作独立的网络接口。 假设我们有 WAN4、WAN6、LAN4、LAN6，将 WAN6 与 LAN6 桥接，保持 WAN4 与 LAN4 上原有的 NAT 配置。这样一来，桥接会使得 WAN 与 LAN 中主机的 IPv6 流量互通，无需关心地址分配与邻居发现上的任何问题。 配置方法请见： <a href="https://blog.men.ci/ipv6-slaac-relay-and-bridge/#%E7%9B%B4%E6%8E%A5%E6%A1%A5%E6%8E%A5">SLAAC 环境下的 IPv6 桥接与中继-Menci’s Blog</a><h3 id="基于桥接的中继（Iptables为例）"><a href="#基于桥接的中继（Iptables为例）" class="headerlink" title="基于桥接的中继（Iptables为例）"></a>基于桥接的中继（Iptables为例）</h3>考虑到桥接的实现方式，内核会在 MAC 表中记录每个 MAC 地址所在的接口，在需要时进行泛洪，所以能够天然地正确转发 NDP 的 NS 与 NA 包。不考虑对数据流量的转发，桥接的机制相当于为我们实现了 NDP 中继。与手动实现中继有一点不同，桥接会直接双向转发 SLAAC 与 NDP 包，不改变包的 MAC 地址。在 WAN 和 LAN 中的设备看来，他们互相可以直接在同一二层中收到对方的 ICMPv6 消息，但实际上这些数据包由我们的路由器进行转发。WAN 和 LAN 上的交换机会分别记录对方网络中设备的 MAC 地址的所属方为我们的路由器，所以，双方会认为它们在同一个网络中，而双方之间的流量则自然而然地到达了我们的路由器。而我们希望不对数据流量进行二层交换，而是在利用桥接带来的连通性的同时，让数据流量经过三层进行路由。配置方法请见： <a href="https://blog.men.ci/ipv6-slaac-relay-and-bridge/#%E5%9F%BA%E4%BA%8E%E6%A1%A5%E6%8E%A5%E7%9A%84%E4%B8%AD%E7%BB%A7">SLAAC 环境下的 IPv6 桥接与中继-Menci’s Blog</a><h3 id="端口桥接-ACL方式（Cisco交换机为例）"><a href="#端口桥接-ACL方式（Cisco交换机为例）" class="headerlink" title="端口桥接+ACL方式（Cisco交换机为例）"></a>端口桥接+ACL方式（Cisco交换机为例）</h3>该方法是笔者着重介绍的方法。如果你没有Openwrt或者其他能DIY Iptables的软路由设备，但拥有一台支持ACL的网管交换机，则可采取以下方案。（以下配置命令均以Cisco IOS为例）笔者实验室网络拓扑可看作有1台交换机、1台路由器。交换机只有一个默认Vlan，接入校园网网线，充当普通交换机用来扩展网口。只需要简单地将交换机出来的两根线，分别连接到路由器WAN口和LAN口。但稍微懂一点网络知识就会发现，只这样操作肯定是不行的，甚至可能把校园网同一个广播域的设备搞断网。例如你交换机G0/0/1插了路由器WAN口，G0/0/19插了路由器LAN口，那么我们需要添加两条ACL。<h4 id="L2-ACL：允许核心设备ICMPv6报文通过"><a href="#L2-ACL：允许核心设备ICMPv6报文通过" class="headerlink" title="L2 ACL：允许核心设备ICMPv6报文通过"></a>L2 ACL：允许核心设备ICMPv6报文通过</h4>首先通过Wireshark抓包拿到校园网核心设备的MAC地址，即发布路由通告的地址。 随后，登录交换机，添加一条MAC ACL。<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 5 </pre></td><td class="code"><pre>enable config t mac access-list extended allow_compus_icmpv6 permit host 80e4.557a.0002 any permit any host 80e4.557a.0002 </pre></td></tr></table></figure><h4 id="L3-ACL：屏蔽所有IPv4报文"><a href="#L3-ACL：屏蔽所有IPv4报文" class="headerlink" title="L3 ACL：屏蔽所有IPv4报文"></a>L3 ACL：屏蔽所有IPv4报文</h4>添加一条标准ACL即可。<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 </pre></td><td class="code"><pre>enable config t access list 10 deny any </pre></td></tr></table></figure><h4 id="应用到端口"><a href="#应用到端口" class="headerlink" title="应用到端口"></a>应用到端口</h4>应用到插路由器LAN口的G0/19。<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 </pre></td><td class="code"><pre>en config t interface GigabitEthernet0/29 description to_router_ipv6 switchport access vlan 2 switchport mode access ip access-group 10 in mac access-group allow_compus_icmpv6 in </pre></td></tr></table></figure>查看一下，发现ACL添加成功。<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 </pre></td><td class="code"><pre>Cisco106#show access-lists Standard IP access list 10 10 deny any Extended MAC access list allow_compus_icmpv6 permit host 80e4.557a.0002 any permit any host 80e4.557a.0002 Cisco106# </pre></td></tr></table></figure>完整配置如下：<figure class="highlight plaintext"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 </pre></td><td class="code"><pre>en config t mac access-list extended allow_compus_icmpv6 permit host 80e4.557a.0002 any permit any host 80e4.557a.0002 exit access list 10 deny any int g0/29 desc to_router_ipv6 switchp access vlan 2 switchp mode access ip access-group 10 in mac access-group allow_compus_icmpv6 in </pre></td></tr></table></figure>即可实现局域网内终端拿到v6地址，同时内外网不会混杂。 </article> <article> <h1>Wireguard 解决 DDNS 环境下 Peer 域名动态变化问题</h1> 2023-10-06T16:00:01.000Z 在使用Wireguard组网时，如果Peer填写的是域名，并且使用了动态域名解析（DDNS），那么我们的Wireguard并不会主动连接到新的IP，除非我们重启隧道。针对这个问题，可以有以下方案：<ul><li>定时检测域名解析是否有变化，有则重启隧道。</li><li>探测各个Peer联通性，若有连接不上的Peer则重建连接，类似负载均衡。</li></ul>这里我使用第一种方法，写了一个土制脚本来实现。 已在Openwrt系统上测试OK，其他发行版类似。<figure class="highlight bash"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 </pre></td><td class="code"><pre>#! /bin/ash echo "Checking WireGuard home server endpoint..."; origin=$(cat current_wg_home_ip.txt); echo "Original IP: $origin"; nslookup [你的Peer域名] 223.5.5.5 | tail -n 6 | grep -m 1 Address > current_wg_home_ip.txt; new=$(nslookup [你的Peer域名] 223.5.5.5 | tail -n 6 | grep -m 1 Address); valid=$(echo $new | grep "\..*\..*\..*"); if [[ "$result" != "" ]];then echo "New IP Invalid!"; return -1; fi echo "New IP: $new"; if [ "$origin" = "$new" ];then echo "Not changed."; else echo "IP changed!"; echo "Restarting the interface..."; ifdown wg; sleep 600s; ifup wg; echo "Reconnect successfully!"; fi </pre></td></tr></table></figure>使用时只需在相同路径建立一个current_wg_home_ip.txt的空白文件，将脚本命名为check_wg.sh，并添加一条cron任务即可。 例如我每30分钟检查一次：<code>*/30 * * * * sh check_wg.sh</code> </article> <article> <h1>记一次Python线程安全问题的排查</h1> 2023-06-01T16:00:01.000Z <h3 id="应用场景"><a href="#应用场景" class="headerlink" title="应用场景"></a>应用场景</h3>在某ERP的自动化流程对接业务中，多线程是通过Python Celery框架实现的。Celery框架是分布式任务队列，内置MQ和生产者消费者操作，可实现异步功能，也可实现定时任务，非常便捷。 Celery底层采用Redis记录MQ，基于此原因，可以很方便地实现多机的分布式队列。架构如下图所示（出处：腾讯云）。本业务在两台服务器上，开启了30余worker。 <h3 id="问题出现"><a href="#问题出现" class="headerlink" title="问题出现"></a>问题出现</h3>然而，某次客户发现订单ID有标注错乱的情况。定位到订单结果ret的获取位置如下（左边是修改之前，又边是修改之后）。 <h3 id="问题排查"><a href="#问题排查" class="headerlink" title="问题排查"></a>问题排查</h3>经过搜索，发现原来Python中多个线程之间是共享全局变量的。 全局变量在Python中存储在特殊的命名空间中，称为全局命名空间或全局作用域。每个模块都有自己的全局命名空间，可以在整个模块中访问和使用全局变量。<h3 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h3>总结一下多线程共享/不共享全局变量的语言。<h4 id="多线程共享全局变量"><a href="#多线程共享全局变量" class="headerlink" title="多线程共享全局变量"></a>多线程共享全局变量</h4><ol><li>C/C++：在C/C++中，多个线程可以访问和修改全局变量。但是，需要特别注意并发访问全局变量可能导致数据竞争和不确定的行为，因此在多线程编程中必须使用同步机制，如互斥锁（mutex）或原子操作（atomic operations）来确保线程之间的正确同步。</li><li>Java：Java中的多线程可以访问和修改共享的全局变量。然而，与C/C++不同，Java提供了内置的线程同步机制，如synchronized关键字和Lock对象，以确保线程安全性和正确的同步。</li><li>Python：Python的全局变量是默认共享的，多个线程可以访问和修改它们。然而，由于全局解释器锁（Global Interpreter Lock，GIL）的存在，Python的多线程并不能实现真正的并行执行，而是通过在解释器级别进行线程切换来模拟并发。这导致在Python中，多线程并不能充分利用多核处理器的优势。如果涉及到需要真正并行执行的任务，可以考虑使用多进程或其他并发编程库。</li></ol><h4 id="多线程不共享全局变量"><a href="#多线程不共享全局变量" class="headerlink" title="多线程不共享全局变量"></a>多线程不共享全局变量</h4><ol><li>Go：Go语言中，每个goroutine（类似于线程）都有自己的栈空间，但它们共享相同的堆空间。在Go中，多个goroutine之间默认不共享全局变量，每个goroutine都有自己的局部变量副本。如果需要在线程之间共享数据，需要使用通信机制，如通道（Channel）。</li><li>Rust：Rust语言通过所有权（ownership）和借用（borrowing）的概念来保证内存安全和线程安全。Rust默认情况下不允许多个线程直接共享全局变量，而是通过所有权和借用规则来确保线程安全。如果需要在线程之间共享数据，可以使用线程安全的数据结构和同步原语。</li></ol> </article> <article> <h1>Web 安全开发及架构设计</h1> 2023-05-08T16:00:01.000Z <h1 id="Web安全开发及架构设计：SpringSecurity"><a href="#Web安全开发及架构设计：SpringSecurity" class="headerlink" title="Web安全开发及架构设计：SpringSecurity"></a>Web安全开发及架构设计：SpringSecurity</h1>本文为我的《软件安全》课程课上分享内容。<hr><h2 id="需求背景"><a href="#需求背景" class="headerlink" title="需求背景"></a>需求背景</h2><h3 id="应用场景"><a href="#应用场景" class="headerlink" title="应用场景"></a>应用场景</h3><ul><li>企业工厂设备管理</li><li>固定资产管理</li></ul><h3 id="主要功能"><a href="#主要功能" class="headerlink" title="主要功能"></a>主要功能</h3><ul><li>设备管理：添加、修改、删除设备。</li><li>维修管理：提交维修、完成指定设备的维修。</li><li>保养管理：添加指定设备的日常保养记录。</li><li>文档管理：添加、修改、删除、下载指定设备的文档。</li><li>用户管理：添加、修改、删除；强制退出、修改权限。</li></ul><h3 id="角色划分"><a href="#角色划分" class="headerlink" title="角色划分"></a>角色划分</h3>管理员、技术员、工人<h2 id="项目架构"><a href="#项目架构" class="headerlink" title="项目架构"></a>项目架构</h2><h1 id="安全设计"><a href="#安全设计" class="headerlink" title="安全设计"></a>安全设计</h1><h2 id="应用安全"><a href="#应用安全" class="headerlink" title="应用安全"></a>应用安全</h2><h3 id="安全设计架构图"><a href="#安全设计架构图" class="headerlink" title="安全设计架构图"></a>安全设计架构图</h3><h3 id="身份鉴别和访问控制"><a href="#身份鉴别和访问控制" class="headerlink" title="身份鉴别和访问控制"></a>身份鉴别和访问控制</h3>基于Spring Security实现，有关Security框架本身的内已介绍过，下面介绍我们的使用。流程图实现方式演示<ul><li>登录流程</li><li>身份失效（30分钟无操作或被管理员踢下线）</li><li>关闭窗口登陆失效（session storage） </li></ul>优势<ul><li>综合了Session的统一管理性、和JWT Token的分布式优势。既实现了会话的可控管理，又便于在多台业务服务器上实现会话漫游。</li><li>改进JWT Token的用法，使用主流的“小效期+大效期“的方案，实现30分钟无操作自动失效。</li><li>同时记录当前用户的Token和IP，防止他人盗取Token使用。</li></ul><h3 id="日志记录"><a href="#日志记录" class="headerlink" title="日志记录"></a>日志记录</h3>记录效果记录请求的时间、IP、方法、操作、参数、用户。切面、自定义注解使用起来非常方便！针对经过反向代理后可能无法获取到真实IP的情况，我们考虑了多种获取IP的方式。包括<code>x-forwarded-for</code>、<code>Proxy-Client-IP</code>、<code>WL-Proxy-Client-IP</code>目前可有效记录经过多级Nginx反代情况下获取客户IP。<h3 id="业务服务器与文件服务器分离"><a href="#业务服务器与文件服务器分离" class="headerlink" title="业务服务器与文件服务器分离"></a>业务服务器与文件服务器分离</h3><h3 id="登陆验证码"><a href="#登陆验证码" class="headerlink" title="登陆验证码"></a>登陆验证码</h3>调用方法<ol><li>调用getCaptchaImage获取验证码图片（base64）和uuid</li><li>带验证码、uuid请求登陆接口</li></ol>实现原理<ul><li>5分钟内有效：redis记录uuid和对应的验证码，并且设置TTL为300秒。</li></ul><ul><li>验证码使用一次后过期：调用login接口时，查询redis中的记录。无论正确与否，只要查询过uuid对应的key，就将该key删除。</li></ul><h2 id="数据安全"><a href="#数据安全" class="headerlink" title="数据安全"></a>数据安全</h2><h3 id="MySQL权限控制"><a href="#MySQL权限控制" class="headerlink" title="MySQL权限控制"></a>MySQL权限控制</h3><ul><li>关闭所有表DROP权限</li><li>日志表禁止DELET</li></ul><h3 id="防止SQL注入"><a href="#防止SQL注入" class="headerlink" title="防止SQL注入"></a>防止SQL注入</h3>使用Hibernate（一款ORM框架）来实现DAO层，其可将model对象映射为数据库记录，提供增改删查的常见方法，且默认使用参数预编译，可有效防止SQL注入。<h2 id="部署-配置安全"><a href="#部署-配置安全" class="headerlink" title="部署/配置安全"></a>部署/配置安全</h2><aside>💡 一些待实现、需要优化的地方</aside><ul><li><input disabled="" type="checkbox"> 文件防刷</li><li><input disabled="" type="checkbox"> 前端完善</li><li><input disabled="" type="checkbox"> 当前在线用户功能</li></ul> </article> <article> <h1>Spring Security 简介、原理及使用</h1> 2023-05-05T16:00:01.000Z <blockquote>本文为《软件安全》课程上课分享内容，主要介绍Security框架的基本概念、结合代码分析原理、以及常见的使用场景。</blockquote><h1 id="Spring-Security"><a href="#Spring-Security" class="headerlink" title="Spring Security"></a>Spring Security</h1><h1 id="权限控制概念介绍"><a href="#权限控制概念介绍" class="headerlink" title="权限控制概念介绍"></a>权限控制概念介绍</h1>Spring Security 是一个基于 Spring 框架的<code>安全认证</code>和<code>访问控制</code>框架，它为应用程序提供了安全保护。它使用一系列过滤器和拦截器来拦截请求并执行身份验证和授权操作。<aside>💡 这句话包括两个关键词：Authentication（认证）和 Authorization（授权，也叫访问控制）</aside><h1 id="常见的权限控制方法"><a href="#常见的权限控制方法" class="headerlink" title="常见的权限控制方法"></a>常见的权限控制方法</h1><aside>💡 体现在这一小节中，为大家介绍安全功能的基本概念，以及在日常上网中的体现。</aside><h2 id="认证（Authentication）"><a href="#认证（Authentication）" class="headerlink" title="认证（Authentication）"></a>认证（Authentication）</h2>验证用户的身份，确保他们是合法用户。<code>Session</code>和<code>Bearer Token</code>是Web中常见的身份认证机制。<h3 id="Session方法"><a href="#Session方法" class="headerlink" title="Session方法"></a>Session方法</h3>Session是一种服务器端的认证机制，它通过在服务器端保存用户的登录状态来进行身份认证。在用户登录后，服务器会为该用户创建一个会话（Session），并将会话ID存储在Cookie或URL中发送给客户端。客户端在后续的请求中，将会话ID发送给服务器，服务器使用该ID来识别当前请求是由哪个用户发送的。<aside>💡 务必要设置HTTPOnly属性，这样JS将无法读取到cookie信息，防止XSS攻击。</aside>Session适用于需要在服务器端保存用户状态信息的场景，例如需要进行会话管理、限制同一用户在多个地方同时登录等场景。<code>session.setAttribute("key", "new value");</code><h3 id="Bearer-Token方法"><a href="#Bearer-Token方法" class="headerlink" title="Bearer Token方法"></a>Bearer Token方法</h3>Bearer Token是一种基于<code>Token</code>的身份认证机制，在客户端保存用户的登录状态它将用户的身份信息和授权信息封装在一个Token中，并将Token作为<code>Authorization请求头</code>的Bearer字段发送给服务器，服务器使用Token中的信息进行身份认证和授权。Bearer Token通常使用JWT（JSON Web Token）或OAuth 2.0等技术实现。JWT是一种开放标准，可以将用户的身份信息和其他相关信息封装在一个JSON格式的Token中。JWT结构：<code>header.payload.signature</code><ul><li>header：存放加密方式、token类型。</li><li>payload：存放你需要存储的内容。</li><li>signature：是JWT安全性的唯一保障，后端签发JWT时使用提前设置好的密钥，对payload进行一次<code>HMAC</code>运算。当用户传入JWT Token时，服务端先验证签名是否正确。这样，防止了用户对payload的篡改。</li></ul><h3 id="两种方法比较"><a href="#两种方法比较" class="headerlink" title="两种方法比较"></a>两种方法比较</h3><table><thead><tr><th></th><th>Session</th><th>Token</th></tr></thead><tbody><tr><td>数据存储位置</td><td>服务端</td><td>客户端</td></tr><tr><td>会话修改</td><td>✅可原生实现</td><td>❌需自行处理，因为Token签发后不可变</td></tr><tr><td>限制同一用户异地同时登陆</td><td>✅可原生实现</td><td>❌需自行处理，例如使用Redis缓存已签发的Token</td></tr><tr><td>分布式、微服务</td><td>❌需自行实现共享，例如使用Redis缓存SessionID和Session内容</td><td>✅可原生实现</td></tr><tr><td>防CSRF</td><td>❌因为SessionID存放在Cookie中，Cookie具有同源性，对同一个站点的请求会自动加上Cookie</td><td>✅因为Token需要显式加入请求头中</td></tr><tr><td>安全性</td><td>较高，不用担心会话遭用户篡改</td><td>非常依赖于JWT密钥的长度，若长度较短，容易被离线暴力穷举。此外JWT Body部分为明文base64，不适合存保密信息。</td></tr></tbody></table><h2 id="授权（Authorization）"><a href="#授权（Authorization）" class="headerlink" title="授权（Authorization）"></a>授权（Authorization）</h2>授权用户访问特定的资源或操作。<h2 id="加密（Encrypt）"><a href="#加密（Encrypt）" class="headerlink" title="加密（Encrypt）"></a>加密（Encrypt）</h2>Spring Security提供了多种密码加密算法，常用的有BCrypt、SCrypt、PBKDF2、SHA-256等。密码加密例子：<h2 id="防止-CSRF-攻击（X-CSRF）"><a href="#防止-CSRF-攻击（X-CSRF）" class="headerlink" title="防止 CSRF 攻击（X-CSRF）"></a>防止 CSRF 攻击（X-CSRF）</h2>在表单提交时，验证表单是否来自合法来源。<ul><li>Synchronizer Token Pattern（同步令牌模式）：在这种模式下，服务器会为每个用户会话生成一个令牌，并将令牌添加到每个表单中（CSRF Token)。在表单提交时，令牌将被一起提交。</li></ul>以山东科技大学智慧校园为例：<code>X-XSRF-TOKEN</code>：这个Token显然不是用来鉴权，而是可以防止CSRF。但是，发现后端似乎没有对该CSRF Token做验证，没有这个字段依然可以正常请求。构造一个无害的CSRF利用页面，js跳转到获取个人会议列表的页面。<figure class="highlight html"><table><tr><td class="gutter"><pre>1 2 3 </pre></td><td class="code"><pre><script> window.location.href="https://zhfw.sdust.edu.cn/api/meeting/getMeetingList?_=1680568025762&startdate=2023-02-20&enddate=2023-07-16" </script> </pre></td></tr></table></figure><h2 id="记住我（Remember-Me）"><a href="#记住我（Remember-Me）" class="headerlink" title="记住我（Remember Me）"></a>记住我（Remember Me）</h2>在用户关闭浏览器后仍然保持登录状态。以山东科技大学CAS为例，勾选记住我后，密码以RSA加密存储在本机Cookies中。公钥从服务器获取：观察Spring Security中记住我的实现，发现也是加密存储的。存储在Cookie中。<code>TokenBasedRememberMeServices.class</code><figure class="highlight java"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 </pre></td><td class="code"><pre>int tokenLifetime = this.calculateLoginLifetime(request, successfulAuthentication); long expiryTime = System.currentTimeMillis(); expiryTime += 1000L * (long)(tokenLifetime < 0 ? 1209600 : tokenLifetime); String signatureValue = this.makeTokenSignature(expiryTime, username, password); this.setCookie(new String[]{username, Long.toString(expiryTime), signatureValue}, tokenLifetime, request, response); if (this.logger.isDebugEnabled()) { this.logger.debug("Added remember-me cookie for user '" + username + "', expiry: '" + new Date(expiryTime) + "'"); } </pre></td></tr></table></figure><h2 id="多种身份验证方式"><a href="#多种身份验证方式" class="headerlink" title="多种身份验证方式"></a>多种身份验证方式</h2>支持基于表单、HTTP 基本认证、OAuth2、OpenID 等多种认证方式。Spring Security 是一个高度可定制的框架，可以根据应用程序的需求进行配置和扩展。它还提供了许多与其他 Spring 框架和第三方库的集成，例如 Spring Boot、Spring Data、OAuth2 和 LDAP 等。<h1 id="Spring-Security-的核心概念及其实现"><a href="#Spring-Security-的核心概念及其实现" class="headerlink" title="Spring Security 的核心概念及其实现"></a>Spring Security 的核心概念及其实现</h1><h3 id="身份验证（Authentication）"><a href="#身份验证（Authentication）" class="headerlink" title="身份验证（Authentication）"></a>身份验证（Authentication）</h3>核心是<code>AuthenticationManager</code>和<code>AuthenticationProvider</code>。AuthenticationProvider接口：是身份认证的具体实现，可以通过实现这个接口来定制我们自己的认证逻辑，它的实现类有很多，默认的是<code>JaasAuthenticationProvider</code>, <code>DaoAuthenticationProvider</code>也比较常用。AuthenticationManager接口：**负责调用一个或多个<code>AuthenticationProvider</code>进行身份认证，并返回一个<code>Authentication</code>**对象表示认证结果。<h3 id="访问控制（Authorization）"><a href="#访问控制（Authorization）" class="headerlink" title="访问控制（Authorization）"></a>访问控制（Authorization）</h3><ul><li>投票器：AccessDecisionVoter</li><li>决断者：AccessDecisionManager</li></ul>AccessDecisionVoter接口：投票器，在授权的时通过投票的方式来决定用户是否可以访问，这里涉及到投票规则。AccessDecisionManager接口：决断者，决定用户是否可以访问某个资源，实现这个接口可以定制我们自己的授权逻辑。<code>decide()</code>方法是决断逻辑。security自带的决断方式有三种：<ul><li><code>AffirmativeBased</code>：只要有一个投票器投票通过，就允许用户访问</li><li><code>ConsensusBased</code>：必须有一定比例的投票器投票通过才能允许用户访问资源</li><li><code>UnanimousBased</code>：表示必须所有的投票器都投票通过才能允许用户访问资源。</li></ul><h3 id="过滤器链（Filter-Chain）"><a href="#过滤器链（Filter-Chain）" class="headerlink" title="过滤器链（Filter Chain）"></a>过滤器链（Filter Chain）</h3>每个过滤器都负责执行不同的任务，如认证、授权、防止攻击等。这些过滤器可以被组合成一个过滤器链，以确保每个请求都按顺序通过所有的过滤器。例如我这里，过滤器链中只有jwtTokenFilter，负责身份认证。<h3 id="密码加密（PasswordEncoder）"><a href="#密码加密（PasswordEncoder）" class="headerlink" title="密码加密（PasswordEncoder）"></a>密码加密（PasswordEncoder）</h3>摘要加盐是指在对数据进行摘要（哈希）计算时，首先将一个随机的、长度适当的字符串（盐）与数据进行拼接，然后再对拼接后的结果进行哈希计算。最终的哈希值是盐和数据的哈希值的组合。<a href="https://www.cmd5.com/">https://www.cmd5.com/</a>不加密的危害：<ul><li>c8f6010ec743729cd5f8823b2265364f </li><li>f6d46c136cf9316c04b25c0536f6ad50（8位大小写、字母、数字、符号） </li></ul>从Spring Security 5.0版本开始，<code>PasswordEncoder</code>默认使用<code>BCryptPasswordEncoder</code>进行密码加密。他的实现类代码如下：（采用安全随机数生成盐值）在数据库中存储情况：<h3 id="用户详情服务（UserDetailsService）"><a href="#用户详情服务（UserDetailsService）" class="headerlink" title="用户详情服务（UserDetailsService）"></a>用户详情服务（UserDetailsService）</h3>用于加载用户的详细信息，例如用户名、密码和角色等。<figure class="highlight java"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 </pre></td><td class="code"><pre>// 处理用户过期 // SecurityConfigureation @Bean public DaoAuthenticationProvider authenticationProvider() { DaoAuthenticationProvider authenticationProvider = new DaoAuthenticationProvider(); authenticationProvider.setUserDetailsService(userDetailsService); authenticationProvider.setPasswordEncoder(passwordEncoder); authenticationProvider.setPreAuthenticationChecks(new AccountExpiredChecker()); return authenticationProvider; } private class AccountExpiredChecker implements UserDetailsChecker { @Override public void check(UserDetails user) { if (user.isAccountNonExpired()) { throw new AccountExpiredException("Your account has expired."); } } } </pre></td></tr></table></figure><h1 id="应用示例"><a href="#应用示例" class="headerlink" title="应用示例"></a>应用示例</h1><h3 id="Security实现身份鉴别"><a href="#Security实现身份鉴别" class="headerlink" title="Security实现身份鉴别"></a>Security实现身份鉴别</h3><ol><li>用户提交登录表单</li><li>表单中的用户名和密码被提交给Controller：<ul><li>创建<code>UsernamePasswordAuthenticationToken</code>对象，封装用户名和密码</li><li>创建一个<code>Authentication</code>对象，并使用<code>AuthenticationManager</code>进行认证</li></ul> <figure class="highlight java"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 </pre></td><td class="code"><pre>@Controller public class UserController { @Autowired private AuthenticationManager authenticationManager; @Autowired private HttpSession httpSession; @PostMapping("/login") public String login(@RequestParam String username, @RequestParam String password) { **UsernamePasswordAuthenticationToken authReq = new UsernamePasswordAuthenticationToken(username, password);** **Authentication auth = authenticationManager.authenticate(authReq);** SecurityContextHolder.getContext().setAuthentication(auth); httpSession.setAttribute("user", auth.getPrincipal()); return "redirect:/home"; } @GetMapping("/home") public String home(Model model, Authentication authentication) { UserDetails userDetails = (UserDetails) authentication.getPrincipal(); model.addAttribute("username", userDetails.getUsername()); return "home"; } } </pre></td></tr></table></figure></li><li><code>AuthenticationManager</code>使用<code>DaoAuthenticationProvider</code>进行认证，比较用户输入的密码和从数据库中获取的密码<ul><li><code>DaoAuthenticationProvider</code>用于从数据库中验证用户的用户名和密码，实现基于数据库的身份认证。</li><li>如果密码匹配，则返回一个认证通过的Authentication对象，否则返回一个认证失败的Authentication对象</li></ul></li><li>如果认证通过，用户信息存储在SecurityContextHolder中，并存入httpSession。<ul><li>创建一个名为<code>HeaderHttpSessionStrategy</code>的类，该类实现了<code>HttpSessionStrategy</code>接口，用于将session存储到请求头中： <figure class="highlight java"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 </pre></td><td class="code"><pre>public class HeaderHttpSessionStrategy implements HttpSessionStrategy { @Override public String getRequestedSessionId(HttpServletRequest request) { return request.getHeader("SESSION_ID"); } @Override public void onNewSession(HttpSession session, HttpServletRequest request, HttpServletResponse response) { r**esponse.setHeader("SESSION_ID", session.getId());** } @Override public void onInvalidateSession(HttpServletRequest request, HttpServletResponse response) { response.setHeader("SESSION_ID", ""); } } </pre></td></tr></table></figure></li></ul></li><li>将用户重定向到指定的页面，完成登录过程</li></ol>注：Security配置如下<figure class="highlight java"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 </pre></td><td class="code"><pre>@Configuration @EnableWebSecurity public class SecurityConfig extends WebSecurityConfigurerAdapter { @Autowired private UserDetailsService userDetailsService; @Override protected void configure(HttpSecurity http) throws Exception { http.authorizeRequests() .antMatchers("/login").permitAll() .anyRequest().authenticated() .and() .formLogin() .loginPage("/login") .defaultSuccessUrl("/home") .permitAll() .and() .logout() .logoutUrl("/logout") .logoutSuccessUrl("/login") .permitAll(); } @Override protected void configure(AuthenticationManagerBuilder auth) throws Exception { auth.userDetailsService(userDetailsService).passwordEncoder(passwordEncoder()); } @Bean public PasswordEncoder passwordEncoder() { return new BCryptPasswordEncoder(); } @Bean public HttpSessionEventPublisher httpSessionEventPublisher() { return new HttpSessionEventPublisher(); } @Bean public HttpSessionStrategy httpSessionStrategy() { return new HeaderHttpSessionStrategy(); } } </pre></td></tr></table></figure><h3 id="手工方式实现身份鉴别"><a href="#手工方式实现身份鉴别" class="headerlink" title="手工方式实现身份鉴别"></a>手工方式实现身份鉴别</h3>使用Java Servlet和JDBC来手动实现身份验证过程的例子：<blockquote><code>Filter</code>是Servlet用于拦截请求和响应的机制，可以在请求到达Servlet之前或响应返回客户端之前对其进行预处理或后处理。</blockquote><figure class="highlight java"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 </pre></td><td class="code"><pre>public class AuthenticationFilter implements Filter { // 配置允许放行的登陆界面 private final String LOGIN_URI = "/login"; @Override public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException { HttpServletRequest req = (HttpServletRequest) request; HttpServletResponse res = (HttpServletResponse) response; String uri = req.getRequestURI(); // 如果当前请求是登录页面，则直接放行 if (uri.endsWith(LOGIN_URI)) { chain.doFilter(request, response); return; } // 获取用户名和密码 String username = req.getParameter("username"); String password = req.getParameter("password"); // 如果用户名和密码为空，则重定向到登录页面 if (username == null || password == null) { res.sendRedirect(LOGIN_URI); return; } // 从数据库中查询用户信息 String dbUrl = "jdbc:mysql://localhost:3306/mydatabase"; String dbUser = "myuser"; String dbPassword = "mypassword"; try (Connection conn = DriverManager.getConnection(dbUrl, dbUser, dbPassword)) { String query = "SE\LECT * F\ROM users WHERE username = ? AND password = ?"; **PreparedStatement stmt = conn.prepareStatement(query); // SQL预编译，防止SQL注入** stmt.setString(1, username); stmt.setString(2, password); ResultSet rs = stmt.executeQuery(); if (rs.next()) { // 如果用户名和密码匹配，则验证通过，继续处理请求 chain.doFilter(request, response); } else { // 如果用户名和密码不匹配，则重定向到登录页面 res.sendRedirect(LOGIN_URI); } } catch (SQLException e) { e.printStackTrace(); throw new ServletException("Database error: " + e.getMessage()); } } } </pre></td></tr></table></figure><aside>💡 相比于手工实现的用户身份鉴别，基于Spring Security框架的身份鉴别具有以下优势：<ol><li>更加安全：Spring Security框架提供了一系列封装好的安全性措施，包括密码加密、防止CSRF攻击、防止XSS攻击等等，比我们手工编写的要完善很多。</li><li>更加灵活：Spring Security框架允许开发者通过配置文件或编程方式来定义安全策略，以适应不同的应用程序需求。</li><li>更加易于维护：身份认证、授权、访问控制等功能实现了组件化、抽象化。</li><li>更加方便。</aside></li></ol><h3 id="Security实现访问控制"><a href="#Security实现访问控制" class="headerlink" title="Security实现访问控制"></a>Security实现访问控制</h3><ul><li>Controller Mapping访问配置</li></ul><figure class="highlight java"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 </pre></td><td class="code"><pre>// DeviceController.java @RestController @RequestMapping("/api/device") public class DeviceController { @Autowired private DeviceService deviceService; private ModelMapper modelMapper = new ModelMapper(); // ... @GetMapping("/{device}") @PreAuthorize("isAuthenticated()") public Device getDevice(@PathVariable Integer device) { return deviceService.getDevice(device); } @PostMapping("/device") @PreAuthorize("hasRole('ROLE_ADMIN')") public Device modifyDevide(@RequestBody Device device) { return modelMapper.map(deviceService.modifyDevice(device), Device.class); } @PostMapping("/{device}/repair") @PreAuthorize("hasAnyRole('ROLE_ADMIN', 'ROLE_WORKER')") public Repair addRepair(@PathVariable Integer device, @RequestBody RepairDTO repair) { return deviceService.addRepair(device, repair); // ... </pre></td></tr></table></figure><ul><li>全局配置</li></ul><figure class="highlight java"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 </pre></td><td class="code"><pre>// SecurityConfiguration.java protected void configure(HttpSecurity http) throws Exception { //... http.authorizeRequests().antMatchers("/api/user/login", "/api/user/signup", "/swagger-ui.html/**","/webjars/springfox-swagger-ui/**","/swagger-resources/**","/swagger-ui/**", "/v2/api-docs/**").permitAll() .anyRequest().authenticated(); // ... } </pre></td></tr></table></figure><blockquote>关于<code>antMatchers</code>：使用Ant样式的URL模式进行匹配，用于配置URL请求路径匹配规则。Ant样式的URL匹配规则支持的通配符有两种，分别是**<code>*</code>和<code>**</code>**，它们的作用如下：<ul><li><code>*</code>通配符：用于匹配单个路径段中的任意字符。例如，**<code>/user/*/info</code>可以匹配<code>/user/123/info</code>、<code>/user/abc/info</code>**等URL路径。</li><li>**<code>**</code>通配符：用于匹配多个路径段中的任意字符，包括子路径。例如，<code>/user/**</code>可以匹配<code>/user/info</code>、<code>/user/123/info</code>、<code>/user/abc/info</code>**等URL路径。</li></ul></blockquote><h3 id="手工实现访问控制"><a href="#手工实现访问控制" class="headerlink" title="手工实现访问控制"></a>手工实现访问控制</h3>亦通过Servlet的<code>Filter</code>实现。这里只实现了根据用户名的用户级权限控制，如果要实现角色级权限控制，还需自己建立角色Map。<figure class="highlight java"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 </pre></td><td class="code"><pre>public class AccessControlFilter implements Filter { @Override public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException { HttpServletRequest req = (HttpServletRequest) request; HttpServletResponse res = (HttpServletResponse) response; // 获取当前用户的身份信息 String username = req.getSession().getAttribute("username"); if (username == null) { // 如果用户未登录，则重定向到登录页面 res.sendRedirect(req.getContextPath() + "/login.jsp"); return; } // 判断用户是否具有访问权限 String path = req.getServletPath(); if (path.equals("/admin")) { // 如果用户不具有ADMIN权限，则拒绝访问 if (!username.equals("admin")) { res.sendError(HttpServletResponse.SC_FORBIDDEN); return; } } // 执行业务代码 chain.doFilter(request, response); } } </pre></td></tr></table></figure><h3 id="Session管理"><a href="#Session管理" class="headerlink" title="Session管理"></a>Session管理</h3><figure class="highlight java"><table><tr><td class="gutter"><pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 </pre></td><td class="code"><pre>// SecurityConfiguration.java protected void configure(HttpSecurity http) throws Exception { http.authorizeRequests() // ... // ... .sessionManagement() .invalidSessionUrl("/login?error=session") .maximumSessions(1) .expiredUrl("/login?error=session") .sessionRegistry(sessionRegistry()) .and() .sessionCreationPolicy(SessionCreationPolicy.ALWAYS); } </pre></td></tr></table></figure><ul><li>**<code>invalidSessionUrl("/login?error=session")</code>表示当Session失效时，重定向到<code>/login?error=session</code>**页面</li><li>**<code>maximumSessions(1)</code>**表示同一用户只能存在一个Session</li><li>**<code>expiredUrl("/login?error=session")</code>表示当Session超时时，重定向到<code>/login?error=session</code>**页面</li><li>**<code>sessionRegistry(sessionRegistry())</code>**表示使用SessionRegistryImpl进行Session管理</li><li>**<code>sessionCreationPolicy(SessionCreationPolicy.ALWAYS)</code>**表示始终创建Session</li></ul> </article> <article> <h1>[EN]Grid-based clustering method - Wave cluster wavelet clustering</h1> 2022-12-30T16:00:01.000Z <blockquote>✨The easy-to-run <code>.ipynb</code> note book is now available on Github: <a href="https://github.com/BaiHLiu/WaveCluster">BaiHLiu/WaveCluster</a></blockquote><h2 id="Overview-of-lattice-clustering-methods"><a href="#Overview-of-lattice-clustering-methods" class="headerlink" title="Overview of lattice clustering methods"></a>Overview of lattice clustering methods</h2><h3 id="Introduction"><a href="#Introduction" class="headerlink" title="Introduction"></a>Introduction</h3>A clustering algorithm is an unsupervised classification algorithm. There are many algorithms, including division-based clustering algorithms (e.g., kmeans), hierarchical clustering algorithms (e.g., BIRCH), density-based clustering algorithms (e.g., DBScan), lattice-based clustering algorithms, and so on.Based on the division and hierarchical clustering methods are unable to discover <code>non-convex shape</code> clusters, the real effective algorithm to discover arbitrary shape clusters is density-based algorithms, but the density-based algorithms are generally higher time complexity, between 1996 and 2000, research data mining scholars proposed a large number of lattice-based clustering algorithms, lattice methods can effectively reduce the computational complexity of the algorithm, and the same sensitive to density parameters. So, A one sentence summary of the core idea of several clustering methods:<ul><li>Based on division: points within classes are close enough and points between classes are far enough. We keep replacing the clustering centre until it is stable, which is the final result.</li><li>Based on density: first discover the points with higher density, and then gradually connect the similar high density points together, and then form clusters.</li><li>Grid-based: Divide the data space into a grid, map the data into grid cells (cells) according to certain rules, and then calculate the density of each cell. According to a pre-set threshold to determine whether each grid cell is a high-density cell, by the adjacent high-density cells to form a class.</li></ul><h3 id="Basic-steps"><a href="#Basic-steps" class="headerlink" title="Basic steps"></a>Basic steps</h3>Grid-based clustering methods use a multi-resolution grid data structure that quantifies the object space into a finite number of cells that form a grid structure on which all clustering operations are performed.Before that, let’s go through the concept of <code>Resolution</code>.And the two following figures show how resolution affect. Overall, the different resolutions determine whether to get more generalised or more detailed information.Different algorithms have different methods of grid delineation and handle the grid data structure differently, but the core steps are the same:<ol><li>delimit the grid</li><li>use <code>statistical information</code> about the data within the grid cells to <code>compressively represent</code> the data</li><li>determine high density grid cells based on this information</li><li>identify connected high-density grid cells as clusters</li></ol><h2 id="Some-examples-of-grid-clustering-methods"><a href="#Some-examples-of-grid-clustering-methods" class="headerlink" title="Some examples of grid clustering methods"></a>Some examples of grid clustering methods</h2><h3 id="Statistical-Information-Grid-STING-algorithm"><a href="#Statistical-Information-Grid-STING-algorithm" class="headerlink" title="Statistical Information Grid (STING) algorithm"></a>Statistical Information Grid (STING) algorithm</h3>**Core IdeaFirst we start by dividing some levels, actually each level here corresponds to a resolution of the sample.Each high-level cell is divided into multiple cells in the next level, and each cell calculates its statistical information, which is pre-calculated and stored as <code>statistical parameters</code>.Using such a structure, it is easy to perform a query, starting from the top to the bottom, calculating the confidence interval of the query at each cell based on the cell’s statistical information, finding the largest cell, then going to the next layer, and so on until we get to the bottom layer. The advantage of this is that we don’t have to calculate all the samples, the algorithm discards irrelevant samples at each level, less and less computation is needed, and then the speed will be fast.Commonly used statistics parameters<ul><li><code>count</code> The number of objects in the grid.</li><li><code>mean</code> The mean of all values in the grid.</li><li><code>stdev</code> The standard deviation of the attribute values in the grid.</li><li><code>min</code> Minimum value of the attribute in the grid</li><li><code>max</code> The maximum value of a property in the grid.</li><li><code>distribution</code> The type of distribution that the attribute values in the grid conform to. (eg: normal distribution, uniform distribution)</li></ul>STING algorithm query steps: (already calculated in advance parameters))<ul><li>(1) Start from one level</li><li>(2) For each cell of this level, we calculate the value of the attribute associated with the query.</li><li>(3) From the computed attribute values and with the constraints, we mark each cell as relevant or not wanting to be relevant. (Irrelevant cells are no longer considered and the next lower level of processing checks only the remaining relevant cells)</li><li>(4) If this level is the bottom level, then go to (6), otherwise go to (5)</li><li>(5) we move from the hierarchy to the next level, in accordance with step (2) to proceed</li><li>(6) The query is satisfied, go to step 8, otherwise (7)</li><li>(7) Restore the data to the relevant cell for further processing to get satisfactory results, go to step (8)</li><li>(8) Stop.</li></ul>If the granularity tends to 0 (i.e. towards very bottom data), the clustering result tends to the DBSCAN clustering result.<blockquote>Relation to density-based clustering: if the granularity of the grid tends to 0 (i.e. towards very bottom data, i.e. very high resolution), the clustering result tends to the DBSCAN clustering result.</blockquote>Advantages:<ul><li>Grid-based computations are query-independent, as the statistics stored in each cell provide aggregated information about the data in the cell, independent of the query.</li><li>The grid structure facilitates <code>incremental updating</code> and <code>parallel processing</code>. Incremental updating: the algorithm discards irrelevant samples at each level and does not need to update them all. Parallel processing: each grid has little connection with each other, and the parameters are calculated separately.</li><li>Efficiency: STING scans the database once to compute the statistics of the cells, so the time complexity of generating clusters is O(n), and after the hierarchy is built, the query processing time is )O(g),where g is the number of bottom grid cells, which is usually much less than n.</li></ul>Disadvantages:<ul><li>There is no diagonal dividing line, cluster boundaries are only horizontal and vertical.</li><li>Due to the multi-resolution mechanism, the quality of clustering depends on the granularity of the bottom layer of the grid structure. If the granularity of the lowest level is very fine, the cost of processing increases significantly. However, if the granularity is too coarse, the clustering quality is difficult to be guaranteed.</li></ul><h3 id="CLIQUE-algorithm-subspace-clustering-algorithm"><a href="#CLIQUE-algorithm-subspace-clustering-algorithm" class="headerlink" title="CLIQUE algorithm (subspace clustering algorithm)"></a>CLIQUE algorithm (subspace clustering algorithm)</h3>The CLIQUE algorithm is a lattice-based spatial clustering algorithm, but it also combines very well with density-based clustering algorithms, and thus is capable of discovering arbitrarily shaped clusters, as well as handling larger multidimensional data like the lattice-based algorithms.Core idea: dense grid mergingAll grids are first scanned. When the first dense grid is found, <code>expansion</code> is started with that grid. The principle of expansion is that if a grid is neighbouring a grid in a known dense region and is itself dense, that grid is added to that dense region until no more such grids are found. The scanning of grids is then continued and the process is repeated until all grids have been traversed.Algorithm flow<blockquote>The summary is: first determine if a mesh is a dense mesh, and if it is, then iterate over its neighbouring meshes to see if they are dense. If it is, then iterate over its neighbouring meshes to see if they are dense, and if they are, then they belong to the same cluster.</blockquote>Advantages:<ul><li>Although the number of potential grid cells can be high, only need to create grids for non-empty cells.</li><li>The time complexity of assigning each object to a cell and calculating the density of each cell is O(m) and the whole clustering process is very efficient.</li></ul>Disadvantages:<ul><li>Like most density-based clustering algorithms, lattice-based clustering relies heavily on the choice of the density threshold. (Too high, clusters may be lost. Too low, clusters that should be separated may be merged)</li><li>As the dimensionality increases, the number of grid cells increases rapidly (exponentially). I.e., for higher dimensional data, clustering is less effective.</li></ul><h2 id="Wave-Cluster"><a href="#Wave-Cluster" class="headerlink" title="Wave Cluster"></a>Wave Cluster</h2><blockquote>Wave Cluster, known as wavelet clustering, is a fast grid-based clustering method commonly used for multi-dimensional large-scale data containing a large number of outliers.</blockquote>The principal ideais to treat multidimensional data as a <code>multidimensional signal</code>. It first divides the data space into a grid structure, and then transforms the data space into a <code>frequency domain space</code> by <code>wavelet transform</code>, in which the natural clustering property of the data is revealed by making a convolution with a kernel function. Due to the multi-resolution nature of the wavelet transform, information on details can be obtained at high resolution, and information on contours can be obtained at low resolution.<h3 id="Preliminaries-discrete-wavelet-transform-DWT"><a href="#Preliminaries-discrete-wavelet-transform-DWT" class="headerlink" title="Preliminaries: discrete wavelet transform (DWT)"></a>Preliminaries: discrete wavelet transform (DWT)</h3>The Discrete Wavelet Transform is a discretisation of the scale and translation of the underlying <code>wavelet</code>. In image processing, binary wavelets are often used as the wavelet transform function, i.e., they are divided using integer powers of 2.Wavelet Transform ConceptsLet’s first review the <code>Fourier transform</code>.The Fourier transform is a linear integral transform that is used to transform a function (called a ‘signal’ in applications) between the time and frequency domains. The effect is to decompose a function into a sum of sinusoidal functions with different characteristics.Simply put: all waves can be represented as a superposition of many sinusoids. Example: fitting a square wave. The wavelet transform analyses both time and frequency just like the Fourier transform, but the wavelet transform has better time resolution at high frequencies and better frequency resolution at low frequencies.Input and output are continuous functions called <code>Continuous Wavelet Transform</code>; output and output are discrete values called <code>Discrete Wavelet Transform</code>, discrete wavelet transform is often used in signal coding.Image Compression*For many signals, their low-frequency components are often embedded in the basic characteristics of the signal, while the high-frequency signals only give information about the details of the signal, such as information about the edge contours of an image signal.DWT examplex0,x1,x2,x3=90,70,100,70In order to achieve compression effect, take (x0+x1)/2 (x0-x1)/2 to represent the new x0,x190,70 is represented as 80,10 80 is the average (<code>frequency</code>) and 10 is the number of small fluctuations (<code>amplitude</code>).Similarly 100,70 is represented as 85,1580 and 85 are localised averages, reflecting frequencies, called Low-Pass.10 and 15 are small fluctuations in amplitude, called High Frequency Part (High-Pass)That is, 90,70,100,70 after a wavelet transform, can be expressed as 80,85,10,15, the low-frequency part of the front (L), the high-frequency part of the back (H)Perform three wavelet transforms on the following sequence:<h3 id="Basic-principle"><a href="#Basic-principle" class="headerlink" title="Basic principle"></a>Basic principle</h3>The core idea of the WaveCluster algorithm is that after dividing the data space into a grid, the wavelet transform is performed on this grid data structure, and then the high-density regions in the transformed space are identified as clusters. Based on the assumption that the number of data points is greater than the number of grid cells (N ≥ K), the time complexity of WaveCluster is O(N), where N is the number of data points in the dataset and K is the number of grid cells in the grid.The WaveCluster algorithm requires two parameters:<ul><li>Size of the grid - to determine the spatial grid division</li><li>Density threshold - the number of objects in the grid is greater than or equal to this threshold indicating that the grid is dense</li></ul>**Algorithm Flow<ol><li>discretise the original space into a mesh space and place the original data into the corresponding cells to form a new feature space </li><li>perform wavelet transform on the feature space, i.e. compress the original data with wavelet transform<ol><li>Perform wavelet transform on each row to get </li><li>Then wavelet transform is applied to each column of **, and we get</li></ol> </li><li>Find the lattice in the wavelet transformed LL space with density greater than a threshold (3 in this case) and mark it as dense </li><li>for the grids with connected densities as a cluster, label them with the cluster number of the cluster they are in </li><li>Create a mapping table of the cells before and after the conversion, and map the cluster labels to the original map. </li><li>Map the original data to the respective clusters </li></ol><h3 id="Effect-of-parameter-tuning-on-results"><a href="#Effect-of-parameter-tuning-on-results" class="headerlink" title="Effect of parameter tuning on results"></a>Effect of parameter tuning on results</h3>From the above analysis, the parameters that can be tuned for wavelet clustering are:<ul><li>Sparsity of the grid (called scale, scale or level in some articles)</li><li>Density threshold</li></ul><h3 id="Results-evaluation-analysis"><a href="#Results-evaluation-analysis" class="headerlink" title="Results evaluation analysis"></a>Results evaluation analysis</h3>nmi (normalised mutual information)Information gain IG(Y|X): measures how much uncertainty about Y is reduced by knowing XMutual Information I(X;Y): measures the information shared by X and Y. Measures how much the uncertainty about the other is reduced by knowing one of these twoBoth are numerically identical.Theoretically, the larger the value of mutual information, the better, but there is no upper bound on the range of its values. In order to better compare different clustering results, the concept of standardised mutual information is proposed, which normalises the value of mutual information** to between 0 and 1**, so that comparisons can be made between different data sets. The closer the value of normalised mutual information is to 1, the better the clustering results.The metrics given on the original paper:<h3 id="Main-advantages"><a href="#Main-advantages" class="headerlink" title="Main advantages"></a>Main advantages</h3><ul><li>Algorithmic complexity of O(n) for low dimensionality, suitable for huge datasets</li><li>Recognises arbitrary shapes</li><li>Multi-resolution, can find clusters of arbitrary complex structures according to user-specified scale</li><li>Good noise immunity</li></ul>Disadvantages<ul><li>Parameter sensitive, clustering results are very dependent on the choice of density threshold and grid size If the threshold is too high, clusters may be lost; if the threshold is too low, those that should be separated may be combined</li><li>Grid cells grow exponentially with increasing dimensionality i.e. clustering results are often poor and time consuming for high dimensional data.</li></ul><h2 id="Improved-algorithm"><a href="#Improved-algorithm" class="headerlink" title="Improved algorithm"></a>Improved algorithm</h2><h3 id="Dual-grid-correction-algorithm"><a href="#Dual-grid-correction-algorithm" class="headerlink" title="Dual grid correction algorithm"></a>Dual grid correction algorithm</h3>`[1]刘晓波,邵伟芹,张明明,左红艳.基于双网格校正小波聚类的转子故障诊断[J].计算机集成制造系统,2017,23(09):1883-1890.DOI:10.13196/j.cims.2017.09.007.Problem Causes:<ul><li>There is no proper criterion for the optimal quantisation of the grid, thus there is no pre-destination for this approach, only a blind search until a result is found.</li><li>At the same time, uniform grid quantisation of the space with one size yields grid cells consisting of volumes of equal size, but since the distribution of spatial data objects is often uneven**, uniform quantisation with only one size will mask the fact that the data objects are unevenly distributed within the grid cells, thus reducing the accuracy of the clustering.</li></ul>Solution: Apply <code>two dimensions</code> to quantise the space and apply <code>correction algorithm</code> to correct the clustering results to improve the clustering accuracy.EXPERIENCE: **reduces the impact of grid partitioning and grid density thresholds on clustering quality; changes the grid partitioning scale from blind to heuristic. **<h3 id="Parallel-wavelet-algorithm"><a href="#Parallel-wavelet-algorithm" class="headerlink" title="Parallel wavelet algorithm"></a>Parallel wavelet algorithm</h3><code>Yıldırım A A, Özdoğan C. Parallel WaveCluster: A linear scaling parallel clustering algorithm implementation with application to very large datasets[J]. Journal of Parallel and Distributed Computing, 2011, 71(7): 955-962.</code>Extended clustering speed and scale under parallel processing conditions by using wavelet transforms at different scale levels.<h3 id="Improved-wavelet-clustering-algorithm-based-on-peaked-lattices"><a href="#Improved-wavelet-clustering-algorithm-based-on-peaked-lattices" class="headerlink" title="Improved wavelet clustering algorithm based on peaked lattices"></a>Improved wavelet clustering algorithm based on peaked lattices</h3><code>[1]龙超奇,蒋瑜,谢雨.基于峰值网格改进的小波聚类算法[J].计算机应用,2021,41(04):1122-1127.</code>Problem cause: the wavelet clustering algorithm does not make good use of the grid values after wavelet transform, and only segments them by density threshold.Solution: Improve the judgement method of connectivity region and introduce the concept of ‘peak grid’.Under the same low grid scale, this method uses the grid of high-density regions to faster search for connected regions according to the cluster centre, and also can partition different cluster classes under lower grid scales, resulting in better clustering results.<h2 id="Summary"><a href="#Summary" class="headerlink" title="Summary"></a>Summary</h2>The grid clustering algorithm is a clustering algorithm that is also sensitive to the density parameter, which can effectively reduce the computational complexity of the algorithm. The grid-based spatial representation of the data makes it multi-resolution, but at the same time the effect is also quite sensitive to the grid scale.Wave Cluster first grid structure to summarise the data, and then uses a wavelet transform to transform the original feature space and find dense regions in the transformed space. The clustering of wavelet transform is very fast with O(n) computational complexity.<h3 id="Application-Scenarios"><a href="#Application-Scenarios" class="headerlink" title="Application Scenarios"></a>Application Scenarios</h3>paper </article> <article> <h1>基于网格的聚类方法——Wave cluster小波聚类</h1> 2022-12-30T16:00:01.000Z 文中使用的代码下载：<a href="https://github.com/BaiHLiu/WaveCluster">https://github.com/BaiHLiu/WaveCluster</a><h2 id="网格聚类方法概述"><a href="#网格聚类方法概述" class="headerlink" title="网格聚类方法概述"></a>网格聚类方法概述</h2><h3 id="引言"><a href="#引言" class="headerlink" title="引言"></a>引言</h3>聚类算法是一种无监督分类算法。算法很多，包括基于划分的聚类算法（如：kmeans），基于层次的聚类算法（如：BIRCH），基于密度的聚类算法（如：DBScan），基于网格的聚类算法等等。基于划分和层次聚类方法都无法发现<code>非凸面形状</code>的簇，真正能有效发现任意形状簇的算法是基于密度的算法，但基于密度的算法一般时间复杂度较高，1996年到2000年间，研究数据挖掘的学者们提出了大量基于网格的聚类算法，网格方法可以有效减少算法的计算复杂度，且同样对密度参数敏感。一句话总结一下几种聚类方法的核心思想：<ul><li>基于划分：类内的点足够近、类间的点足够远。我们不断更换聚类中心，直到聚类中心稳定，即为最终的结果。</li><li>基于密度：先发现密度较高的点，然后将相近的高密度点逐步连成一片，进而形成簇。</li><li>基于网格：将数据空间划分为一个个网格，将数据按照一定的规则映射到网格单元(cell)中，然后计算每个单元的密度。根据预先设定的阈值判断出每个网格单元是否为高密度单元，由临近的高密度单元组成一个类。</li></ul><h3 id="基本步骤"><a href="#基本步骤" class="headerlink" title="基本步骤"></a>基本步骤</h3>基于网格的聚类方法使用一种多分辨率的网格数据结构，它将对象空间量化成有限数目的单元（cell），这些单元形成了网格结构，所有聚类操作在该结构上进行。<code>分辨率</code><blockquote>总的来说，不同的分辨率，决定了要获得更概括性还是更细节性的信息。</blockquote>不同的算法有不同的网格划分方法，并对网格数据结构进行了不同的处理，但核心步骤是相同的：<ol><li>划分网格</li><li>使用网格单元内数据的<code>统计信息</code>对数据进行<code>压缩表达</code></li><li>基于这些信息判断高密度网格单元</li><li>将相连的高密度网格单元识别为簇</li></ol><blockquote>统计信息：例如均值，最大值和最小值</blockquote><h2 id="一些网格聚类方法举例"><a href="#一些网格聚类方法举例" class="headerlink" title="一些网格聚类方法举例"></a>一些网格聚类方法举例</h2><h3 id="Statistical-Information-Grid-STING-算法"><a href="#Statistical-Information-Grid-STING-算法" class="headerlink" title="Statistical Information Grid(STING)算法"></a>Statistical Information Grid(STING)算法</h3>核心思想首先我们先划分一些层次，实际上这里的每个层次对应的是样本的一个分辨率。每个高层的cell在其下一层中被对应得划分成多个cell，每个cell都计算出它的统计信息，被作为<code>统计参数</code>预先计算和存储。利用这样的结构，我们很容易进行查询，从上到下开始，根据cell的统计信息计算query在每个cell的置信区间，找出最大的那个cell，然后到下一层，依次直至到最底层。这样的好处是，我们不用计算所有的样本，算法每进一层都会抛弃不相关的样本，所需的计算量会越来越少，那么速度就会很快。常用的统计参数<ul><li><code>count</code> 网格中对象数目</li><li><code>mean</code>网格中所有值的平均值</li><li><code>stdev</code>网格中属性值的标准偏差</li><li><code>min</code> 网格中属性值的最小值</li><li><code>max</code> 网格中属性值的最大值</li><li><code>distribution</code> 网格中属性值符合的分布类型。（eg：正态分布, 均匀分布）</li></ul>STING算法查询时步骤：（已经计算好预先的参数）（1）从一个层次开始（2）对于这一个层次的每个单元格，我们计算查询相关的属性值。（3）从计算的属性值以及约束条件下，我们将每一个单元格标记成相关或者不想关。(不相关的单元格不再考虑，下一个较低层的处理就只检查剩余的相关单元)（4）如果这一层是底层，那么转（6），否则转（5）（5）我们由层次结构转到下一层，依照步骤（2）进行（6）查询结果得到满足，转到步骤8，否则（7）（7）恢复数据到相关的单元格进一步处理以得到满意的结果，转到步骤（8）（8）停止。粒度趋向于0（即朝向非常底层的数据），则聚类结果趋向于DBSCAN聚类结果。<blockquote>与基于密度聚类的关系：如果网格的粒度趋向于0（即朝向非常底层的数据，也就是分辨率非常高），则聚类结果趋向于DBSCAN聚类结果。</blockquote>优点：<ul><li>基于网格的计算是独立于查询的，因为存储在每个单元的统计信息提供了单元中数据汇总信息，不依赖于查询。</li><li>网格结构有利于<code>增量更新</code>和<code>并行处理</code>。 增量更新：算法每进一层都会抛弃不相关的样本，不需要全部更新。 并行处理：各个网格之间没什么联系，各自单独计算参数即可。</li><li>效率高。STING扫描数据库一次计算单元的统计信息，因此产生聚类的时间复杂度为O(n)，在层次结构建立之后，查询处理时间为）O(g),其中g为最底层网格单元的数目，通常远远小于n。</li></ul>缺点：<ul><li>没有斜的分界线，簇边界只有水平和竖直。</li><li>由于多分辨率机制，聚类质量取决于网格结构的最底层的粒度。如果最底层的粒度很细，则处理的代价会显著增加。然而如果粒度太粗，聚类质量难以得到保证。</li></ul><h3 id="CLIQUE算法（子空间聚类算法）"><a href="#CLIQUE算法（子空间聚类算法）" class="headerlink" title="CLIQUE算法（子空间聚类算法）"></a>CLIQUE算法（子空间聚类算法）</h3>CLIQUE算法是基于网格的空间聚类算法，但它同时也非常好的结合了基于密度的聚类算法，因此既能够发现任意形状的簇，又可以像基于网格的算法一样处理较大的多维数据。核心思想：密集网格合并首先扫描所有网格。当发现第一个密集网格时，便以该网格开始<code>扩展</code>，扩展原则是：若一个网格与已知密集区域内的网格邻接并且其其自身也是密集的，则将该网格加入到该密集区域中，直到不再有这样的网格被发现为止。再继续扫描网格并重复上述过程，直到所有网格被遍历。算法流程<blockquote>总结就是：首先判断某个网格是不是密集网格，如果是密集网格。那么对其相邻的网格进行遍历，看是否是密集网格，如果是的话，那么属于同一个簇。</blockquote>优点：<ul><li>尽管潜在的网格单元数量可能很高，但是只需要为非空单元创建网格。</li><li>将每个对象指派到一个单元并计算每个单元的密度的时间复杂度为O(m)，整个聚类过程是非常高效的。</li></ul>缺点：<ul><li>像大多数基于密度的聚类算法一样，基于网格的聚类非常依赖于密度阈值的选择。 （太高，簇可能丢失。太低，本应分开的簇可能被合并）</li><li>随着维度的增加，网格单元个数迅速增加（指数增长）。即对于高维数据，聚类效果较差。</li></ul><h2 id="Wave-Cluster"><a href="#Wave-Cluster" class="headerlink" title="Wave Cluster"></a>Wave Cluster</h2><blockquote>Wave Cluster称为小波聚类，是一种基于网格的快速聚类方法，常用于包含大量离群值的多维大规模数据。</blockquote>主要思想是把多维数据看作一个<code>多维信号</code>来处理。它首先将数据空间划分成网格结构，然后通过<code>小波变换</code>将数据空间变换成<code>频域空间</code>，在频域空间通过与一个核函数作卷积后，数据的自然聚类属性就显现出来。由于小波变换的多分辨率特性，高分辨率可以获得细节的信息，低分辨率可以获得轮廓信息。<h3 id="前置知识：离散小波变换（DWT）"><a href="#前置知识：离散小波变换（DWT）" class="headerlink" title="前置知识：离散小波变换（DWT）"></a>前置知识：离散小波变换（DWT）</h3>离散小波变换是对基本<code>小波</code>的尺度和平移进行离散化。在图像处理中，常采用二进小波作为小波变换函数，即使用2的整数次幂进行划分。小波变换概念首先来回顾一下<code>傅立叶变换</code>。傅立叶变换是一种线性积分变换，用于函数（应用上称作“信号”）在时域和频域之间的变换。作用是将函数分解为不同特征的正弦函数的和。简单来说：所有的波都可以用很多个正弦波叠加表示。例子：拟合方波。小波变换跟傅立叶变换一样能同时分析时间和频率，但是小波变换在高频时时间分辨率较好，在低频时则是频率分辨率较好。输入输出均为连续函数称为<code>连续小波变换</code>；输出输出均为离散值称为<code>离散小波变换</code>，离散小波变换常用于信号编码。图像压缩对于很多信号来说，其低频分量常常蕴藏在信号的基本特征，而高频信号只是给出了信号的细节信息，如图像信号的边缘轮廓信息。DWT例子x0,x1,x2,x3=90,70,100,70为了达到压缩效果，取 (x0+x1)/2　 (x0-x1)/2 来代表新的x0,x190,70 表示为 80,10　80即平均数（<code>频率</code>），10是小范围波动数（<code>振幅</code>）同理100,70表示为85,1580和85是局部的平均值，反映的是频率，叫做低频部分（Low-Pass）10和15是小范围波动的幅度，叫做高频部分（High-Pass）即90,70,100,70经过一次小波变换，可以表示为80,85,10,15，低频部分在前(L)，高频部分在后(H)对下面的序列进行三次小波变换：<h3 id="基本原理"><a href="#基本原理" class="headerlink" title="基本原理"></a>基本原理</h3>WaveCluster算法的核心思想是将数据空间划分为网格后，对此网格数据结构进行小波变换，然后将变换后的空间中的高密度区域识别为簇。基于数据点数目大于网格单元数目（N≥K）的假设，WaveCluster的时间复杂度为O(N)，其中N为数据集内数据点数目，K为网格内的网格单元数目。WaveCluster算法需要两个参数：<ul><li>网格的尺寸——确定空间网格划分</li><li>密度阈值——网格中对象数量大于等于该阈值表示该网格为稠密网格</li></ul>算法流程<ol><li>将原始空间离散化为网状空间，并把原始数据放入对应单元格，形成新的特征空间 </li><li>对特征空间进行小波转换，即用小波变换对原始数据进行压缩<ol><li>对每行进行小波变换，得到 </li><li>再对每列进行小波变换，得到</li></ol> </li><li>找出小波转换后的LL空间中密度大于阈值（这里取3）的网格，将其标记为稠密 </li><li>对于密度相连的网格作为一个簇，打上其所在簇序号的标签 </li><li>建立转换前后单元格的映射表，簇标签映射到原图 </li><li>把原始数据映射到各自的簇上 </li></ol><h3 id="参数调整对结果的影响"><a href="#参数调整对结果的影响" class="headerlink" title="参数调整对结果的影响"></a>参数调整对结果的影响</h3>由上面的分析可知，小波聚类可以调整的参数有：<ul><li>网格的疏密（有些文章中称为尺度，scale或者level）</li><li>密度阈值</li></ul><h3 id="结果评估分析"><a href="#结果评估分析" class="headerlink" title="结果评估分析"></a>结果评估分析</h3>nmi（标准化互信息）信息增益 IG(Y|X)：衡量了知道X的情况下，对Y的不确定性减少了多少互信息I(X;Y)：度量X和Y共享的信息，度量这两个其中知道了一个，对另一个不确定度减少的程度二者在数值上完全相同。理论上，互信息的值越大越好，可是其取值范围是没有上边界的。为了更好的比较不同聚类结果，提出了标准化互信息的概念，将互信息的值归一化到0和1之间，这样就可以在不同数据集之间进行比较了。标准化互信息的值越接近1，聚类效果越好。原论文上给的指标：<h3 id="主要优点"><a href="#主要优点" class="headerlink" title="主要优点"></a>主要优点</h3><ul><li>**对维度较低的情况，算法复杂度达到O(n)**，适用于巨量数据集</li><li>识别任意形状</li><li>多分辨率，能根据用户指定的scale找到任意复杂结构的聚类</li><li>抗噪性能良好</li></ul>缺点<ul><li>参数敏感，聚类结果非常依赖密度阈值和网格大小的选择 阈值太高，簇可能丢失；阈值太低，本应该被分开的可能被合并</li><li>随着维度增加，网格单元指数增长 即对于高维数据，聚类效果往往较差，而且时间很久</li></ul><h2 id="改进算法"><a href="#改进算法" class="headerlink" title="改进算法"></a>改进算法</h2><h3 id="双网格校正算法"><a href="#双网格校正算法" class="headerlink" title="双网格校正算法"></a>双网格校正算法</h3><code>[1]刘晓波,邵伟芹,张明明,左红艳.基于双网格校正小波聚类的转子故障诊断[J].计算机集成制造系统,2017,23(09):1883-1890.DOI:10.13196/j.cims.2017.09.007.</code>问题缘由：<ul><li>网格最佳量化并没有恰当的准则，因而这种方式没有预先目的地，只能盲目寻找，直到找到结果为止。</li><li>同时，用一种尺寸对空间进行均匀网格量化，得到由体积大小相等的网格单元，但由于空间数据对象的分布往往不均匀，仅用一种尺寸均匀量化将掩盖住网格单元内部数据对象分布不均的事实，从而降低聚类的精度。</li></ul>解决方案：应用<code>两种尺寸</code>对空间进行量化，并应用<code>校正算法</code>校正聚类结果，以提高聚类精度。体会：降低了网格划分和网格密度阈值对聚类质量的影响；将网格划分的规模由盲目式变为启发式。<h3 id="并行小波算法"><a href="#并行小波算法" class="headerlink" title="并行小波算法"></a>并行小波算法</h3><code>Yıldırım A A, Özdoğan C. Parallel WaveCluster: A linear scaling parallel clustering algorithm implementation with application to very large datasets[J]. Journal of Parallel and Distributed Computing, 2011, 71(7): 955-962.</code>通过使用不同尺度级别的小波变换，在并行处理的条件下扩展了聚类速度和规模。<h3 id="基于峰值网格改进的小波聚类算法"><a href="#基于峰值网格改进的小波聚类算法" class="headerlink" title="基于峰值网格改进的小波聚类算法"></a>基于峰值网格改进的小波聚类算法</h3><code>[1]龙超奇,蒋瑜,谢雨.基于峰值网格改进的小波聚类算法[J].计算机应用,2021,41(04):1122-1127.</code>问题缘由：小波聚类算法对经小波变换后的网格数值并没有很好地运用起来，仅通过密度阈值对其进行了分割处理。解决方案：改进一下连通区域的判断方法，引入“峰值网格”的概念。在同样低网格尺度下，该方法利用高密度区域的网格，能够更快地根据聚类中心寻找连通区域，同时还能分割处理较低网格划分尺度下不同的簇类，所取得的聚类结果更好。<h2 id="总结"><a href="#总结" class="headerlink" title="总结"></a>总结</h2>网格聚类算法是一种同样对密度参数敏感的聚类算法，可以有效减少算法的计算复杂度。基于网格的数据空间表示，使得它具有多分辨率特性，但同时效果也对网格尺度相当敏感。Wave Cluster首先网格结构来汇总数据，然后采用一种小波变换来变换原特征空间，在变换后的空间中找到密集区域。小波变换的聚类速度很快，计算复杂度为O(n)。<h3 id="应用场景"><a href="#应用场景" class="headerlink" title="应用场景"></a>应用场景</h3>paper </article> </main></body></html>