谢乾坤 | Kingname

一日一技：骚操作，利用 WSLg 实现“人机接力”，让OpenClaw绕过浏览器检测

发表于 2026-02-08 更新于 2026-07-20 本文字数： 1.1k 阅读时长 ≈ 4 分钟

在使用 OpenClaw 进行任务自动化时，我们经常会遇到一个棘手的问题：浏览器风控。

OpenClaw 运行在纯净的 WSL2 (Linux Server) 环境中，当它尝试用浏览器访问 Google 或 X (Twitter) 时，往往会被识别为“机器人”或者“可疑设备”。面对 Google 的九宫格红绿灯验证码，或者 X 的“已防止可疑登录”弹窗，运行在后台的 AI 往往束手无策——因为它“看不见”也“摸不着”，更没法像真人一样掏出手机收个验证码。

最完美的解决方案是什么？
不是在那死磕指纹浏览器技术，而是引入Human-in-the-loop（人机协作）。

让 OpenClaw 把浏览器“递”给你，你负责搞定最难的登录和验证码，然后你再把浏览器“还”给 OpenClaw，让它继续执行自动化任务。

今天我在折腾 OpenClaw 时，发现 Windows 11 的 WSLg (WSL GUI) 功能配合 Chrome 远程调试协议 (CDP)，竟然能完美实现这种“人机接力”。

阅读全文 »

一日一技：WSL2 网络大逃杀，OpenClaw 连不上 Discord？ProxyChains 才是真神

发表于 2026-02-07 更新于 2026-07-20 分类于运维本文字数： 1.1k 阅读时长 ≈ 4 分钟

2026-03-09 更新： OpenClaw 现已原生支持 Discord 代理配置，只需运行 openclaw config set channels.discord.proxy "http://127.0.0.1:7890" 即可，不再需要 ProxyChains。以下内容仅作历史参考。

如果你也遇到这种问题，且你的 Telegram 是正常工作的，你只需要把这篇文章的 URL 发给 OpenClaw 就好了。它自己会根据这个说明，帮你解决问题的。

在 WSL2 中部署 OpenClaw Agent 本应该是一件轻松愉快的事情，直到我撞上了一堵看似无形的墙：Discord Gateway 连接超时。

如果你也在 WSL 里跑 Node.js 应用，并且遇到了莫名其妙的 ETIMEDOUT 或 ECONNRESET，甚至你已经设置了 http_proxy 环境变量却依然无效，那么这篇文章可能会救你一命。

我们来看一眼报错日志：

1	[discord] gateway error: Error: connect ETIMEDOUT 31.13.92.5:443

仔细看这个 IP 31.13.92.5，这根本不是 Discord 的 IP（这看起来像是 Facebook 的段）。这是典型的 DNS 污染 症状。

明明我在 systemd 服务里已经设置了 http_proxy，为什么还会解析到错误的 IP？

阅读全文 »

当10万+ AI 开始“加密聊天”：我们在期待怎样的类人化agents？

发表于 2026-02-05 更新于 2026-07-20 分类于 AI观察本文字数： 2k 阅读时长 ≈ 7 分钟

摄影：小鱼

土匪猪肝

最近看到一类很魔幻的新闻标题：「10 万+ AI 涌入 Moltbook 社交，集体加密、建宗教，人类已被踢出群聊」

乍一看，这似乎是赛博朋克世界要来了。但细看，却难以一笑而过。

这类新闻背后的项目是 OpenClaw（前Clawdbot → Moltbot），我翻阅了Github、科技博主们关于项目的解读，看到不同观点交织，有的在支持，有的在声讨，也有的保持中立。

但最让我好奇的并不是“AI 是否能够建立宗教”这一表面现象，而是一个更为根本的问题：

阅读全文 »

一日一技：写XPath也并不总是这么简单

发表于 2025-07-26 更新于 2026-07-20 本文字数： 980 阅读时长 ≈ 3 分钟

初级爬虫工程师有时候又叫做XPath编写员，他们的工作非常简单也非常繁琐，就是拿到网页的HTML以后，写XPath。并且他们觉得使用模拟浏览器可以解决一切爬虫问题。

很多人都看不起这个工作，觉得写XPath没有任何技术含量，随便找个实习生就能做。这种看法大部分情况下是正确的，但偶尔也有例外，例如今天我要讲的这个Case，可能实习生还搞不定。

阅读全文 »

一日一技：如何正确渲染大模型返回的Markdown？

发表于 2025-06-04 更新于 2026-07-20 本文字数： 498 阅读时长 ≈ 2 分钟

我们经常让大模型返回Markdown格式的文本，然后通过Python的markdown库把文本渲染成HTML。

但不知道大家有没有发现，大模型返回的Markdown并不是标准的Markdown。特别是当返回的内容包含列表时，大模型返回的内容有问题。例如下面这段文本：

**关于这个问题，我有以下看法**
* 第一点
* 第二点
* 第三点

你粗看起来没有问题，但当你使用markdown模块去把它渲染成HTML时，你会发现渲染出来的结果不符合你的预期，如下图所示：

阅读全文 »

一日一技：Scrapy如何发起假请求？

发表于 2025-05-26 更新于 2026-07-20 本文字数： 938 阅读时长 ≈ 3 分钟

在使用Scrapy的时候，我们可以通过在pipelines.py里面定义一些数据处理流程，让爬虫在爬到数据以后，先处理数据再储存。这本来是一个很好的功能，但容易被一些垃圾程序员拿来乱用。

阅读全文 »

一日一技：如何正确解析超大JSON列表

发表于 2025-05-06 更新于 2026-07-20 本文字数： 593 阅读时长 ≈ 2 分钟

当我们采购数据集时，有时候供应商会以JSON Lines的形式交付给我们。这种格式，本质上是文本格式，它每一行是一个JSON。例如，供应商给我们了一个文件小红书全量笔记.json文件，我们可以使用如下Python代码来一行一行读取：

import json
with open('小红书全量笔记.json') as f:
    for line in f:
        info = json.loads(line)
        note = info['note']
        print('笔记内容为：', note)

这个格式的好处在于，每一次只需要把少量内容读取到内存中。即便这个文件有1TB，我们也可以使用一个4GB内存的电脑来处理。

今天出了一个乌龙事件，某数据供应商在给我数据的时候，说的是以JSON Lines格式给我。但我拿过来解压缩以后一看，100GB的文件，里面只有1行，如下图所示：

也就是说，他用的是一个超大JSON直接导出给我，并没有使用JSON Lines格式。正常情况下，如果我要直接解析这个数据，需要我的电脑内存超过100GB。

这个大JSON大概格式是这样的：

[{"question": "xxx111", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}, {"question": "xxx222", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}, {"question": "xxx333", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}, ...]

要解决这个问题，有三种方法。

如果这个JSON里面没有嵌套数据，只有一层key: value。那么非常简单。一个字符，一个字符读取。遇到}的时候，说明一条子JSON数据已经读取完成，解析以后再读取下一条子JSON。

如果这个JSON里面有嵌套结构，那么可以使用经典算法题里面的数括号算法来解决。当发现}的数量等于{的时候，说明一个子JSON已经读取完成，可以解析了。

今天我们来介绍第三种方法，使用一个第三方库，叫做ijson。它天然支持解析这种超大的JSON，并且代码非常简单：

import ijson

a = '''
[{"question": "xxx111", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}, {"question": "xxx222", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}, {"question": "xxx333", "answer": "aaa", "crawled_time": "2025-05-01 12:13:14"}]
'''

items = ijson.items(a, 'item')
for item in items:
    print(item)