谢乾坤 | Kingname

你经常看到却经常忽视的init.py有什么用？

发表于 2020-03-23 更新于 2026-04-20 分类于 Python 本文字数： 904 阅读时长 ≈ 3 分钟

Python 初学者在阅读一些 Python 开源项目时，常常会看到一个叫做__init__.py的文件。下图为著名的第三方库requests的源代码：

那么__init__.py有什么用呢？本文介绍它的两个用途。

彻底搞懂Python 中的 import 与 from import

发表于 2020-03-23 更新于 2026-04-20 分类于 Python 本文字数： 1.8k 阅读时长 ≈ 6 分钟

对不少 Python 初学者来说，Python 导入其他模块的方式让他们很难理解。什么时候用import xxx？什么时候用from xxx import yyy？什么时候用from xxx.yyy import zzz？什么时候用from xxx import *？

这篇文章，我们来彻底搞懂这个问题。

阅读全文 »

一日一技：推特时间的格式化方案

发表于 2020-03-23 更新于 2026-04-20 分类于 Python 本文字数： 434 阅读时长 ≈ 1 分钟

在使用推特开放API获取推文的时候，会发现推文的发布时间是下面这样的：

{
    ...
    "created_at": "Tue Dec 24 10:51:15 +0000 2019",
    ...
}

现在我想把它转换为2019-12-24 18:51:15的形式，应该如何操作呢？

阅读全文 »

逆向操作，把被压平的字典还原成嵌套字典

发表于 2020-03-23 更新于 2026-04-20 分类于 Python 本文字数： 862 阅读时长 ≈ 3 分钟

在使用 yield 压平嵌套字典有多简单？这篇文章中，我们讲到，要把一个多层嵌套的字典压平，可以使用yield关键字来实现。

今天，我们倒过来，把一个已经被压平的字典还原成嵌套字典。

阅读全文 »

剖析灵魂，为什么aiohttp默认的写法那么慢？

发表于 2020-03-23 更新于 2026-04-20 分类于 Python 本文字数： 1.2k 阅读时长 ≈ 4 分钟

在上一篇文章中，我们提到了aiohttp官方文档中的默认写法速度与requests单线程请求没有什么区别，需要通过使用asyncio.wait来加速aiohttp的请求。今天我们来探讨一下这背后的原因。

阅读全文 »

为 aiohttp 爬虫注入灵魂

发表于 2020-03-23 更新于 2026-04-20 分类于 Python 本文字数： 724 阅读时长 ≈ 2 分钟

听说过异步爬虫的同学，应该或多或少听说过aiohttp这个库。它通过 Python 自带的async/await实现了异步爬虫。

使用 aiohttp，我们可以通过 requests 的api写出并发量匹敌 Scrapy 的爬虫。

阅读全文 »

如何使用Python读写Kafka？

发表于 2020-03-23 更新于 2026-04-20 分类于 Kafka 本文字数： 1.8k 阅读时长 ≈ 6 分钟

关于Kafka的第三篇文章，我们来讲讲如何使用Python读写Kafka。这一篇文章里面，我们要使用的一个第三方库叫做kafka-python。大家可以使用pip或者pipenv安装它。下面两种安装方案，任选其一即可。

阅读全文 »

Kafka 里面的信息是如何被消费的？

发表于 2020-03-23 更新于 2026-04-20 分类于 Kafka 本文字数： 1.2k 阅读时长 ≈ 4 分钟

作为一个爬虫工程师，Kafka 对你而言就是一个消息队列，你只需要掌握如何向里面写入数据，以及如何读取数据就可以m’ys’q作为一个爬虫工程师，Kafka 对你而言就是一个消息队列，你只需要掌握如何向里面写入数据，以及如何读取数据就何读取就可以可了。

请谨记：使用 Kafka 很容易，但对 Kafka 集群进行搭建、维护与调优很麻烦。Kafka 集群需要有专人来维护，不要以为你能轻易胜任这个工作。

阅读全文 »

GNE v0.1 正式发布： 4 行代码开发新闻网站通用爬虫

发表于 2020-01-01 更新于 2026-04-20 本文字数： 1.5k 阅读时长 ≈ 5 分钟

GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。

阅读全文 »

为什么每一个爬虫工程师都应该学习 Kafka

发表于 2019-12-14 更新于 2026-04-20 分类于爬虫本文字数： 3k 阅读时长 ≈ 10 分钟

这篇文章不会涉及到Kafka 的具体操作，而是告诉你 Kafka 是什么，以及它能在爬虫开发中扮演什么重要角色。

阅读全文 »