基于 RSS 搭建个人信息收集、处理系统的经验

本文主要分享如何搜集、生成、翻译 RSS 源,使用 RSS 阅读器订阅、处理、阅读,使用 AI 和 Logseq 记录信息,以及后续分发等。

本文提及的工具都可以在https://morerss.com/tools_zh.html查看。

一、什么是 RSS,为什么需要 RSS?在哪里找到 RSS?

1、什么是 RSS?

RSS(Really Simple Syndication)是一种基于XML标准的内容分发和聚合协议。它允许网站以标准化的格式发布内容更新,使得用户可以通过RSS阅读器或聚合器订阅多个内容源,从而在一个地方集中接收和查看更新。

RSS 有3个常见标准,RSS1、RSS2、ATOM (Atom Syndication Format),可以理解为不同的语法格式要求,具体区别此处不详细介绍,感兴趣可以自行搜索一下。

Feed:支持 RSS 标准的网址被称为 feed,中文可以称为信息源。例如本博客的 feed 是:https://www.zyzhang.com/feed/,使用 RSS 2.0 标准。

2、为什么需要 RSS?

在我看来,RSS 有以下几个显著的优点

2.1、RSS 源作为一类内容的优点

首先,RSS 背后是优质的信息,以最普遍使用 RSS 的群体博客来说,我觉得,博客有以下的典型特征:独立(否则会选择公众号),爱折腾(搭建博客可不是人人都能够的,即使并不难),爱分享,不求名利(博客是没多少流量和收入的),我很想看这类人在思考、关注什么?本来想说「更优质」的信息,但想了下其实不见得,实际上最优质的可能还是在传统媒体、专业自媒体,因为他们有商业目的,所以会更认真的写作。但是,RSS 也不仅仅是博客,也可以订阅传统媒体,例如《财新》《华尔街日报》都可以。当然也可以订阅公众号(PS.因为微信很封闭,所以订阅公众号挺难挺不稳定的,但也有方案)。

其次,现在最受欢迎的媒体,例如头条和公众号,基本都是用算法给用户推内容,结果是把用户困在信息茧房里,而 RSS 依然坚守时间线方式,让用户自己掌握自己的信息。

2.2、RSS 作为一种协议的优点

首先,某些媒体特别是博客,更新频率很低,有的甚至是年更,这样如果挨个去访问,就会很浪费时间,而使用 RSS 服务,则它更新的时候,就会主动推送给你。

其次,使用 RSS 服务,可以对信息做预处理,下段会详细说。

再次,一些 RSS 源可以直接输出全文,这样就可以直接在 RSS 阅读器阅读,体验更佳、没有广告。

3、怎么找到 RSS?

很多网站会提供 RSS,一般会以以下方式显示

3.1、直接显示「RSS」文字。

3.2、显示 RSS 图标,长得有点像放平的WIFI图标,即

3.3、有的网站直接提供了一键订阅的图标,例如本站首页右侧这样,点击就可以直接订阅到指定的 RSS 阅读器。

4、查找RSS的进阶方法

4.1、MoreRSS,这个网站提供中、英文的RSS源,并且显示源的订阅量,对于一些受欢迎的英文 RSS,还提供了中文翻译。但此网站还在建设中,收录量不大、功能也不完善,可以关注其更新。

4.2、有一些中文博客聚合网站,收录了多则1000+少则几百的中文博客(PS.经查世界上现存的大熊猫数量约2600只),知名的有十年之约博友圈BlogFinder 、积薪、川流 等,不一一列举了。

4.3、Feedsearch,如果在网站的首页看不到 RSS 信息,可以使用这个 RSS 源搜索服务,实测准确度很高,我用它找出来很多隐藏的 RSS 源,如果这个网站搜不到,那可能是网站确实没有提供 RSS。

4.4、RSSHub,这个网站为没有 RSS 的网站生成 RSS,强大并广受欢迎,除了博客、媒体外,还可以订阅很多社会化网络的信息,例如微博、哔哩哔哩、小红书等。

4.5 、RSSAnything ,如果 RSSHub 也没有找到需要的 RSS,可以尝试使用这个网站生成 RSS,这是我试过的效果最好的,但要看运气,有的时候效果很好,有的时候达不到期望值。

4.6、有一些针对具体的社会化媒体生成 RSS 的服务,但或者收费,或者稳定性欠佳失效,或者收费且稳定性欠佳失效(我就订阅了一个微信公众号的 RSS 服务,没用多久就失效了还不退款),想了下,就不在这里列举了,感兴趣可以直接在https://morerss.com/tools_zh.html查找。

4.7、最后的办法就是自己生成 RSS,可以使用上面说的 RSSHub,这个门槛就高了。

5、希望订阅外语信息源但外语不够好怎么办?

可以把外语信息源翻译为中文的,这里推荐的服务器是 RSS-Translator,功能强大但需要一定的能力。MoreRSS 基于 RSS-Translator 的服务,翻译了一批优质的外语信息源,可以直接订阅。

二、怎么订阅 RSS 和阅读?

有了 RSS 源后,我们需要使用专门的 RSS 阅读器来订阅他,之后就可以在阅读器里阅读。

1、常见的 RSS 阅读器

大体可以分为两种,在线 RSS 阅读器(通常也提供客户端)和本地 RSS 阅读器。

目前最受欢迎的在线 RSS阅读器是 InoreaderFeedly,我的感受是前者功能更强大,后者UI体验更佳。

我使用过并推荐的本地 RSS 阅读器是 Reeder,但仅有 IOS 和 Mac 端 ,可以直接使用 Inoreader 或 Feedly 登录并使用其上订阅源,也可以直接订阅 RSS 源,主要优点是 UI 美观、体验好。

其他的阅读器可以在https://morerss.com/tools_zh.html查找,例如有的用户会喜欢开源的版本。

Reeder 之前是我的主力阅读器,但因为现在使用不少 Inoreader 的附加功能,改为直接使用 Inoreader 在线版了。

2、订阅和阅读

因为现在主要用 Inoreader,所以就拿 Inoreader 来举例,大同小异。

2.1、订阅RSS

打开 Inoreader,点击「新增」,可以看到能订阅订阅源、Google News、Telegram等,但有些是付费功能,按需决定是否付费,因为我是重度用户,所以一直是付费的。

然后输入 feed 地址,回车就可以订阅,之后可以把 feed 分配到不同的目录。

2.2、导入和订阅 OPML

OPML(Outline Processor Markup Language)是一种基于XML的文件格式,用于表示网页内容的大纲或结构。简单说,OPML 就是一批 feeds 的聚合,通常会有名字、url、feed url、目录。OPML 主要是为了便于RSS迁移或批量订阅的。

可以在其他阅读器导出 OPML,MoreRSS 也提供指定主题的 OPML 下载(注意此功能还不完善)。

在 Inoreader的「偏好设置」里的「导入、导出和备份」可以导入 OPML 文件。

此外,订阅 OPML 应该是 Inoread 的独家功能,反正我没看到其他的阅读器有这个功能。这个功能是直接输入一个 OPML 地址,OPML 里的 feeds 发生变化时,会自动同步到 Inoreader。

SCR–20240405-hfn.png

2.3、阅读

订阅之后,在页面左侧就会显示出自己订阅的 RSS,点击就能看到文章列表并阅读,Inoreader 提供一些快捷键,例如按「O」是收起或展开文章列表。

到这里就算入门了。

三、我的进阶用法

其实 RSS 本身就是为了简单而生,所以所谓进阶其实也都是很简单的,但对我来说是有些价值的,所以提一下。

1、在 Inoreader 点开文章,上面会显示一排小按钮,包含的功能有:收藏、加标签、载入文章(如果RSS只提供摘要,会尝试载入全文)、翻译、语音阅读等,都是比较实用的功能,试一下就很快会了解。

2、规则:是 Inoreader 的进阶功能,规则分为3步,当、如果、Then,列举几个我的用法:

2.1、当有新文章,如果文章标题含有「美团」「拼多多」等,Then分配标签「重点关注」。

2.2、当有新文章,如果标题或内容含有「蛇」「优惠总结」等,直接删除。

2.3、当有新的文章被加入收藏,Then 同步到 instapaper、邮箱。

3、过滤器:是 Inoreader 的进阶功能,这个功能很简单,可以删除指定目录下重复的文章,而且可以按照重复的程度删除。

4、荧光标:Inoreader 的一个实用功能,给指定关键词加不同颜色荧光,这样在一大片列表里,可以快速找到关键词。效果如下图

SCR–20240405-hdo.png

5、目录、优先级和标签

到写此文时,我订阅了 2781 个 feed,每天可能更新几万条内容,显然我是不可能全部读完的,所以需要有一些优先级,我主要是使用目录和标签来设定优先级。

首先,第一优先级。我有一个「A BOX」文件夹,会把必读的 feeds 放进去,每天无论多忙,「A BOX」里的是必须读完的,之所以这么命名,是因为设置了目录按照名称排序,「A BOX」会始终在最上面。

然后,第二优先级。有一些类似于「A Important」「A Blog CN」「A EN MUST」「A SM」的文件夹,这些也是有潜在的优先级排序,例如「A Important」是重要但没「A BOX」重要,一定会看但不着急,「A EN MUST」是翻译的英文信息源,「A Blog CN」是博客,内容少所以肯定能看完也不着急,「A SM」是通过 s.morerss 订阅的Telegram、微博等信息源,这类信息源的优点是是信息密度高,一个新闻正常几千字,Telegram 频道会缩略为几十字。

接着,第三优先级。

以上之外,都是进一步分类的文件夹,例如「Media CN」「Google News」等,这类动辄几万的未读,是不可能去看的。

之所以还有订阅这些,是因为有上文提及的功能,如果包含指定的关键词就加标签「重点关注」,所以第三优先级是直接浏览打了标签的内容。

最后,剩下还没读的,也没可能去读,就直接一键「全部设为已读」清空列表。

四、保存、输出、思考

到以上就算说完了,后面的和 RSS 没有关系,大略提一下,提及的软件什么也不具体介绍了。

1、读到的好的文章,如果想全文收藏,就直接点一下收藏,所有收藏的文章,会通过 Inoreader 同步到 instapaper 备份,同时,会通过 IFTTT 同步到 shoucang.zyzhang.com 作为备份,以及便于定期 review。我现在完全不使用稍后读了,因为稍后读对绝大多数人,至少对我来说属于再也不读,所以我收藏和同步的,主要是备份和再读。例如黄铮的《如创业的投资和如投资的创业》我看了不下10遍。

2、如果不需要全文收藏,但属于有价值的信息,例如某个关注公司的某个变化,会首先用 KIMI 把内容概括一下,然后记录到 Logseq 并且打上标签。Logseq 的 journals 会使用 Syncthing 同步到 VPS,然后使用 python 定期进行处理并把内容和标签分别导入到MySQL数据库,之后就可以调用不同的内容,例如直接调用打了「美团」标签所有的内容。

3、段落标题提了「思考」,主要是自我反省,在 Logseq 里有个「Thought」的标签,专门用于记录自己的思考,但使用比较少,我自我感觉和批评是:沉迷于收集信息,但属于思考信息和行动。是以后要着力改变的。

五、如果你有其他使用 RSS 的经验、技巧,欢迎评论。

Licensed under CC BY-NC-SA 4.0
最后更新于 2024-04-05 07:08 UTC
使用 Hugo 构建
主题 StackJimmy 设计