如何创建自己的私有自托管ReadItLater应用程序

想让你关心的每一个书签离线吗?我们将向您展示如何创建自己的开源自托管web存档。...

互联网是一个巨大的知识宝库。但它是转瞬即逝的,也不能保证你喜欢的内容将来会出现。如果您不能承受丢失这些内容的代价,可以使用web存档工具来存储网页的副本。

create-readlater-apps

许多人使用read later服务来保存web文章。这些应用程序最适合基于文本的内容,不能正确处理复杂的网页设计或媒体。想要更多的控制吗?

让我们看看如何在计算机中创建Instapaper或Pocket的克隆,而不会丢失任何网页资源。

archivebox简介

ArchiveBox是一个开源解决方案,它可以帮助您托管自己的替代归档服务,如Wayback机器。你不会放弃你的隐私或者被锁在一个你无法控制的服务中。

它获取要存档的url列表,并以多种格式创建内容的本地可浏览HTML克隆。它包括HTML格式的本地副本、页面截图、PDF文件和WARC(Web存档)。

即使原来的网页在将来消失了,这些副本也会留在你身边。

ArchiveBox是用python3编写的。它还使用Wget、headlesschrome、youtubedl和其他Unix工具等依赖项来保存网页。你不需要一个持续运行的后端服务器。每次您想导入新链接并更新静态输出时,只需运行它。

归档完成后,可以打开生成的输出/索引.html在浏览器中查看存档。

ArchiveBox

archivebox的优点

  • 它以几种文件格式归档链接,这些文件格式可以作为备份。
  • 它试图保留原始网页使用先进的捕获方法。
  • 能够自动提取内容并将其保存到单个文件夹中。
  • 它还提供了一个简单的命令行界面来处理多个链接、提要和书签。你必须设置它一次,并运行它的时间表存档较新的链接。

archivebox的缺点

  • ArchiveBox从网页中提取所有资产。它消耗大量的磁盘空间,而且CPU密集型。
  • 除了python3.5之外,该应用程序还需要三个或更多的依赖项。使这些组件协同工作需要反复试验。
  • 该应用程序不完全支持Windows操作系统。您必须安装Docker或启用Windows Subsystem for Linux(WSL)。即使这样,某些功能也可能起作用,也可能不起作用。

支持的操作系统

ArchiveBox正式支持以下操作系统:

  • macOS:10.12 Sierra和自制软件。
  • Linux:Ubuntu,Debian(带APT)。该应用程序可能(也可能不)在Fedora、CentOS、SUSE、Arch等发行版中工作。
  • BSD:FreeBSD、OpenBSD、NetBSD(带pkg)。

依赖项

ArchiveBox是一种灵活的web存档工具。必须安装以下依赖项并满足最低要求。

  • Python 3。不要使用macOS附带的默认python2.0。
  • 重量1.16
  • 铬59。如果你已经使用谷歌Chrome,不要安装Chrome。
  • Youtube dl(可选):媒体资源需要大量存储空间。在存档书签之前,请仔细考虑一下。

设置档案箱

档案箱的设置有两种方式:自动和手动。

在自动方法中,助手脚本将安装应用程序及其依赖项。但是如果出现任何错误,您将无法解决问题。最好手动安装应用程序。

为了演示,我们将使用macos10.14.6。

安装依赖项

安装依赖项的最佳方法是通过名为Homebrew的包管理器。要了解它的基本知识,请参阅本文中关于如何使用Homebrew安装Mac应用程序。

打开终端并键入

brew install python3 git wget curl youtube-dl brew cask install chromium

(如果您已经在应用程序中安装了Google Chrome/Chromium,请跳过此步骤)

检查所有依赖项的版本号

要检查所有依赖项的版本号,请键入

dependency app --version

(用python3、wget、youtube dl等替换依赖关系应用程序)

check the version of all dependencies

下载书签导出文件

所有read-later服务和浏览器都可以将书签导出为HTML文件。按照本文中有关如何从浏览器导出书签的说明进行操作。也可以将单个链接或URL列表保存在文本文件中。

安装archivebox

从GitHub克隆repo。打开终端,然后键入

git clone https://github.com/pirate/ArchiveBox

那么,

cd ArchiveBox/

克隆此repo时,安装程序将在主目录中创建一个ArchiveBox文件夹。此文件夹包含所有主应用程序和配置文件。

install ArchiveBox

将您的url添加到存档

如果要存档单个链接,请键入

echo 'https://example.com'| ./archive

archiving a single link

导航到ArchiveBox文件夹以查看新创建的输出文件夹。在这里,你会看到索引.html文件。

ArchiveBox output folder

向存档添加多个链接

当您想保存多个链接(几十个或更多)时,最好将链接添加到文本文件中。应用程序将解析文件中的URL并将其存档。打开终端并键入

./archive [Path to Your File.txt]

如果文件位于下载文件夹中,则路径将如下所示

./archive /Users/(Home directory name)/Downloads/links.txt

等待几分钟/小时以完成此过程。要访问存档,请打开输出/索引.html在浏览器中。您可以按列排序,使用右上部分的框搜索标题,并在底部查看链接的总数。

archived links through ArchiveBox

单击“文件”列下的favicon以访问详细信息页面。您将找到指向屏幕截图中所示的单个文件格式的链接。同样的链接也会上传到存档.org.

detail page of each archived link

同样,将Instapaper或Pocket链接导出为HTML文件。然后,输入

./archive ~/Downloads/instapaper-export.html

您还可以从feed URL导入链接列表。但请记住,您可能会遇到太多的失败或会话超时。如果有成千上万个URL,最好将它们分成更小的文件以提高成功率。

配置archivebox

默认设置在大多数情况下都有效,但是您可以调整某些重要参数以获得更多功能。配置文件位于

~/ArchiveBox/etc/ArchiveBox.conf.default

注意:不要修改这个文件,因为只要你更新应用程序,它们就会被删除。要创建持久配置文件,请键入

cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf

cp命令将在主目录中创建配置文件的副本。默认情况下,该文件在目录中不可见。要取消隐藏,请按Cmd+Shift+Period。在TextEdit中打开配置文件。

copy of the ArchiveBox config file

参数

ArchiveBox为您提供了许多选择。以下是一些重要的问题;

  • ONLY\ NEW:将此设置为True以下载新添加链接的存档。如果你经常给链接加书签的话会很有用。
  • 超时:可能的值是60或120秒。如果看到频繁的超时错误,则将其增加到120秒。
  • URL\u黑名单:您可以使用regex表达式从存档中排除某些域、扩展或URL模式。
  • 获取媒体:使用youtube dl获取所有音频和视频文件。只有当您有足够的存储空间时,才将此设置为True。
  • WGET\u USER\u AGENT:用于在存档期间更改用户代理。如果您被某些服务器阻止,此选项非常有用。

要了解有关配置详细信息的更多信息,请访问ArchiveBox配置以获取更多信息。

发布存档

ArchiveBox生成的归档文件与任何可以承载静态HTML的提供程序兼容。例如,GitHub页面。

您还可以通过直接将输出文件夹上载到web目录,从家庭服务器或VPS提供服务。

确保您没有以CGI或PHP的形式运行任何内容,您只希望托管静态HTML文件。

托管您的存档既有优点也有缺点。当您从随机站点下载链接时,您必须了解在共享域中托管恶意CSS和JS文件的危险。你也可以把你的档案列入黑名单机器人.txt文件保持私有。

离线下载整个网站

在过去的几年里,Web归档引起了人们的关注。它们记录网页的全部内容,包括源HTML、嵌入的图像、样式表和JavaScript代码。ArchiveBox正好适合web归档工具和服务的广泛类别。

如果你对Instapaper或Pocket感到失望,那么ArchiveBox是一个很好的选择。除了web文章之外,您可能还需要归档整个网站以脱机访问它们或保存它们的知识。如果你对此感兴趣,请阅读这篇关于如何下载任何网站进行离线阅读的文章。

  • 发表于 2021-03-19 09:29
  • 阅读 ( 289 )
  • 分类:互联网

你可能感兴趣的文章

如何尽快开始写博客?

...限。此外,它在你的博客上显示Wix广告。有免费的第三方应用程序,但图书馆远不如WordPress的全面。 ...

  • 发布于 2021-03-11 16:06
  • 阅读 ( 458 )

如何使用cloud9在虚拟服务器上免费安装wordpress

... 如何在cloud9上安装wordpress ...

  • 发布于 2021-03-14 04:53
  • 阅读 ( 217 )

如何使用github页面免费托管网站

... 对于一个静态网站或小型网络应用程序,有免费的托管计划,可以让你在一瞬间上线运行。他们需要比付费主机多一点的设置,但这是一个值得的免费权衡。 ...

  • 发布于 2021-03-19 05:27
  • 阅读 ( 224 )

如何设置电子邮件在您的域免费与zoho邮件

...果你想利用Zoho功能丰富的电子邮件套件和其他基于云的应用程序,你还是可以注册一个帐户的。 ...

  • 发布于 2021-03-20 04:38
  • 阅读 ( 248 )

最好的私有加密电子邮件和云办公套件是disroot

...有,你会喜欢Disroot与EtherPad和EtherCalc的合作关系。这两个应用程序都允许您实时创建、共享和编辑文档和电子表格。 ...

  • 发布于 2021-03-25 05:23
  • 阅读 ( 197 )

如何组织松弛边栏以获得最佳效果

...最重要的元素之一,因为它包含了所有频道、直接消息、应用程序集成等等。如果你的Slack工作区有几十个这些类别的条目,你很容易被它们淹没。 ...

  • 发布于 2021-03-30 10:27
  • 阅读 ( 238 )

什么是microsoft azure?

...整的虚拟机、数据库、文件存储、备份以及用于移动和web应用程序的服务。 这个服务最初被命名为“windowsazure”,但后来被转换为“microsoftazure”,因为它可以处理的不仅仅是Windows。例如,您可以在Azure上运行Windows或Linux虚拟机...

  • 发布于 2021-04-06 21:57
  • 阅读 ( 179 )

用p2创建你自己的twitter风格的群组博客

...很好的方式在网上快速发布信息并与读者交流吗?下面是如何使用P2主题将WordPress转换成一个伟大的协作和交流平台。 什么是P2? WordPress是最流行的博客平台之一,我们已经研究了许多使用WordPress在线发布内容的方法。但WordPress...

  • 发布于 2021-04-13 13:28
  • 阅读 ( 201 )

Wallbag是一个自托管的ReadIt-later服务

以后再看吧,Pocket和Instapaper之类的应用程序很不错,但要想使用它们,你就得听从那些应用程序设计师的心血来潮。如果你更愿意主持你自己的类似服务,Wallabag就是这么做的。Wallbag的工作原理几乎与Instapaper类似,但它是托管...

  • 发布于 2021-05-21 09:20
  • 阅读 ( 142 )

我如何控制和主持我自己的照片在线?

...以将照片存储在任何你喜欢的地方,而无需处理数据库或应用程序引擎,Trovebox为你提供了一个简单的工具来组织、共享照片,甚至在你认为合适的时候限制对照片的访问。如果你是喜欢自己开发的类型,你可以使用Trovebox的开...

  • 发布于 2021-05-22 10:53
  • 阅读 ( 203 )
iotuqdx834
iotuqdx834

0 篇文章

相关推荐