互联网是一个巨大的知识宝库。但它是转瞬即逝的,也不能保证你喜欢的内容将来会出现。如果您不能承受丢失这些内容的代价,可以使用web存档工具来存储网页的副本。
许多人使用read later服务来保存web文章。这些应用程序最适合基于文本的内容,不能正确处理复杂的网页设计或媒体。想要更多的控制吗?
让我们看看如何在计算机中创建Instapaper或Pocket的克隆,而不会丢失任何网页资源。
ArchiveBox是一个开源解决方案,它可以帮助您托管自己的替代归档服务,如Wayback机器。你不会放弃你的隐私或者被锁在一个你无法控制的服务中。
它获取要存档的url列表,并以多种格式创建内容的本地可浏览HTML克隆。它包括HTML格式的本地副本、页面截图、PDF文件和WARC(Web存档)。
即使原来的网页在将来消失了,这些副本也会留在你身边。
ArchiveBox是用python3编写的。它还使用Wget、headlesschrome、youtubedl和其他Unix工具等依赖项来保存网页。你不需要一个持续运行的后端服务器。每次您想导入新链接并更新静态输出时,只需运行它。
归档完成后,可以打开生成的输出/索引.html在浏览器中查看存档。
ArchiveBox正式支持以下操作系统:
ArchiveBox是一种灵活的web存档工具。必须安装以下依赖项并满足最低要求。
档案箱的设置有两种方式:自动和手动。
在自动方法中,助手脚本将安装应用程序及其依赖项。但是如果出现任何错误,您将无法解决问题。最好手动安装应用程序。
为了演示,我们将使用macos10.14.6。
安装依赖项的最佳方法是通过名为Homebrew的包管理器。要了解它的基本知识,请参阅本文中关于如何使用Homebrew安装Mac应用程序。
打开终端并键入
brew install python3 git wget curl youtube-dl brew cask install chromium(如果您已经在应用程序中安装了Google Chrome/Chromium,请跳过此步骤)
要检查所有依赖项的版本号,请键入
dependency app --version(用python3、wget、youtube dl等替换依赖关系应用程序)
所有read-later服务和浏览器都可以将书签导出为HTML文件。按照本文中有关如何从浏览器导出书签的说明进行操作。也可以将单个链接或URL列表保存在文本文件中。
从GitHub克隆repo。打开终端,然后键入
git clone https://github.com/pirate/ArchiveBox那么,
cd ArchiveBox/克隆此repo时,安装程序将在主目录中创建一个ArchiveBox文件夹。此文件夹包含所有主应用程序和配置文件。
如果要存档单个链接,请键入
echo 'https://example.com'| ./archive导航到ArchiveBox文件夹以查看新创建的输出文件夹。在这里,你会看到索引.html文件。
当您想保存多个链接(几十个或更多)时,最好将链接添加到文本文件中。应用程序将解析文件中的URL并将其存档。打开终端并键入
./archive [Path to Your File.txt]如果文件位于下载文件夹中,则路径将如下所示
./archive /Users/(Home directory name)/Downloads/links.txt等待几分钟/小时以完成此过程。要访问存档,请打开输出/索引.html在浏览器中。您可以按列排序,使用右上部分的框搜索标题,并在底部查看链接的总数。
单击“文件”列下的favicon以访问详细信息页面。您将找到指向屏幕截图中所示的单个文件格式的链接。同样的链接也会上传到存档.org.
同样,将Instapaper或Pocket链接导出为HTML文件。然后,输入
./archive ~/Downloads/instapaper-export.html您还可以从feed URL导入链接列表。但请记住,您可能会遇到太多的失败或会话超时。如果有成千上万个URL,最好将它们分成更小的文件以提高成功率。
默认设置在大多数情况下都有效,但是您可以调整某些重要参数以获得更多功能。配置文件位于
~/ArchiveBox/etc/ArchiveBox.conf.default注意:不要修改这个文件,因为只要你更新应用程序,它们就会被删除。要创建持久配置文件,请键入
cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.confcp命令将在主目录中创建配置文件的副本。默认情况下,该文件在目录中不可见。要取消隐藏,请按Cmd+Shift+Period。在TextEdit中打开配置文件。
ArchiveBox为您提供了许多选择。以下是一些重要的问题;
要了解有关配置详细信息的更多信息,请访问ArchiveBox配置以获取更多信息。
ArchiveBox生成的归档文件与任何可以承载静态HTML的提供程序兼容。例如,GitHub页面。
您还可以通过直接将输出文件夹上载到web目录,从家庭服务器或VPS提供服务。
确保您没有以CGI或PHP的形式运行任何内容,您只希望托管静态HTML文件。
托管您的存档既有优点也有缺点。当您从随机站点下载链接时,您必须了解在共享域中托管恶意CSS和JS文件的危险。你也可以把你的档案列入黑名单机器人.txt文件保持私有。
在过去的几年里,Web归档引起了人们的关注。它们记录网页的全部内容,包括源HTML、嵌入的图像、样式表和JavaScript代码。ArchiveBox正好适合web归档工具和服务的广泛类别。
如果你对Instapaper或Pocket感到失望,那么ArchiveBox是一个很好的选择。除了web文章之外,您可能还需要归档整个网站以脱机访问它们或保存它们的知识。如果你对此感兴趣,请阅读这篇关于如何下载任何网站进行离线阅读的文章。
...限。此外,它在你的博客上显示Wix广告。有免费的第三方应用程序,但图书馆远不如WordPress的全面。 ...
... 对于一个静态网站或小型网络应用程序,有免费的托管计划,可以让你在一瞬间上线运行。他们需要比付费主机多一点的设置,但这是一个值得的免费权衡。 ...
...果你想利用Zoho功能丰富的电子邮件套件和其他基于云的应用程序,你还是可以注册一个帐户的。 ...
...有,你会喜欢Disroot与EtherPad和EtherCalc的合作关系。这两个应用程序都允许您实时创建、共享和编辑文档和电子表格。 ...
...最重要的元素之一,因为它包含了所有频道、直接消息、应用程序集成等等。如果你的Slack工作区有几十个这些类别的条目,你很容易被它们淹没。 ...
...整的虚拟机、数据库、文件存储、备份以及用于移动和web应用程序的服务。 这个服务最初被命名为“windowsazure”,但后来被转换为“microsoftazure”,因为它可以处理的不仅仅是Windows。例如,您可以在Azure上运行Windows或Linux虚拟机...
...很好的方式在网上快速发布信息并与读者交流吗?下面是如何使用P2主题将WordPress转换成一个伟大的协作和交流平台。 什么是P2? WordPress是最流行的博客平台之一,我们已经研究了许多使用WordPress在线发布内容的方法。但WordPress...
以后再看吧,Pocket和Instapaper之类的应用程序很不错,但要想使用它们,你就得听从那些应用程序设计师的心血来潮。如果你更愿意主持你自己的类似服务,Wallabag就是这么做的。Wallbag的工作原理几乎与Instapaper类似,但它是托管...
...以将照片存储在任何你喜欢的地方,而无需处理数据库或应用程序引擎,Trovebox为你提供了一个简单的工具来组织、共享照片,甚至在你认为合适的时候限制对照片的访问。如果你是喜欢自己开发的类型,你可以使用Trovebox的开...