Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder
简介
这款软件主要作用是会自动保存书签当前页的离线数据,方便我们有时候存个书签,以后想去看的时候,啊嘞,打不开404了。。。
本地搭建Hoarder书签管理器的优点:
- 可以本地存储书签页网页,避免书签以后想访问不了又网页消失了的404错误
- 配备AI智能标签和全文搜索功能,自动获取链接标题、描述和图片,可以更加方便的查找包含书签网页内容的目标
- 将书签整理进列表:自定义分类,轻松管理大量内容
- 随同nas备份,安全有保障
-
搭配浏览器插件,收藏书签也方便
官方网站:https://hoarder.app/
开源主页:https://github.com/hoarder-app/hoarder?tab=readme-ov-file
本项目会同时运行5个软件,软件组关系图如下:
安装搭建
本次部署还是在飞牛nas的docker compose环境下,其他nas需对应修改映射目录部署,最新版作者删减了2个容器,我原来布置的时候有5个之多
services:
web:
image: ghcr.io/hoarder-app/hoarder:release
restart: unless-stopped
privileged: true # 拥有容器内命令执行的高权限
volumes:
./data:/data
ports:
3000:3000
env_file:
.env
environment:
MEILI_ADDR: http://meilisearch:7700
BROWSER_WEB_URL: http://chrome:9222
# OPENAI_API_KEY: ...
DATA_DIR: /data
NPM_CONFIG_REGISTRY: https://registry.npm.taobao.org/
chrome:
image: gcr.lank8s.cn/zenika-hub/alpine-chrome:123
restart: unless-stopped
command:
--no-sandbox
--disable-gpu
--disable-dev-shm-usage
--remote-debugging-address=0.0.0.0
--remote-debugging-port=9222
--hide-scrollbars
meilisearch:
image: getmeili/meilisearch:v1.6
restart: unless-stopped
env_file:
.env
environment:
MEILI_NO_ANALYTICS: "true"
volumes:
./meilisearch:/meili_data
下面环境变量文件.env需要上传到项目文件夹里,txt编辑后重命名为.env
NEXTAUTH_SECRET=btjLioG8QFVsxJAiXdiUO55wST4v6lQzpD5PRsz7ny7MLavG
MEILI_MASTER_KEY=OWNhcZ7souiAQil5dpBfO5CWGkHXyZW9kKoF5kMEQ9d3Ms/d
NEXTAUTH_URL=http://192.168.1.112:3000/
#这里填自己的nasip+映射端口
CRAWLER_FULL_PAGE_SCREENSHOT=true
CRAWLER_FULL_PAGE_ARCHIVE=true
CRAWLER_JOB_TIMEOUT_SEC=180
#下面的是ai打标签的,可以先不管
#OPENAI_BASE_URL=http://192.168.1.112:19090/v1
#OPENAI_API_KEY=sk-12345678
#INFERENCE_TEXT_MODEL=ERNIE-Speed-128K
#INFERENCE_IMAGE_MODEL=ERNIE-Speed-128K
NASIP:3000访问成功
不是中文的
list这里添加书签列表
chrome插件下载:
https://www.chajianxw.com/product-tool/90367.html
firefox的插件也是有的:
https://addons.mozilla.org/en-US/firefox/addon/hoarder/
手机端下载:
https://docs.hoarder.app/quick-sharing/
chrome插件安装好后
填入nasip和端口
填入前面注册的email和密码
把插件固定在地址栏一行,点击插件图标,就是保存当前书签
就把百度添加到了书签列表
我之前调试的时候这里随便保存了个内容多一点的网页标签
展开按钮点开来,缓存内存是这样的
快照内容是这样的
发现内容缓存格式及内容数量和原网页差了些,快照也只保存的第一页
看了下官方文档,原来是默认设置只保存一页,内容页也需要另外配置,这个他怎么不在设置里添加个选项呢
当然小孩子才做选择,我肯定全要的,虽然会更费资源,nas还怕空间不够么
后来在.env配置里增加了如下:
CRAWLER_FULL_PAGE_SCREENSHOT=ture
#这个是全网页截图的,是否存储整个页面的屏幕截图。默认情况下处于禁用状态,因为它可能会导致更高的磁盘使用率。如果禁用,屏幕截图将仅包含页面的可见部分
CRAWLER_FULL_PAGE_ARCHIVE=ture
#这个是保存全网页内容的,是否存储页面的完整本地副本。默认情况下处于禁用状态,因为它可能会导致更高的磁盘使用率。如果禁用,则仅存档页面的可读文本。
#相对应的还要调整下下面这个参数,网页下载的超时时间
CRAWLER_JOB_TIMEOUT_SEC=180
调整后:
快照是全网页快照了
还能保存完整离线网页副本
当然前面的.env完整代码我是已经调整过了的
然后.env配置中还有最后面的4个参数
#OPENAI_BASE_URL=http://192.168.1.112:19090/v1
#OPENAI_API_KEY=sk-12345678
#INFERENCE_TEXT_MODEL=ERNIE-Speed-128K
#INFERENCE_IMAGE_MODEL=ERNIE-Speed-128K
是ai添加书签标签的,因为内容过多,说实话也不是非常必须的,反正书签管理器有搜索功能就行,这个hoarder支持全网页内容搜索,我这里简单测试了下,没有问题
ai添加书签标签有需要下次单独讲一篇
链接:https://gitee.com/hswz5525/dockercompose