Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第1张图片

简介

这款软件主要作用是会自动保存书签当前页的离线数据,方便我们有时候存个书签,以后想去看的时候,啊嘞,打不开 404 了。。。

本地搭建 Hoarder 书签管理器的优点:

  • 可以本地存储书签页网页,避免书签以后想访问不了又网页消失了的 404 错误
  • 配备 AI 智能标签和全文搜索功能,自动获取链接标题、描述和图片,可以更加方便的查找包含书签网页内容的目标
  • 将书签整理进列表:自定义分类,轻松管理大量内容
  • 随同 nas 备份,安全有保障
  • 搭配浏览器插件,收藏书签也方便

官方网站:https://hoarder.app/

开源主页:https://github.com/hoarder-app/hoarder?tab=readme-ov-file

本项目会同时运行 5 个软件,软件组关系图如下:

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第2张图片

 

安装搭建

本次部署还是在飞牛 nas 的 docker compose 环境下,其他 nas 需对应修改映射目录部署,最新版作者删减了 2 个容器,我原来布置的时候有 5 个之多

services:  web:    image: ghcr.io/hoarder-app/hoarder:release    restart: unless-stopped    privileged: true # 拥有容器内命令执行的高权限    volumes:      - ./data:/data    ports:      - 3000:3000    env_file:      - .env    environment:      MEILI_ADDR: http://meilisearch:7700      BROWSER_WEB_URL: http://chrome:9222      # OPENAI_API_KEY: ...      DATA_DIR: /data      NPM_CONFIG_REGISTRY: https://registry.npm.taobao.org/  chrome:    image: gcr.lank8s.cn/zenika-hub/alpine-chrome:123    restart: unless-stopped    command:      - --no-sandbox      - --disable-gpu      - --disable-dev-shm-usage      - --remote-debugging-address=0.0.0.0      - --remote-debugging-port=9222      - --hide-scrollbars  meilisearch:    image: getmeili/meilisearch:v1.6    restart: unless-stopped    env_file:      - .env    environment:      MEILI_NO_ANALYTICS: "true"    volumes:      - ./meilisearch:/meili_data

下面环境变量文件.env 需要上传到项目文件夹里,txt 编辑后重命名为.env

NEXTAUTH_SECRET=btjLioG8QFVsxJAiXdiUO55wST4v6lQzpD5PRsz7ny7MLavGMEILI_MASTER_KEY=OWNhcZ7souiAQil5dpBfO5CWGkHXyZW9kKoF5kMEQ9d3Ms/dNEXTAUTH_URL=http://192.168.1.112:3000/#这里填自己的 nasip+映射端口CRAWLER_FULL_PAGE_SCREENSHOT=trueCRAWLER_FULL_PAGE_ARCHIVE=trueCRAWLER_JOB_TIMEOUT_SEC=180#下面的是 ai 打标签的,可以先不管#OPENAI_BASE_URL=http://192.168.1.112:19090/v1#OPENAI_API_KEY=sk-12345678#INFERENCE_TEXT_MODEL=ERNIE-Speed-128K#INFERENCE_IMAGE_MODEL=ERNIE-Speed-128K

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第3张图片

NASIP:3000 访问成功

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第4张图片

不是中文的

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第5张图片

list 这里添加书签列表

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第6张图片

chrome 插件下载:

https://www.chajianxw.com/product-tool/90367.html

firefox 的插件也是有的:

https://addons.mozilla.org/en-US/firefox/addon/hoarder/

手机端下载:

https://docs.hoarder.app/quick-sharing/

chrome 插件安装好后

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第7张图片

填入 nasip 和端口

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第8张图片

填入前面注册的 email 和密码

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第9张图片

把插件固定在地址栏一行,点击插件图标,就是保存当前书签

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第10张图片

就把百度添加到了书签列表

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第11张图片

我之前调试的时候这里随便保存了个内容多一点的网页标签

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第12张图片

展开按钮点开来,缓存内存是这样的

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第13张图片

快照内容是这样的

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第14张图片

发现内容缓存格式及内容数量和原网页差了些,快照也只保存的第一页

看了下官方文档,原来是默认设置只保存一页,内容页也需要另外配置,这个他怎么不在设置里添加个选项呢

当然小孩子才做选择,我肯定全要的,虽然会更费资源,nas 还怕空间不够么

后来在.env 配置里增加了如下:

CRAWLER_FULL_PAGE_SCREENSHOT=ture

#这个是全网页截图的,是否存储整个页面的屏幕截图。默认情况下处于禁用状态,因为它可能会导致更高的磁盘使用率。如果禁用,屏幕截图将仅包含页面的可见部分

CRAWLER_FULL_PAGE_ARCHIVE=ture

#这个是保存全网页内容的,是否存储页面的完整本地副本。默认情况下处于禁用状态,因为它可能会导致更高的磁盘使用率。如果禁用,则仅存档页面的可读文本。

#相对应的还要调整下下面这个参数,网页下载的超时时间

CRAWLER_JOB_TIMEOUT_SEC=180

调整后:

快照是全网页快照了

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第15张图片

还能保存完整离线网页副本

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第16张图片

当然前面的.env 完整代码我是已经调整过了的

然后.env 配置中还有最后面的 4 个参数

#OPENAI_BASE_URL=http://192.168.1.112:19090/v1#OPENAI_API_KEY=sk-12345678#INFERENCE_TEXT_MODEL=ERNIE-Speed-128K#INFERENCE_IMAGE_MODEL=ERNIE-Speed-128K

是 ai 添加书签标签的,因为内容过多,说实话也不是非常必须的,反正书签管理器有搜索功能就行,这个 hoarder 支持全网页内容搜索,我这里简单测试了下,没有问题

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第17张图片

Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder - 第18张图片

ai 添加书签标签有需要下次单独讲一篇


本篇相关 yml 等文件下载:

链接:https://gitee.com/hswz5525/dockercompose

 

《Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder》留言数:0

发表留言