Nas上搭建自己的离线书签管理器(可自动保存完整网页副本):Hoarder

20240918030824568

简介

这款软件主要作用是会自动保存书签当前页的离线数据,方便我们有时候存个书签,以后想去看的时候,啊嘞,打不开404了。。。

本地搭建Hoarder书签管理器的优点:

  • 可以本地存储书签页网页,避免书签以后想访问不了又网页消失了的404错误
  • 配备AI智能标签和全文搜索功能,自动获取链接标题、描述和图片,可以更加方便的查找包含书签网页内容的目标
  • 将书签整理进列表:自定义分类,轻松管理大量内容
  • 随同nas备份,安全有保障
  • 搭配浏览器插件,收藏书签也方便

官方网站:https://hoarder.app/

开源主页:https://github.com/hoarder-app/hoarder?tab=readme-ov-file

本项目会同时运行5个软件,软件组关系图如下:

20240918030829816

 

安装搭建

本次部署还是在飞牛nas的docker compose环境下,其他nas需对应修改映射目录部署,最新版作者删减了2个容器,我原来布置的时候有5个之多

services:  web:    image: ghcr.io/hoarder-app/hoarder:release    restart: unless-stopped    privileged: true # 拥有容器内命令执行的高权限    volumes:      - ./data:/data    ports:      - 3000:3000    env_file:      - .env    environment:      MEILI_ADDR: http://meilisearch:7700      BROWSER_WEB_URL: http://chrome:9222      # OPENAI_API_KEY: ...      DATA_DIR: /data      NPM_CONFIG_REGISTRY: https://registry.npm.taobao.org/  chrome:    image: gcr.lank8s.cn/zenika-hub/alpine-chrome:123    restart: unless-stopped    command:      - --no-sandbox      - --disable-gpu      - --disable-dev-shm-usage      - --remote-debugging-address=0.0.0.0      - --remote-debugging-port=9222      - --hide-scrollbars  meilisearch:    image: getmeili/meilisearch:v1.6    restart: unless-stopped    env_file:      - .env    environment:      MEILI_NO_ANALYTICS: "true"    volumes:      - ./meilisearch:/meili_data

下面环境变量文件.env需要上传到项目文件夹里,txt编辑后重命名为.env

NEXTAUTH_SECRET=btjLioG8QFVsxJAiXdiUO55wST4v6lQzpD5PRsz7ny7MLavGMEILI_MASTER_KEY=OWNhcZ7souiAQil5dpBfO5CWGkHXyZW9kKoF5kMEQ9d3Ms/dNEXTAUTH_URL=http://192.168.1.112:3000/#这里填自己的nasip+映射端口CRAWLER_FULL_PAGE_SCREENSHOT=trueCRAWLER_FULL_PAGE_ARCHIVE=trueCRAWLER_JOB_TIMEOUT_SEC=180#下面的是ai打标签的,可以先不管#OPENAI_BASE_URL=http://192.168.1.112:19090/v1#OPENAI_API_KEY=sk-12345678#INFERENCE_TEXT_MODEL=ERNIE-Speed-128K#INFERENCE_IMAGE_MODEL=ERNIE-Speed-128K

20240918030831103

NASIP:3000访问成功

20240918030832162

不是中文的

20240918030833555

list这里添加书签列表

20240918030835651

chrome插件下载:

https://www.chajianxw.com/product-tool/90367.html

firefox的插件也是有的:

https://addons.mozilla.org/en-US/firefox/addon/hoarder/

手机端下载:

https://docs.hoarder.app/quick-sharing/

chrome插件安装好后

20240918030836237

填入nasip和端口

20240918030837398

填入前面注册的email和密码

20240918030838950

把插件固定在地址栏一行,点击插件图标,就是保存当前书签

20240918030839473

就把百度添加到了书签列表

20240918030841206

我之前调试的时候这里随便保存了个内容多一点的网页标签

20240918030842721

展开按钮点开来,缓存内存是这样的

20240918030844412

快照内容是这样的

20240918030846939

发现内容缓存格式及内容数量和原网页差了些,快照也只保存的第一页

看了下官方文档,原来是默认设置只保存一页,内容页也需要另外配置,这个他怎么不在设置里添加个选项呢

当然小孩子才做选择,我肯定全要的,虽然会更费资源,nas还怕空间不够么

后来在.env配置里增加了如下:

CRAWLER_FULL_PAGE_SCREENSHOT=ture

#这个是全网页截图的,是否存储整个页面的屏幕截图。默认情况下处于禁用状态,因为它可能会导致更高的磁盘使用率。如果禁用,屏幕截图将仅包含页面的可见部分

CRAWLER_FULL_PAGE_ARCHIVE=ture

#这个是保存全网页内容的,是否存储页面的完整本地副本。默认情况下处于禁用状态,因为它可能会导致更高的磁盘使用率。如果禁用,则仅存档页面的可读文本。

#相对应的还要调整下下面这个参数,网页下载的超时时间

CRAWLER_JOB_TIMEOUT_SEC=180

调整后:

快照是全网页快照了

20240918030848139

还能保存完整离线网页副本

20240918030851619

当然前面的.env完整代码我是已经调整过了的

然后.env配置中还有最后面的4个参数

#OPENAI_BASE_URL=http://192.168.1.112:19090/v1#OPENAI_API_KEY=sk-12345678#INFERENCE_TEXT_MODEL=ERNIE-Speed-128K#INFERENCE_IMAGE_MODEL=ERNIE-Speed-128K

是ai添加书签标签的,因为内容过多,说实话也不是非常必须的,反正书签管理器有搜索功能就行,这个hoarder支持全网页内容搜索,我这里简单测试了下,没有问题

20240918030854506

20240918030856684

ai添加书签标签有需要下次单独讲一篇


本篇相关yml等文件下载:

链接:https://gitee.com/hswz5525/dockercompose

 

阅读剩余
THE END