Ayahuasec 最近的时间轴更新
Ayahuasec

Ayahuasec

V2EX 第 368789 号会员,加入于 2018-12-07 15:17:58 +08:00
今日活跃度排名 6889
求推荐软件,用于方便的绘制详细的数据流图
问与答  •  Ayahuasec  •  2023-07-31 19:03:23 PM  •  最后回复来自 Ayahuasec
4
讨论一下 AI 的安全问题
  •  1   
    OpenAI  •  Ayahuasec  •  2023-04-04 21:45:21 PM  •  最后回复来自 Ayahuasec
    14
    两端都有 IPv6 防火墙,如何点对点连接?
    问与答  •  Ayahuasec  •  2023-02-23 23:28:47 PM  •  最后回复来自 Ayahuasec
    5
    有刷了最新版 MIUI 开发版的老哥帮忙看一下 swap 设置吗
    问与答  •  Ayahuasec  •  2021-11-11 11:27:30 AM  •  最后回复来自 AoEiuV020
    1
    有没有什么 Chrome 插件能够自动保存浏览的网页
    Chrome  •  Ayahuasec  •  2021-08-28 11:40:10 AM  •  最后回复来自 fucku
    16
    怎么在微信里打开本地网页
    问与答  •  Ayahuasec  •  2020-08-18 19:33:37 PM  •  最后回复来自 Ayahuasec
    4
    Linux 有负载率没有 CPU 占用没有磁盘 IO 等待,怎么排查问题
    问与答  •  Ayahuasec  •  2020-06-25 01:21:08 AM  •  最后回复来自 vk42
    1
    Ayahuasec 最近回复了
    21 天前
    回复了 getadoggie 创建的主题 OpenAI 为什么 GPT 连算数也会算错呢?
    用 OpenWebui 跑的 qwen2.5 14b ,启用计算器工具,看起来就能算对了:

    根据提供的上下文,这些数字相加的和是 64 。所以答案是 64 。

    要让语言模型做准确的计算,还是得给一个计算器让它按🤣
    openwrt 那个,之前整过一个野路子:主机上把路由器固件的根分区解包出来,然后用 chroot 和 qemu-static 直接进入这个根分区,opkg 装 gcc ,源码放进去,编译需要的软件。最后把编译产物拷贝到路由器上,一般直接就能跑。

    这个操作的优点是不用折腾交叉编译环境,有的时候折腾交叉编译环境都要搞一天,或者有些固件不太好找配套的编译环境。

    缺点就是主机模拟其他架构的程序,跑编译很慢,只适合偶尔用。
    推荐一个这个

    https://apps.apple.com/us/app/ti-nspire-cas/id545351700

    以前高中开始一直用到本科毕业,就是价格有点小贵
    TP 的家用产品稳定性挺好,有一台 WDR4310 用了可能有六七年了到现在还很稳定。5 口的千兆交换机当时干到只有几十块的时候买了一台,到现在也五六年了没出过问题。
    但是感觉 TP 企业级交换机有点不太行,用过一次 48 口的非管理型千兆交换机,当时部署完测试的时候各种丢包断流,最后一路排查到只插 1 台台式机和 1 台服务器,都会 ping 丢包和长达几十秒的断流,多次更换网口也是一样,而台式机和服务器直连是正常的。最后申请退掉这台交换机,换了个其他牌子的才把内网搞定。
    88 天前
    回复了 cwek 创建的主题 Linux 一个关于 md 和 lvm 的问题
    刚格式化完的话,可能是 ext4 的 lazy init 导致的,以前有碰到过一次这个问题,导致几块硬盘一直不休眠。印象里是 mkfs.ext4 加一个啥参数可以立即把初始化数据写完的,而不是慢慢写。
    @zzz22333 是的。但是至少虚拟系统是可以跑在带有硬件支持的 arm64 虚拟化环境下的,跑起来会比直接模拟整个 x86 虚拟机来得快一些。
    可以试试装 arm 版的 linux 虚拟机,然后上 qemu-binfmt 跑 x86 的可执行程序?

    之前这么干过一次,在 arm 板子上跑只提供 x86 二进制的程序,效果还行。这样搞的话系统还是 arm 的,只是用户态要走 x86 转译,效率比直接虚拟化整个 x86 系统会高一点。
    @godqueue 现在软件兼容性上,AMD 和 Intel 没有太大区别吧。我感觉支持 AVX 然后内存带宽不差、内存容量够的话,CPU 跑起来 int4 的 14b 左右的模型,虽说不算快但是起码可用了。

    虚拟机的话主要考虑 GPU 能不能直通进去,或者虚拟机内部要能调用到主机的 CUDA ,不然 GPU 加速跑不起来。
    用 7840HS+RTX4050Laptop 的笔记本跑过 llama.cpp ,卸载了 20 层到 GPU 上,把 context 限制在 2048 的话,跑 q4km 量化的 14b 模型,日志文件里记录的一次速度如下:
    llama_print_timings: prompt eval time = 1300.29 ms / 385 tokens ( 3.38 ms per token, 296.09 tokens per second)
    llama_print_timings: eval time = 52142.44 ms / 331 runs ( 157.53 ms per token, 6.35 tokens per second)

    有 GPU 加速的话 Prompt Eval 的速度会非常快,基本上发出几百个字的文本给模型以后,马上就能开始回复了。纯 CPU 计算的话 Prompt Eval 的速度只有 10 Tokens/s 左右,体现在应用上就是发了一段比较长的文本给模型要等很久才开始回复( 500 字可能要等半分钟的样子)。

    但是 RTX4050 的显存比较小,如果要开启比较大的 context 的话,就只能往显存上放更少的层,模型的输出速度就会慢下来。不过我感觉可用性还是挺好的,至少出门在动车上的时候连不上网就可以直接问本地模型了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5574 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 696ms · UTC 08:26 · PVG 16:26 · LAX 01:26 · JFK 04:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.