V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
garywill
V2EX  ›  奇思妙想

用视觉和 AI 把 Vimium 功能弄到全屏幕任意按钮

  •  2
     
  •   garywill · 2023-05-22 08:38:09 +08:00 · 2086 次点击
    这是一个创建于 420 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不管你用过 vim 没,vimium 应该体验过

    搞的一个实验性玩意,目前只需要 300 行 python 代码,能粗浅地识别屏幕上任意位置的“物件”,并用键盘去点击它们

    demo.gif

    现在就只是简单地用了 opencv 的 MSER 算法

    使用视觉的优势有:

    1. 跨平台
    2. 无论 GUI 库
    3. 无论 Accesebility API 是否可用

    也已经有其他的能够在 Mac/Windows 上通过某些 API 找到按钮的项目(在 readme 里列出了)

    虽然这种类型的软件里,好像只有浏览器上的 Vimium 成功了。其他的者还算在实验状态

    若能把 AI 、API 、视觉三者结合,可能会比较好用。目前的演示看起来界面有点杂乱,想像改进后应该会好吧

    各位有什么 idea 来 share 一下

    20 条回复    2023-05-23 12:11:04 +08:00
    garywill
        1
    garywill  
    OP
       2023-05-22 08:38:34 +08:00   ❤️ 1
    SWALLOWW
        2
    SWALLOWW  
       2023-05-22 09:44:59 +08:00
    挺好的
    expkzb
        3
    expkzb  
       2023-05-22 10:06:46 +08:00   ❤️ 1
    会不会在辅助残疾人的功能里已经有类似的实现了
    7gugu
        4
    7gugu  
       2023-05-22 10:41:25 +08:00
    图有点小,看不清楚具体的作用
    garywill
        5
    garywill  
    OP
       2023-05-22 10:52:20 +08:00
    @7gugu 把图点开呀
    garywill
        6
    garywill  
    OP
       2023-05-22 10:52:57 +08:00
    @expkzb 有吗?残疾辅助不是干朗读文字之类的事吗?
    7gugu
        7
    7gugu  
       2023-05-22 10:55:24 +08:00
    @garywill 点开很糊,你那边能看清?
    7gugu
        8
    7gugu  
       2023-05-22 10:56:12 +08:00
    @garywill 噢,我的问题,插件默认只是放大了,没发现可以跳到图床上
    zhangdszq
        9
    zhangdszq  
       2023-05-22 11:46:11 +08:00
    PRStarDust
        10
    PRStarDust  
       2023-05-22 12:44:47 +08:00
    之前用过一些全桌面的,要么速度不够快,要么就是准确度不够,经常有些按钮识别不出来或者错位
    PRStarDust
        11
    PRStarDust  
       2023-05-22 12:44:59 +08:00
    先 star 一波
    zagfai
        12
    zagfai  
       2023-05-22 14:41:09 +08:00
    我也有过这个想法,哈哈哈
    iX8NEGGn
        13
    iX8NEGGn  
       2023-05-22 16:43:48 +08:00 via iPhone
    哈哈,我也有过这想法,但界面一复杂后,一是识别正确率问题,二是就算识别正确也眼花潦乱,后来还是采用了 “眼动仪+ autohotkey + AI 修正” 来抛弃鼠标
    anjiannian
        14
    anjiannian  
       2023-05-22 16:52:42 +08:00 via Android
    这个之前 vimperator 和 tridactyl 都有实现,他们用的是字母或者拼音的检索,不用二次确认选中的元素是 DE 还是 DF ,比如需要选择 vimium ,可以<leader>+f 之后直接敲 vim ,多个可以继续敲 ium 筛选
    remenberl
        15
    remenberl  
       2023-05-22 18:56:00 +08:00 via Android
    mac 上有 vimac 和 homerow.app 两者是一个作者
    garywill
        16
    garywill  
    OP
       2023-05-22 19:32:24 +08:00
    @iX8NEGGn 哇你用了眼动仪?! 最终产品使用体验如何,快让我们看一看
    20015jjw
        17
    20015jjw  
       2023-05-22 19:40:16 +08:00 via iPhone
    nice
    hackpro
        18
    hackpro  
       2023-05-23 01:30:24 +08:00 via iPhone
    @garywill #1 这个是 chrome extension 吗
    是 python runas backgroud service 还是怎么用啊😄
    garywill
        19
    garywill  
    OP
       2023-05-23 10:01:05 +08:00
    @hackpro 不是 extension ,就是直接在 windows/Linux 桌面上运行那个 python 文件
    hackpro
        20
    hackpro  
       2023-05-23 12:11:04 +08:00
    @garywill 明白 谢谢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5131 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 07:19 · PVG 15:19 · LAX 00:19 · JFK 03:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.