level 6
宇佐见鸽子
楼主
因为gemini的ocr能力强得可怕,导致我感觉根本不需要其他东西,于是实验性的写了下这个,后面或许可以引入其他东西加强文本框能力。
优点:
大小仅几十k,除了要pip安装几个简单依赖外不需要其他东西,也和电脑配置没关系。
有完整的GUI操作页面。
横竖排、错误方向的文本、手写文本都能精准识别,基于全图的文本理解能让ai翻译质量更高。
支持术语表功能,可以自定义文本样式,译文可简单通过gui调整位置,内容可以改,识别出来的原文可以也可以复制。
缺点:
刚需且仅支持gemini的api,也因为这个原因要魔法才能用。
文本框位置不够准确,或需要自己调整。
效果图:







2025年05月12日 14点05分
1
优点:
大小仅几十k,除了要pip安装几个简单依赖外不需要其他东西,也和电脑配置没关系。
有完整的GUI操作页面。
横竖排、错误方向的文本、手写文本都能精准识别,基于全图的文本理解能让ai翻译质量更高。
支持术语表功能,可以自定义文本样式,译文可简单通过gui调整位置,内容可以改,识别出来的原文可以也可以复制。
缺点:
刚需且仅支持gemini的api,也因为这个原因要魔法才能用。
文本框位置不够准确,或需要自己调整。
效果图:







