白喵梦语 白喵梦语
关注数: 0 粉丝数: 7 发帖数: 43 关注贴吧数: 35
国内没上线的苹果智能,我做出来了? 通过快捷指令,将截屏的图片发送给通义的api,或将截屏后提取的文本发送给通义的api或chatglm的api,实现ai对屏幕内容或图片内容的理解和阅读。(图一效果)快捷指令链接:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwww.icloud.com%2Fshortcuts%2Fc9a85b293d714371bfba3874cb0914a4&urlrefer=f2e8824e4fac5cca5e97474f1bb92b77 操作步骤: 注意:通义千问的模型用完免费token额度后会收费,具体收费标准请参考阿里云(一般为1k-token收费0.008) 1.https://bailian.console.aliyun.com/?apiKey=1#/api-key(通义千问apikey获取地址)https://bigmodel.cn/usercenter/proj-mgmt/apikeys(chatglm的apikey获取地址)将获取到的key分别填入列表中(图二),一定要按照顺序填入,顺序不对将无法运行。2.选择要调用的模型(图三),默认为3,如果要使用图片识别功能请选择2(用的阿里的两个模型分别为qwen-vl-plus-latest和qwen-plus-1127,有免费的token额度,可以自己替换为阿里的其他模型)(有vl为图片理解模型,没有vl的为普通大模型)3.选择1或3的模型调用也可以使用图片识别功能,但因为是通过对截屏内的文字进行提取后发给大模型,无法识别纯图片。 4.显示输出结果页面,取消按钮为关闭快捷指令,完成按钮为继续聊天,可以提问图片的更多详细问题(以及默认开启模型联网功能,如有需要,可自行关闭) 5.可以将快捷指令加入控制中心,控制中心中添加快捷指令按钮,选择智能识图(图四),便可以实现在控制中心点击按钮后对当前页面进行识别。6.输入以“识别”开头的任何文本,或输入“新聊天”,将会重新开始聊天。输入“退出聊天”将会退出聊天。 7.大模型的图片识别功能可以帮助视障群体看到手机上的媒体和图片内容,故加入视障模式开关,该模型将会更详细的描述图片内容,并在输出结果时给予振动提示。(请选择模型2) 项目链接:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fgithub.com%2Fbaimiao754%2FQwen-Siri&urlrefer=12de92b8eedb73901d78e2843b4f7938 基于@乐阳YueYang大佬项目改进而成,原项目地址https://github.com/Yue-Yang/ChatGPT-Siri,请支持原项目作者
1 下一页