项目简介

设计背景

为什么做这个项目

在社交媒体日益盛行的时期,许多人在分享照片时常常苦恼于如何配文,本项目让每张照片都能轻松配上得当的文案。

零根本搞定案牍生成应用半小时包教包会大年夜模型摇摇乐教程来啦

供应了什么能力

结合了飞桨图像识别和文心大模型的处理技能,能够智能剖析照片内容,并根据剖析结果天生有创意的文案。

办理了什么问题

用户上传照片,一键自动天生文案,办理了用户在分享照片时“想不到文案”这一问题。

效果展示

小红书风格:本日去看了海洋馆,写一篇小红书推文!

近代诗歌风格:看到良辰美景,想要吟诗作赋一首

设计思路

交互逻辑

1.上传图片

2.选择风格

3.天生文案

数据流逻辑

1.上传图片

2.图像识别、OCR识别

3.得到图片关键信息

4.风格选择

5.Prompt模版适配

6.文心一言处理Prompt+图片关键信息

7.输出文案

实现流程

根据不同AI原生运用处景,可以环绕以下3点设计产品功能:

支持用户上传图片支持选择文案风格支持自动天生文案

环境准备

请不才面三选一即可,如果您已经有Python3.x干系环境可直接进行下一步。

1.飞桨星河社区:

在线利用免费的 GPU 资源,Notebook 开拓教程:https://www.bilibili.com/video/BV1Lw411n7oU

2.Anaconda 百口桶:

已包含 Python 和一些库,先容、安装及利用教程:https://zhuanlan.zhihu.com/p/32925500

3.Python 官方网站:

https://www.python.org/ 进行下载安装。

Gradio 根本框架搭建

为什么选择 Gradio 作为 AI 的 UI 工具?

1.基于 Python:Gradio 是基于 Python 开拓的库,利用 Gradio 作为 UI 工具避免频繁切换繁芜措辞。

2.模块丰富:支持多种输入和输出类型,包括文本、图像、音频等,同时还供应了丰富的界面组件。

3.大略易用:快速构建交互式运用程序,无需繁琐的代码编写和繁芜的配置。

Gradio 官方参考文档:https://www.gradio.app/guides/quickstart

1.打开命令行界面:打开命令行界面(例如 Windows 上的命令提示符或 Mac 上的终端)。

2.利用 pip 安装 Gradio:在命令行界面中输入以下命令,按下回车实行:

在项目工程文件利用时,只需导入 gradio 库即可,示例:

示例运行效果图

✍️初版设计

利用大措辞模型天生代码:将需求见告文心一言,便快速天生 Gradio代码,并按照实际需求不断调度优化。

【用户】:

【回答】:

运行效果图

现在根本交互框架搭建完毕,支持图片上传、样式选择、提交打消按钮、转换文本输出模块。
接下来,结合实际业务流程补充代码模块。

功能设计与能力补齐

在产品设计中,须要利用图像识别和 OCR 能力进行图片剖析,大措辞模型的能力处理数据,下面将先容如何利用干系能力进行运用设计:

ERNIE Bot SDK

ERNIE Bot SDK 供应便捷易用的接口,可以调用文心一言的能力,包含文本创作、通用对话、语义向量、AI 作图等,详细支持功能如下(更多功能持续更新中):

对话补全(Chat Completion)语义向量(Embedding)文生图 (Image Generation)函数调用 (Function Calling)

先容地址:https://aistudio.baidu.com/cooperate/yiyan

如何完成身份鉴权并利用?

在飞桨星河社区个人中央的访问令牌页面,大家可以获取到自己的 Access Token。

鉴权信息获取完全流程:https://github.com/PaddlePaddle/ERNIE-Bot-SDK/blob/develop/docs/authentication.md

快速开始

1.打开命令行界面:打开命令行界面(例如 Windows 上的命令提示符或 Mac 上的终端)。

2.利用 pip 安装 ERNIE Bot:在命令行界面中输入以下命令,按下回车实行:

在项目工程中,只需导入ERNIE Bot库即可,示例:

✍️ 初版设计

在这里将文心大模型的能力封装成一个 def 方法,便于其他模块进行调用交互:

运行测试结果图

百度智能云的图像识别功能可以精准识别超过十万种物体和场景,包含10余项高精度的识图能力并供应相应的API做事,充分知足各种开拓者和企业用户的运用需求。
可以将这部分的代码直接放到项目工程中,作为一个新的文件存储,并在主代码模块中进行模块引用,或者也可以将其封装成独立的函数方法。

在这里,将图像识别模型能力封装成一个 def 方法,便于其他模块进行调用交互:

截止目前,已经形成一个较为完全的项目构造:

运用支配上线

创建项目

进入飞桨星河社区创建Notebook项目。

启动环境

点击启动环境后,选择得当的运行资源进入项目内。

上传文件

进入环境后,可以看到BML CodeLab界面,在左侧菜单栏,将项目干系确当地文件上传即可。

依赖安装

缺什么库安装什么即可。

1.新建启动页,打开终端页面

2.利用 pip 安装 ERNIE Bot:在命令行界面中输入以下命令,按下回车实行:

3.创建requirements.txt文件,便于后续运用支配利用,文件仅限输入依赖 erniebot 即可,若有多个依赖库可以换行输入。

创建运用Gradio

利用Gradio运用可以在线运行并预览,比较直接运行main.py会更方便的看到动态运行的效果。

运用支配

首次支配时,弹窗内选择“支配新运用”。

填写运用信息后,即可提交支配。

提交后可以在右下角看到支配的状态信息,成功后则可以进行体验了

心动不如行动

看完本项目教程,你对「大模型摇摇乐」活动是不是更心动了?还不赶紧来参加!

点击图片理解活动详情

是不是厌倦了呆板的开拓生活,想来点新鲜刺激的事情?赶紧加入「大模型摇摇乐」活动吧!
开释你的创意,摇出创意,摇出喜好,摇出礼品!
无论你是代码新手还是技能大咖,只要你对大措辞模型充满好奇心,我们都欢迎你的加入!