前言
大家用过ChatGPT的GPTs的同学,应该都知道它的厉害,它能上传你自己的模型,实现最接受你风格的AI,简单讲,就是可以利用已有数据,生成特定的自定义模型。可以上传自己的视频,文本,图片,等内容,今天就介绍一下最简单的入门爬虫,收集自己喜欢的数据,训练自己的AI模型。
项目
官方项目地址:https://github.com/builderio/gpt-crawler
官方有使用说明,这里再结合我自己的过程,记录一下。
有三种运行项目的方式,前提是你要安装好node.js>=16版本以上。
方式一:CMD
这个是最简单的,配置环境最少的
第一步,直接下载zip代码到本地,并解压
第二步,在资源管理器地址栏输入CMD,或者开始菜单进入的项目目录,确保已在项目目录下
![image-20231205102810578](https://oss.mailberry.com.cn/picgo/2023/03/image-20231205102810578.png?x-oss-process=image/watermark,text_TWFpbEJlcnJ5LmNvbS5jbg,type_ZmFuZ3poZW5naGVpdGk,size_18,shadow_50,t_70,g_se,x_10,y_10,color_ffffff)
第三步,输入以下命令安装项目
npm i
第四步,配置爬虫目录,编辑config.js文件 import { Config } from "./src/config";
export const defaultConfig: Config = {
url: "https://www.builder.io/c/docs/developers",
match: "https://www.builder.io/c/docs/**",
maxPagesToCrawl: 50,
outputFileName: "output.json",
};
url
:替换成你的目录地址
match
:目录下所有文件
maxPagestoCrawl
:50,这个是数量
outputFileName
:输出结果的文件名
第五步,运行项目
npm start
![image-20231201143205011](https://oss.mailberry.com.cn/picgo/2023/03/image-20231201143205011-1701743488346-1.png?x-oss-process=image/watermark,text_TWFpbEJlcnJ5LmNvbS5jbg,type_ZmFuZ3poZW5naGVpdGk,size_18,shadow_50,t_70,g_se,x_10,y_10,color_ffffff)
这样跑起来,就是在爬虫了,到最后会得到了个
![header_img](https://oss.mailberry.com.cn/picgo/2023/03/image-20231205103636572.png?x-oss-process=image/watermark,text_TWFpbEJlcnJ5LmNvbS5jbg,type_ZmFuZ3poZW5naGVpdGk,size_18,shadow_50,t_70,g_se,x_10,y_10,color_ffffff)
至此,已经爬虫数据保存在output-1.json文件里面了
方式二:GIT
先在任意目录右键,Git Bash Here
![image-20231205103941635](https://oss.mailberry.com.cn/picgo/2023/03/image-20231205103941635.png?x-oss-process=image/watermark,text_TWFpbEJlcnJ5LmNvbS5jbg,type_ZmFuZ3poZW5naGVpdGk,size_18,shadow_50,t_70,g_se,x_10,y_10,color_ffffff)
会打开一Bash终端
![image-20231205103909828](https://oss.mailberry.com.cn/picgo/2023/03/image-20231205103909828.png?x-oss-process=image/watermark,text_TWFpbEJlcnJ5LmNvbS5jbg,type_ZmFuZ3poZW5naGVpdGk,size_18,shadow_50,t_70,g_se,x_10,y_10,color_ffffff)
然后:git clone https://github.com/builderio/gpt-crawler
克隆项目,后面步骤跟上面的第三步一样了
方式三:VScode
直接右键,通过Code打开
![image-20231205104200899](https://oss.mailberry.com.cn/picgo/2023/03/image-20231205104200899.png?x-oss-process=image/watermark,text_TWFpbEJlcnJ5LmNvbS5jbg,type_ZmFuZ3poZW5naGVpdGk,size_18,shadow_50,t_70,g_se,x_10,y_10,color_ffffff)
然后 编辑config.js
![image-20231205104259893](https://oss.mailberry.com.cn/picgo/2023/03/image-20231205104259893.png?x-oss-process=image/watermark,text_TWFpbEJlcnJ5LmNvbS5jbg,type_ZmFuZ3poZW5naGVpdGk,size_18,shadow_50,t_70,g_se,x_10,y_10,color_ffffff)
调试使用终端,后面步骤也跟第三步一样安装,开始就行了
导入
GPTs导入很简单,直接新建新的GPTs,上传文件
![image-20231205112808037](https://oss.mailberry.com.cn/picgo/2023/03/image-20231205112808037.png?x-oss-process=image/watermark,text_TWFpbEJlcnJ5LmNvbS5jbg,type_ZmFuZ3poZW5naGVpdGk,size_18,shadow_50,t_70,g_se,x_10,y_10,color_ffffff)
第一步,先Explore
![image-20231205112829666](https://oss.mailberry.com.cn/picgo/2023/03/image-20231205112829666.png?x-oss-process=image/watermark,text_TWFpbEJlcnJ5LmNvbS5jbg,type_ZmFuZ3poZW5naGVpdGk,size_18,shadow_50,t_70,g_se,x_10,y_10,color_ffffff)
第二步,Create a GPT
![image-20231205112948513](https://oss.mailberry.com.cn/picgo/2023/03/image-20231205112948513.png?x-oss-process=image/watermark,text_TWFpbEJlcnJ5LmNvbS5jbg,type_ZmFuZ3poZW5naGVpdGk,size_18,shadow_50,t_70,g_se,x_10,y_10,color_ffffff)
第三步,上传json文件,完结
结果
![image-20231205113210410](https://oss.mailberry.com.cn/picgo/2023/03/image-20231205113210410.png?x-oss-process=image/watermark,text_TWFpbEJlcnJ5LmNvbS5jbg,type_ZmFuZ3poZW5naGVpdGk,size_18,shadow_50,t_70,g_se,x_10,y_10,color_ffffff)
这是我爬虫后,创建的Json文件,让GPTs总结的,说明数据都已经被GPT消化了,接下来就是你自己的使用了,祝君使用愉快
总结
过程非常的简单,只要替换自己的目标URL就可以了,爬虫有风险,请自行评估,这里只是作为技术方向分享。
暂无评论