98 lines
2.7 KiB
Thrift
98 lines
2.7 KiB
Thrift
namespace go flow.dataengine.dataset
|
||
|
||
// 类型
|
||
enum FormatType {
|
||
Text = 0 // 文本
|
||
Table = 1 // 表格
|
||
Image = 2 // 图片
|
||
Database = 3 // 数据库
|
||
}
|
||
|
||
struct ChunkStrategy {
|
||
1: string separator // 分隔符,如句号
|
||
2: i64 max_tokens // 分片的最大token数
|
||
3: bool remove_extra_spaces // 替换掉连续的空格、换行符和制表符
|
||
4: bool remove_urls_emails // 是否去除url和email
|
||
5: ChunkType chunk_type // 如果为0, 则不使用以上字段的配置
|
||
7: optional CaptionType caption_type // 图片类型,图片描述文字的标注方式
|
||
8: optional i64 overlap; //分段重叠度
|
||
9: optional i64 max_level; //最大层级数(按层级分段时生效)
|
||
10: optional bool save_title; //切片保留层级标题(按层级分段时生效)
|
||
}
|
||
|
||
enum ChunkType{
|
||
DefaultChunk = 0
|
||
CustomChunk = 1
|
||
LevelChunk = 2
|
||
}
|
||
|
||
enum ContentSchema{
|
||
DefaultSchema = 0
|
||
LinkReaderSchema = 1
|
||
}
|
||
|
||
enum CaptionType {
|
||
Auto = 0 // 智能标注
|
||
Manual = 1 // 人工标注
|
||
}
|
||
|
||
enum DocumentStatus {
|
||
Processing = 0 // 上传中
|
||
Enable = 1 // 生效
|
||
Disable = 2 // 失效
|
||
Deleted = 3 // 删除
|
||
Resegment = 4 // 重新分片中,调用方不感知该状态
|
||
Refreshing = 5 // 刷新中(刷新成功后会删除)
|
||
Failed = 9 // 失败
|
||
}
|
||
|
||
enum DocumentSource {
|
||
Document = 0 // 本地文件上传
|
||
Custom = 2 // 自定义类型
|
||
}
|
||
|
||
|
||
struct ParsingStrategy{
|
||
1: optional ParsingType parsing_type; //解析类型
|
||
2: optional bool image_extraction; //是否开启图片元素提取(精准解析时生效)
|
||
3: optional bool table_extraction; //是否开启表格元素提取(精准解析时生效)
|
||
4: optional bool image_ocr; //是否开启图片OCR(精准解析时生效)
|
||
}
|
||
|
||
enum ParsingType{
|
||
FastParsing = 0 //快速解析
|
||
AccurateParsing = 1 //精准解析
|
||
}
|
||
|
||
struct IndexStrategy{
|
||
1: optional bool vector_indexing; //是否开启向量索引(默认为true)
|
||
2: optional bool keyword_indexing; //是否开启关键词索引(默认为true)
|
||
3: optional bool hierarchical_indexing; //是否开启分层索引
|
||
4: optional string model; //向量模型
|
||
}
|
||
|
||
struct FilterStrategy{
|
||
1: optional list<i32> filter_page; //过滤页数
|
||
}
|
||
|
||
// 排序字段
|
||
enum OrderField {
|
||
CreateTime = 1
|
||
UpdateTime = 2
|
||
}
|
||
|
||
// 排序规则
|
||
enum OrderType {
|
||
Desc = 1
|
||
Asc = 2
|
||
}
|
||
|
||
struct SinkStrategy {
|
||
1: bool check_index // 是否检查索引成功
|
||
}
|
||
enum ReviewStatus {
|
||
Processing = 0 // 处理中
|
||
Enable = 1 // 已完成
|
||
Failed = 2 // 失败
|
||
ForceStop = 3 // 失败
|
||
} |