98 lines
		
	
	
		
			2.7 KiB
		
	
	
	
		
			Thrift
		
	
	
	
			
		
		
	
	
			98 lines
		
	
	
		
			2.7 KiB
		
	
	
	
		
			Thrift
		
	
	
	
namespace go flow.dataengine.dataset
 | 
						||
 | 
						||
// 类型
 | 
						||
enum FormatType {
 | 
						||
    Text  = 0  // 文本
 | 
						||
    Table = 1  // 表格
 | 
						||
    Image = 2  // 图片
 | 
						||
    Database = 3 // 数据库
 | 
						||
}
 | 
						||
 | 
						||
struct ChunkStrategy {
 | 
						||
    1: string separator   // 分隔符,如句号
 | 
						||
    2: i64    max_tokens  // 分片的最大token数
 | 
						||
    3: bool   remove_extra_spaces  // 替换掉连续的空格、换行符和制表符
 | 
						||
    4: bool   remove_urls_emails   // 是否去除url和email
 | 
						||
    5: ChunkType chunk_type        // 如果为0, 则不使用以上字段的配置
 | 
						||
    7: optional CaptionType caption_type    // 图片类型,图片描述文字的标注方式
 | 
						||
    8: optional i64    overlap;      //分段重叠度
 | 
						||
    9: optional i64    max_level;    //最大层级数(按层级分段时生效)
 | 
						||
    10: optional bool   save_title;   //切片保留层级标题(按层级分段时生效)
 | 
						||
}
 | 
						||
 | 
						||
enum ChunkType{
 | 
						||
    DefaultChunk = 0
 | 
						||
    CustomChunk = 1
 | 
						||
    LevelChunk = 2
 | 
						||
}
 | 
						||
 | 
						||
enum ContentSchema{
 | 
						||
    DefaultSchema = 0
 | 
						||
    LinkReaderSchema = 1
 | 
						||
}
 | 
						||
 | 
						||
enum CaptionType {
 | 
						||
    Auto = 0 // 智能标注
 | 
						||
    Manual = 1 // 人工标注
 | 
						||
}
 | 
						||
 | 
						||
enum DocumentStatus {
 | 
						||
    Processing = 0 // 上传中
 | 
						||
    Enable     = 1 // 生效
 | 
						||
    Disable    = 2 // 失效
 | 
						||
    Deleted    = 3 // 删除
 | 
						||
    Resegment  = 4 // 重新分片中,调用方不感知该状态
 | 
						||
    Refreshing = 5 // 刷新中(刷新成功后会删除)
 | 
						||
    Failed     = 9 // 失败
 | 
						||
}
 | 
						||
 | 
						||
enum DocumentSource {
 | 
						||
    Document = 0 // 本地文件上传
 | 
						||
    Custom   = 2 // 自定义类型
 | 
						||
}
 | 
						||
 | 
						||
 | 
						||
struct ParsingStrategy{
 | 
						||
    1: optional ParsingType    parsing_type;     //解析类型
 | 
						||
    2: optional bool           image_extraction; //是否开启图片元素提取(精准解析时生效)
 | 
						||
    3: optional bool           table_extraction; //是否开启表格元素提取(精准解析时生效)
 | 
						||
    4: optional bool           image_ocr; //是否开启图片OCR(精准解析时生效)
 | 
						||
}
 | 
						||
 | 
						||
enum ParsingType{
 | 
						||
    FastParsing = 0        //快速解析
 | 
						||
    AccurateParsing = 1    //精准解析
 | 
						||
}
 | 
						||
 | 
						||
struct IndexStrategy{
 | 
						||
    1: optional bool    vector_indexing;        //是否开启向量索引(默认为true)
 | 
						||
    2: optional bool    keyword_indexing;       //是否开启关键词索引(默认为true)
 | 
						||
    3: optional bool    hierarchical_indexing;  //是否开启分层索引
 | 
						||
    4: optional string  model;                  //向量模型
 | 
						||
}
 | 
						||
 | 
						||
struct FilterStrategy{
 | 
						||
    1: optional list<i32>    filter_page;          //过滤页数
 | 
						||
}
 | 
						||
 | 
						||
// 排序字段
 | 
						||
enum OrderField {
 | 
						||
    CreateTime = 1
 | 
						||
    UpdateTime = 2
 | 
						||
}
 | 
						||
 | 
						||
// 排序规则
 | 
						||
enum OrderType {
 | 
						||
    Desc = 1
 | 
						||
    Asc  = 2
 | 
						||
}
 | 
						||
 | 
						||
struct SinkStrategy {
 | 
						||
    1: bool check_index // 是否检查索引成功
 | 
						||
}
 | 
						||
enum ReviewStatus {
 | 
						||
    Processing = 0 // 处理中
 | 
						||
    Enable   = 1 // 已完成
 | 
						||
    Failed   = 2 // 失败
 | 
						||
    ForceStop   = 3 // 失败
 | 
						||
} |