MutsumiLab/Lumina_sft_dataset
Updated • 2
9803999 (和Starry7.2一样,懒得再更新了 )。gelbooru_20250526_add_1280px 的图(主要补缺的tag)。这是一个混合策略,为了让模型既能理解自然语言也能精确解析tag。
Tag被塞进一个XML结构里,主要是为了让模型学会区分不同类型的标签(作者、角色、作品等)。 有80%概率是正常结构,即
<tags>
<special>1girl</special>
<artists>artist_name</artists>
<characters>character_name</characters>
<copyright>series_name</copyright>
<general>blue hair, long hair, school uniform, sky</general>
<rating>safe</rating>
<meta>highres, 2025</meta>
</tags>
<copyright>)是空的,这个标签也会被保留下来(<copyright></copyright>)这是一个为了强化风格学习的特殊模式,有 20% 的概率触发:
<artists> 标签里。<artists> 标签里的内容识别为画风的关键指令。<tags>
<artists>artist_name</artists>
anything tag list
</tags>
我把所有标签分成了三组,区别对待:
special (构图), characters (角色), artists (作者)。这是图里最关键的信息。copyright (版权/原作), general (通用描述)。meta, year, quality, rating。生成最终caption的过程充满了随机性:
hatsune miku 这个角色tag,就按一定概率把 vocaloid 这种上级tag丢掉,强迫模型学习更本质的特征。1girl),人物的性别/数量。copyright 标签 75%的概率会被整个丢掉。highres (>=1MP) 或 lowres (<=0.6MP) 标签。 _ 都会被替换成空格,主要是为了节约gemma2b模型的token数。