transceiver-db/training-data/runpod/tip_llm/manifest.json

{
  "raw_pairs": 12268,
  "duplicates_removed": 269,
  "training_pairs": 11999,
  "train_pairs": 10799,
  "eval_pairs": 1200,
  "sources": {
    "external:vendor-deep-dives.jsonl": 11200,
    "external:technical-deep-dives.jsonl": 84,
    "external:rir-infrastructure-data.jsonl": 150,
    "external:market-business-analysis-part1.jsonl": 10,
    "external:synthesized-training-samples.jsonl": 219,
    "external:nanog-ripe-labs-content.jsonl": 34,
    "external:academic-research-synthesis.jsonl": 109,
    "training-data/tip-llm-pricing-v1.jsonl": 80,
    "training-data/tip-llm-capabilities-v1.jsonl": 69,
    "external:market-business-analysis-part6.jsonl": 5,
    "robot-control-high.jsonl": 12,
    "external:market-business-analysis-part5.jsonl": 7,
    "external:market-business-analysis-part4.jsonl": 5,
    "external:market-business-analysis-part2.jsonl": 8,
    "external:market-business-analysis-part3.jsonl": 7
  },
  "files": {
    "train": "training-data/runpod/tip_llm/tip_llm-sft-train.jsonl",
    "eval": "training-data/runpod/tip_llm/tip_llm-sft-eval.jsonl",
    "all": "training-data/runpod/tip_llm/tip_llm-sft-all.jsonl",
    "manifest": "training-data/runpod/tip_llm/manifest.json"
  }
}