咽喉炎是什么原因引起的| 菊花脑是什么菜| 颈椎病是什么症状| 今日冲什么生肖| 子宫长什么样| 清明节有什么习俗| 苹果不能和什么一起吃| 怀孕了胃不舒服是什么原因| 低回声是什么意思| 喝红花有什么作用与功效| 手指关节疼痛是什么原因| 怀孕7天有什么症状| 小囡是什么意思| 黄瓜炒什么好吃| 喝黄瓜汁有什么好处| 气管炎吃什么好| 右乳钙化灶是什么意思| 半夏反什么药| 为什么北极没有企鹅| 儿童肠胃感冒吃什么药效果好| 眼睛肿胀是什么原因| epa是什么| 潜血弱阳性什么意思| 吃维生素e软胶囊有什么好处| 尿血挂什么科| 什么样的空气| 梦见儿子拉屎是什么意思| 摩羯座女生和什么星座男生最配| 狗咬了不能吃什么| 便秘吃什么好| 漱口水有什么作用| 医生为什么穿白大褂| 日加立念什么字| 吹弹可破的意思是什么| 胡子为什么长得快| hcy是什么检查项目| 世界上最大的生物是什么| 狗狗什么时候打疫苗| 脚后跟麻木是什么原因| 中性粒细胞百分比低是什么原因| 什么样的花纹| 短效避孕药什么时候吃| 总是低烧是什么原因造成的| 河南有什么美食| 动脉导管未闭对宝宝有什么影响| 吃得什么填词语| 翻墙是什么意思| hcg低是什么原因| 原始分是什么意思| 1996年属什么| 频次是什么意思| 什么水果营养价值最高| 蒲公英泡水喝有什么用| 杏色搭配什么颜色好看| 违心的话是什么意思| 送老师什么花好| 蜈蚣咬了擦什么药最好| 吃什么补性功能最快| 流清鼻涕是什么感冒| 腱鞘炎什么症状| 铁蛋白高吃什么药能降下来| 更年期吃什么药| 头孢吃多了有什么副作用| 遗精是什么感觉| 什么眼型最好看| 心肌缺血吃什么中成药| 事业有成是什么意思| 植物油是什么油| 肝化灶是什么意思| 做完胃肠镜后可以吃什么| 吃什么会拉肚子| 裸花紫珠是主治什么病| 回眸一笑百媚生什么意思| 景深是什么意思| 孩子注意力不集中是什么原因| 尿培养能查出什么病| 备皮是什么意思| 小便发黄是什么原因引起的| 被蚂蚁咬了擦什么药| 悲伤是什么意思| 云州是现在的什么地方| 手指头麻木吃什么药| 小腹痛吃什么药| 舌尖有裂纹是什么原因| 马齿笕有什么功效| 衣带渐宽终不悔是什么意思| 小便带血是什么原因女性| 黄豆芽炒什么好吃| 小孩子坐飞机需要什么证件| 来例假腰疼是什么原因| 什么的青草| 腹肌不对称是什么原因| 湿热是什么原因引起的| 什么的身体| 吃完香蕉不能吃什么| 炙热是什么意思| 花枝鼠吃什么| 什么危不什么| 上海有什么好玩的地方旅游景点| 处女膜破了有什么影响| 胃疼胃胀吃什么药好| 雄性激素过高是什么原因| 魏大勋和李沁什么关系| 0到3个月的婴儿惊吓吃什么药| 么么什么意思| sk-ll是什么牌子| 上眼皮浮肿是什么原因| 晚饭吃什么| 舌苔厚是什么原因| 有什么神话故事| 手机为什么没信号| lca是什么意思| 什么是缓刑意思是什么| 考试什么的都去死吧歌曲| 1991年是什么年| 面肌痉挛是什么原因引起的| 黑脚鸡是什么品种| 食道癌有什么症状| 甲方乙方是什么意思| 云的五行属性是什么| 穿山甲到底说了什么| 喝菊花茶有什么功效| 预防脑出血吃什么药| 知己是什么意思| 半夜腿抽筋是什么原因| 头疼发烧吃什么药| 紧张吃什么药| 身份证后四位代表什么| 杨梅不能与什么同吃| 天壤之别是什么意思| 心动过速吃什么药最好| 肾结石都有什么症状| 230是什么意思| 1989年属什么生肖| 韩世忠为什么不救岳飞| 肝胃不和吃什么中成药| 西瓜又什么又什么| 拉开帷幕是什么意思| 前列腺增生吃什么食物好| 胃癌低分化是什么意思| 唇周围长痘痘是什么原因| 辩证思维是什么意思| 喝茶叶茶有什么好处| 二氧化碳是什么| 动土是什么意思| 直视是什么意思| m是什么码| 花胶有什么功效| 月经来了不能吃什么东西| 什么是局限性肺纤维化| 9月24号什么星座| 一级亲属指的是什么| 达芬奇是干什么的| 超敏c蛋白反应高是什么原因| 沉香木是什么树| 今天突然拉稀拉出血什么原因| 扁桃体发炎吃什么| asd什么意思| 早上尿黄是什么原因| 水瓶座与什么星座最配| 微量元素6项是查什么| 血管钙化是什么意思| 桑葚是什么季节的| 什么是清宫| 桃园三结义是什么生肖| 幼儿反复发烧是什么原因| 欧巴桑是什么意思| 软笔是什么| 什么是宾格| 舌苔白腻吃什么中成药| 有事钟无艳无事夏迎春是什么意思| 0a是什么意思| 牛肉补什么| tiamo是什么意思| 大姨妈血块多是什么原因| 部队指导员是什么级别| 手和脚脱皮是什么原因| 便秘挂什么科| 血糖和血脂有什么区别| 小姨是什么| 毒龙是什么| 多吃黄瓜有什么好处和坏处| 姑息性化疗什么意思| 不造是什么意思| 什么空调最省电| 签证是什么| 手指头麻是什么原因引起的| 人的血压一天中什么时候最高| 尘螨是什么东西| 玫瑰茄是什么东西| 粉的像什么| 1988年是什么命| 柱镜度数是什么意思| 仄言是什么意思| 梦到高考是什么意思| 恪尽职守是什么意思| 武松是什么生肖| 艾灸后放屁多是什么原因| 火牙是什么原因引起的| 六月初十是什么日子| 吉祥三宝是什么意思| 体检前一天晚上吃什么| 什么的猫| 男人前列腺炎有什么症状表现| 胎盘附着于子宫前壁是什么意思| 什么咖啡最好| mg是什么单位| 妈妈的奶奶应该叫什么| 处子之身是什么意思| 凯撒沙拉酱是什么口味| 武则天原名叫什么| 鲁冰花是什么花| 肾小球滤过率是什么意思| 皮肤长癣是什么原因引起的| 前列腺回声欠均匀什么意思| 五行缺水是什么意思| 什么是丝状疣| 小鸟站在高压线上为什么不会触电| 鸡吃什么长得又快又肥| 劣质是什么意思| 龛影是什么意思| 白露是什么时候| 什么是肠梗阻| 一什么机枪| 为什么会心肌梗死| 肠胃不好吃什么调理| 人言轻微是什么意思| 硫酸羟氯喹片治什么病| 重阳节为什么要插茱萸| 一毛不拔是什么生肖| 医保断了一个月有什么影响| 嘴突然歪是什么原因造成的| ab型血可以接受什么血型| 附睾炎吃什么药最有效| 什么样的云朵| 舌头发热是什么原因| 头出虚汗是什么原因引起的| 憩是什么意思| 屎忽鬼是什么意思| 做tct检查前要注意什么| 查幽门螺杆菌挂什么科| 汪峰什么星座| 儿童咳嗽吃什么药管用| 青春痘是什么原因引起的| 什么叫种草| 体检前需要注意什么| 什么家庭养出自私冷漠| 琛读什么| 9月17日是什么星座| 幡是什么意思| 外耳道耵聍什么意思| 碳酸钙是什么东西| 什么是音序| 艺高人胆大什么意思| 打下手什么意思| 肾结石可以喝什么饮料| 附身是什么意思| 脾虚是什么原因引起的| 冬虫夏草生长在什么地方| 焦虑症看什么科| 嗜碱性粒细胞偏低说明什么| 洗漱是什么意思| 割包皮有什么好处| 做梦吃面条是什么预兆| 百度
百度 在没有更保险更稳妥的保值手段之时,虽说我们的鸡蛋也并未放在一个篮子里,但以美元为主的持有方式还得延续相当时期。

The Variant Call Format or VCF is a standard text file format used in bioinformatics for storing gene sequence or DNA sequence variations. The format was developed in 2010 for the 1000 Genomes Project and has since been used by other large-scale genotyping and DNA sequencing projects.[1][2] VCF is a common output format for variant calling programs due to its relative simplicity and scalability.[3][4] Many tools have been developed for editing and manipulating VCF files, including VCFtools, which was released in conjunction with the VCF format in 2011, and BCFtools, which was included as part of SAMtools until being split into an independent package in 2014.[1][5]

Variant Call Format
Filename extension
.vcf
Developed?by1000 Genomes Project
Latest release
4.5
October?9, 2024; 9 months ago?(2025-08-07)
Type of formatBioinformatics
Extended?fromTab-separated values
Extended?togVCF
Open format?Yes
Websitesamtools.github.io/hts-specs/VCFv4.5.pdf

The standard is currently in version 4.5,[6][7] although the 1000 Genomes Project has developed its own specification for structural variations such as duplications, which are not easily accommodated into the existing schema.[8]

Additional file formats have been developed based on VCF, including genomic VCF (gVCF). gVCF is an extended format which includes additional information about "blocks" that match the reference and their qualities.[9][10]

Example

edit
##fileformat=VCFv4.3
##fileDate=20090805
##source=myImputationProgramV3.1
##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta
##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x>
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS      ID         REF   ALT    QUAL  FILTER   INFO                             FORMAT       NA00001         NA00002          NA00003
20     14370    rs6054257  G     A      29    PASS    NS=3;DP=14;AF=0.5;DB;H2           GT:GQ:DP:HQ  0|0:48:1:51,51  1|0:48:8:51,51   1/1:43:5:.,.
20     17330    .          T     A      3     q10     NS=3;DP=11;AF=0.017               GT:GQ:DP:HQ  0|0:49:3:58,50  0|1:3:5:65,3     0/0:41:3
20     1110696  rs6040355  A     G,T    67    PASS    NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ  1|2:21:6:23,27  2|1:2:0:18,2     2/2:35:4
20     1230237  .          T     .      47    PASS    NS=3;DP=13;AA=T                   GT:GQ:DP:HQ  0|0:54:7:56,60  0|0:48:4:51,51   0/0:61:2
20     1234567  microsat1  GTC   G,GTCT 50    PASS    NS=3;DP=9;AA=G                    GT:GQ:DP     0/1:35:4        0/2:17:2         1/1:40:3
?
Demonstrating the difference between the binary BCF and VCF formats.

The VCF header

edit

The header begins the file and provides metadata describing the body of the file. Header lines are denoted as starting with #. Special keywords in the header are denoted with ##. Recommended keywords include fileformat, fileDate and reference.

The header contains keywords that optionally semantically and syntactically describe the fields used in the body of the file, notably INFO, FILTER, and FORMAT (see below).

The columns of a VCF

edit

The body of VCF follows the header, and is tab separated into 8 mandatory columns and an unlimited number of optional columns that may be used to record other information about the sample(s). When additional columns are used, the first optional column is used to describe the format of the data in the columns that follow.

Name Brief description (see the specification for details).
1 CHROM The name of the sequence (typically a chromosome) on which the variation is being called. This sequence is usually known as 'the reference sequence', i.e. the sequence against which the given sample varies.
2 POS The 1-based position of the variation on the given sequence.
3 ID The identifier of the variation, e.g. a dbSNP rs identifier, or if unknown a ".". Multiple identifiers should be separated by semi-colons without white-space.
4 REF The reference base (or bases in the case of an indel) at the given position on the given reference sequence.
5 ALT The list of alternative alleles at this position.
6 QUAL A quality score associated with the inference of the given alleles.
7 FILTER A flag indicating which of a given set of filters the variation has failed or PASS if all the filters were passed successfully.
8 INFO ? ? An extensible list of key-value pairs (fields) describing the variation. See below for some common fields. Multiple fields are separated by semicolons with optional values in the format: <key>=<data>[,data].
9 FORMAT An (optional) extensible list of fields for describing the samples. See below for some common fields.
+ SAMPLEs For each (optional) sample described in the file, values are given for the fields listed in FORMAT

Common INFO fields

edit

Arbitrary keys are permitted, although the following sub-fields are reserved (albeit optional):[6]

Name Brief description
AA ancestral allele
AC allele count in genotypes, for each ALT allele, in the same order as listed
AF allele frequency for each ALT allele in the same order as listed (use this when estimated from primary data, not called genotypes)
AN total number of alleles in called genotypes
BQ RMS base quality at this position
CIGAR cigar string describing how to align an alternate allele to the reference allele
DB dbSNP membership
DP combined depth across samples, e.g. DP=154
END end position of the variant described in this record (for use with symbolic alleles)
H2 membership in hapmap2
H3 membership in hapmap3
MQ RMS mapping quality, e.g. MQ=52
MQ0 Number of MAPQ == 0 reads covering this record
NS Number of samples with data
SB strand bias at this position
SOMATIC indicates that the record is a somatic mutation, for cancer genomics
VALIDATED validated by follow-up experiment
1000G membership in 1000 Genomes

Any other info fields are defined in the .vcf header.

Common FORMAT fields

edit
Name Brief description
AD Read depth for each allele
ADF Read depth for each allele on the forward strand
ADR Read depth for each allele on the reverse strand
DP Read depth
EC Expected alternate allele counts
FT Filter indicating if this genotype was “called”
GL Genotype likelihoods
GP Genotype posterior probabilities
GQ Conditional genotype quality
GT Genotype
HQ Haplotype quality
MQ RMS mapping quality
PL Phred-scaled genotype likelihoods rounded to the closest integer
PQ Phasing quality
PS Phase set

Any other format fields are defined in the .vcf header.

Binary VCF

edit

Binary VCF or BCF files are binary, BGZF compressed variation of VCF files. BCF files allow fast and efficient indexed queries through tools like Tabix once an index file has been created.

See also

edit
  • The FASTA format, used to represent genome sequences.
  • The FASTQ format, used to represent DNA sequencer reads along with quality scores.
  • The SAM format, used to represent genome sequencer reads that have been aligned to genome sequences.
  • The GVF format (Genome Variation Format), an extension based on the GFF3 format.

References

edit
  1. ^ a b Danecek, Petr; Auton, Adam; Abecasis, Goncalo; Albers, Cornelis A.; Banks, Eric; DePristo, Mark A.; Handsaker, Robert E.; Lunter, Gerton; Marth, Gabor T.; Sherry, Stephen T.; McVean, Gilean; Durbin, Richard (2025-08-07). "The variant call format and VCFtools". Bioinformatics. 27 (15): 2156–2158. doi:10.1093/bioinformatics/btr330. ISSN?1367-4803. PMC?3137218. PMID?21653522.
  2. ^ Ossola, Alexandra (20 March 2015). "The Race to Build a Search Engine for Your DNA". IEEE Spectrum. Retrieved 22 March 2015.
  3. ^ "Understanding VCF format | Human genetic variation". EMBL-EBI. Archived from the original on 2025-08-07. Retrieved 2025-08-07.
  4. ^ Garrison, Erik; Kronenberg, Zev N.; Dawson, Eric T.; Pedersen, Brent S.; Prins, Pjotr (2025-08-07). "A spectrum of free software tools for processing the VCF variant call format: vcflib, bio-vcf, cyvcf2, hts-nim and slivar". PLOS Computational Biology. 18 (5): e1009123. Bibcode:2022PLSCB..18E9123G. doi:10.1371/journal.pcbi.1009123. ISSN?1553-734X. PMC?9286226. PMID?35639788.
  5. ^ Danecek, Petr; Bonfield, James K; Liddle, Jennifer; Marshall, John; Ohan, Valeriu; Pollard, Martin O; Whitwham, Andrew; Keane, Thomas; McCarthy, Shane A; Davies, Robert M; Li, Heng (2025-08-07). "Twelve years of SAMtools and BCFtools". GigaScience. 10 (2). doi:10.1093/gigascience/giab008. ISSN?2047-217X. PMC?7931819. PMID?33590861.
  6. ^ a b "VCF Specification" (PDF). Retrieved 30 July 2024.
  7. ^ "Specifications of SAM/BAM and related high-throughput sequencing file formats". GitHub. Retrieved 24 June 2014.
  8. ^ "Encoding Structural Variants in VCF (Variant Call Format) version 4.0 | 1000 Genomes". Retrieved 20 October 2016.
  9. ^ "GVCF - Genomic Variant Call Format". GATK. Broad Institute.
  10. ^ "gVCF Files". Illumina, Inc. Retrieved 2025-08-07.
  11. ^ "HTS format specifications". samtools.github.io. Retrieved 2025-08-07.
  12. ^ "Bio-IT World". www.bio-itworld.com. Retrieved 2025-08-07.
edit
胃幽门螺杆菌有什么症状 阳萎是什么 井代表什么生肖 下肢水肿挂什么科 反酸水吃什么药
1949年是什么年 颅脑平扫是检查什么 月亮五行属什么 大保健什么意思 静养是什么意思
父爱是什么 使婢差奴过一生是什么意思 dpa是什么意思 九二共识是什么意思 吃什么东西化痰
小孩体质差吃什么能增强抵抗力 口腔医学是干什么的 10月1是什么星座 生理盐水有什么用 尿路感染吃什么药最快
肝内脂质沉积是什么意思inbungee.com 什么望外hcv7jop4ns6r.cn 心动过速吃什么药最好hcv9jop3ns0r.cn 海马体是什么意思0735v.com 什么是生物制剂药hcv8jop8ns1r.cn
呀啦嗦是什么意思hcv8jop6ns4r.cn 软化血管吃什么药最好imcecn.com 213是什么意思hcv8jop3ns7r.cn 什么是有机蔬菜hcv8jop2ns3r.cn 阴吹是什么意思mmeoe.com
区号是什么hcv9jop2ns5r.cn 皈依有什么好处hcv8jop4ns2r.cn hx是什么hcv8jop9ns8r.cn 丝瓜和什么相克hcv8jop1ns8r.cn 饱的偏旁叫什么hcv7jop5ns3r.cn
肝低回声结节是什么意思hcv8jop1ns7r.cn 什么是琥珀hcv8jop0ns1r.cn 劫富济贫是什么意思sscsqa.com 武松是什么生肖hcv8jop2ns5r.cn 狸猫是什么猫sscsqa.com
百度