一个二元变量是对称的还是非对称的,很大程度上是从常识出发来判断的。
当数据集的一个特征是二元变量时,
二元性别
变量的取值有男
和女
两种,一般情况下这两种取值的可能性差别不大。而对于是否是色盲
这个变量来说,显然一般情况下,是色盲
要比不是色盲
的几率小很多。
那么在利用性别
和是否是色盲
这两个特征,来判断两组数据的相似度时,显然是否是色盲
更有意义一些,对我们所研究的问题更重要一些。
推动科学发展的途径之一就是,在已有研究基础上进一步细分,从而提高效率。有些二元变量对不同数据间的相似度影响较大,有些影响较小。对这两类二元变量加以区分,让我们在简单匹配系数的基础上,得到了Jaccard相似系数,从而帮助我们提高了一些场景下相似度的计算效率。
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_distance_overview02.htm