首席数据官

Hi, 请登录

TSNE高维数据降维可视化工具 入门到理解 + python实现

1 什么是TSNE?2 入门的原理介绍

举一个例子,这是一个将二维数据降成一维的任务。我们要怎么实现?

首先python高维数据可视化,我们想到的最简单的方法就是舍弃一个维度的特征,将所有点映射到x轴上:

很明显,结果来看,蓝色和黄色的点交叠在一起,可是他们在二维上明明不属于一类

TSNE就是计算某一个点到其他所有点的距离,然后映射到t分布上,效果就会好一些。

3 进阶的原理介绍

3.1 高维距离表示

两个点在高维空间距离越近,那么这个概率值越大。

我们来看下面公式,两个公式的内容一致,只是写法不同。

这个形式的公式,只是明显的展示这是高斯分布概率

3.2 低维相似度表示

在低纬度中,我们使用t分布来表示相似性。这里不探究为什么使用t分布而不是其他分布python高维数据可视化,具体内容可以看论文

3.3 惩罚函数

3.4 为什么是局部相似性

为什么选择高斯和t分布

2 python实现

函数参数表:

parameters:描述

import numpy as np
import matplotlib.pyplot as plt
from sklearn import manifold,datasets
'''X是特征,不包含target;X_tsne是已经降维之后的特征'''
tsne = manifold.TSNE(n_components=2, init='pca', random_state=501)
X_tsne = tsne.fit_transform(X)
print("Org data dimension is {}. 
      Embedded data dimension is {}".format(X.shape[-1], X_tsne.shape[-1]))
      
  '''嵌入空间可视化'''
x_min, x_max = X_tsne.min(0), X_tsne.max(0)
X_norm = (X_tsne - x_min) / (x_max - x_min)  # 归一化
plt.figure(figsize=(8, 8))
for i in range(X_norm.shape[0]):
    plt.text(X_norm[i, 0], X_norm[i, 1], str(y[i]), color=plt.cm.Set1(y[i]), 
  
试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论