search.xml

<?xml version="1.0" encoding="utf-8"?>
<search>
  <entry>
    <title><![CDATA[notes]]></title>
    <url>%2F2019%2F72de%2F</url>
    <content type="text"><![CDATA[第一次课：贫困与脱贫 第二次课：经济全球化]]></content>
  </entry>
  <entry>
    <title><![CDATA[Hello World]]></title>
    <url>%2F2019%2F16107%2F</url>
    <content type="text"><![CDATA[Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post1$ hexo new "My New Post" More info: Writing Run server1$ hexo server More info: Server Generate static files1$ hexo generate More info: Generating Deploy to remote sites1$ hexo deploy More info: Deployment]]></content>
  </entry>
  <entry>
    <title><![CDATA[MIS系统分析与设计（3）]]></title>
    <url>%2F2019%2Ff1da%2F</url>
    <content type="text"><![CDATA[第三章：企业信息与数据建模3.4 编码模型 编码的含义 用来代表某实体或实体某属性的一种符号,通常由数码、字母组成。 例：公民、学生、职工、电话就是是实体，而身份证号码、学号、职工号、电话号码就是相应的编码。 编码对象 需要编码的实体或实体某属性的统称 编码的作用（为什么要用编码？） 唯一地标识一个实体或属性值 系统集成的基础 便于分类和统计 在某些场合节省存储空间 编码结构按编码基本结构分类顺序码 一种以连续的数字或字符代表编码对象的编码 例：连续的数字0,1,2,3……，或以A、B、C、 特点： 编码简单、简短等 可维护性差 例：在日常生活中，街道两旁的门牌号码一般采用顺序码 块码 一种特殊的顺序码。它将顺序码按照一定的方式,将编码分成若干段或者块,每一段或块代表一定类型的编码对象。 例：我国邮政编码采用6位数码,其第1-2位采用块码标识省、自治区和直辖市,第3位标识市,第4位标识县(区),第5-6位标识投递区,例如1-2位为“43”和“44”均标识湖北省。 特点 与顺序码相比，具有较好的可维护性 需要分段合适，预留有足够的码，该结构就具有较好的维护性 较顺序码复杂 不方便满足分类、统计的需求（例如select湖北省以43,44开头的语句） 层次码 现实中 编码对象之间的关系具有一定的层次关系 例：物品、产品、地区 顺序码和块码：不适合对具有层次结构的编码对象 层次码 根据编码对象一定的层次关系，确定若干位，并排成一定的层次关系 适合对具有层次结构的编码对象。 特点 结构清晰、可维护性强。（方便，常用） 不足 编码的设计较复杂。采用层次码是，首先要沥青编码对象的层次结构。 特征码 在编码模型中，为编码对象的多个属性各规定一个位置（若干位码），从而表示编码对象不同属性 与顺序码、块码、层次码不同:编码中表示的各属性之间没有关系,是相互独立的。（可以出现相同的编码，如身份证号中的生日） 特点：组合灵活、设计简单 适用场合：一般用于枚举型的编码对象 例如：性别、直径、形状等 按照编码中采用的符号分类 数字型编码 采用若干位数字进行编码，其数字可以是十进制、八进制、二进制等 身份证号、邮政编码、电话号码 优点：具有排序方便的 缺点：不直观 字母型编码 字母数字型编码 按编码设计的范围分类全局编码多用于一类业务的使用 例如：产品编码、原材料编码、设备编码 局部编码仅一类用户的使用 会计科目编码]]></content>
      <categories>
        <category>学习笔记</category>
        <category>MIS系统分析与设计</category>
      </categories>
      <tags>
        <tag>MIS</tag>
        <tag>编码</tag>
        <tag>数据与信息</tag>
        <tag>建模</tag>
      </tags>
  </entry>
  <entry>
    <title><![CDATA[互联网数据分析（4）]]></title>
    <url>%2F2019%2F9c90%2F</url>
    <content type="text"><![CDATA[第四章：聚类分析1. 概述聚类分析的定义 聚类分析(Cluster Analysis)是一个讲数据集中的所有数据，按照相似性划分为多个类别（Cluster，簇）的过程 簇是相思数据的集合 聚类分析是一种无监督分类方法：无训练集和预定义的类别标号 要求：聚类之后，应保证高内聚、低耦合即同类之间相似性低，不同类之间相似度低 聚类分析的作用 作为一个对的工具来获得数据集中数据的分布情况 首先对数据集执行聚类，获得所有簇 然后根据每个簇的样本数目获得每类数据的大体分布情况 作为其他数据挖掘算法的预处理步骤 聚类分析的应用 谁经常光顾商店,谁买什么东西,买多少 识别顾客购买模式(如喜欢一大早来买酸奶 和鲜肉、习惯周末时一次性大采购) 按会员卡记录的购买次数、购买时间、性 别、性别、年龄、购物种类、金额等变量 分类 刻画不同用户群的特征 聚类中异常点的分析:欺诈 通过对现有用户分群，以期对不同类别的用户采用不同的营销方式，如交叉营销(cross-sell)、向上营销(up-sell)等，并对可能流失的用户提前预警并采取相应措施。 常用聚类分析方法：划分法以距离作为数据集中不同数据间的相似性度量，将数据集划分成多个簇 方法：k-means、k-medoids 层次法对给定的数据集进行层次分解，形成一个树形的聚类结果 方法：自顶向下法、自底向上法 2. 相似性计算在聚类分析中，样本之间的相似性通常采用样本之间的距离来表示。 样本之间的经历实在样本的描述属性（特征）上进行计算的 样本的描述属性类型可能不同，相对应的计算方法也不同 连续性属性重量、高度、年龄等 X~i~ =() 二值离散属性多值离散属性转换为二值属性进行计算 混合类型属性划分聚类法：k-means优点：可扩展性比较好，算法复杂度为O(nkt)（n为样本数量，k是簇的个数，t是迭代次数） 缺点：簇数k需要事先给定 初始点的选择影响算法迭代次数和聚类结果 对噪声和离群点数据敏感 其他缺陷：只能处理连续、二值、定序的数据类型，不能处理离散分类变量 节点编辑更改容忍度： 集合编码值：避免二值属性数值高于连续属性的情况 轮廓系数（Silhouette系数）： a~i~表示样本i到同簇其他样本的平均距离 b~i~表示样本i到其他簇的最小平均距离 单个样本的轮廓系数s(i)为：$s(i)=(b(i)-a(i))/max{a(i),b(i)} $ 总体轮廓系数可取单个样本轮廓系数的平均值，轮廓系数大小在-1（极差）到1（极好）之间。 新生成的字段kMD-K-Means 到聚类中心点的距离 案例：汽车数据表 在进行聚类之前可以按照意义生成一些新变量，这些新变量可能会对聚类结果有不同的影响 卖家表 数据清洗，剔除全部缺失的行、将信用等级转换为数值型变量（最初一对一转换效果不好，改成二对一转换，即两个相邻档次对应一个数值 年龄按固定宽度分级，10岁为一级 使用年龄、信用等级、性别三项数据进行聚类，聚类k值设为6时，轮廓系数最优 结果解读：年龄大多在20~30之间，信用为3~4之间，性别全部分开 拓展：处理省份按发达程度分类后加入聚类 使用自动聚类节点比较不同的聚类算法的结果，在放弃选项栏下选择筛选条件 两步聚类预聚类阶段(pre-clustering)采用了BIRCH算法中CF树生长的思想,逐个读取数据集中数据点,在生成CF树的同时,预先聚类密集区域的数据点,形成诸多的小的子簇(sub-cluster)。 聚类阶段(clustering)以预聚类阶段的结果——子簇为对象,采用分层聚类方法递归逐个地合并子簇,直到期望的簇数量。 BIRCH算法 BIRCH算法的核心是利用树结构来快速的聚类,一般将它称之为聚类特征树(Clustering Feature Tree,简称CFTree)。 这颗树的每一个节点是由若干个聚类特征 (Clustering Feature,简称CF)组成。每 个节点包括叶子节点都有若干个CF,而内 部节点的CF有指向子节点的指针,所有的 叶子节点用一个双向链表链接起来。 一个聚类特征CF的定义:每一个CF是一个三元组,可以用(N, LS,SS)表示。其中N代表了这个CF中 拥有的样本点的数量;LS代表了这个CF 中拥有的样本点各特征维度的和向量, SS代表了这个CF中拥有的样本点各特征 维度的平方和。 CF树的性质 CF满足线性关系,即:CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2)。 在CF Tree中,对于每个父节点中的CF 节点,它的(N,LS,SS)三元组的值等于 这个CF节点所指向的所有子节点的三元组之和。 CF树的属性 B是每个内部节点的最大CF数,L是每个叶子节点的最大CF 数,对于上图中的CF Tree,限定了B=7, L=5, 也就是 说内部节点最多有7个CF,而叶子节点最多有5个CF。 叶节点每个CF的最大样本半径阈值T,也就是说,在这个 CF中的所有样本点一定要在半径小于T的一个超球体内。 CF树的生成 从根节点向下寻找和新样本距离最近的叶子节点和叶子 节点里最近的CF节点。 如果新样本加入后,这个CF节点对应的超球体半径仍然 满足小于阈值T,则更新路径上所有的CF三元组,插入结束 。否则转入3. 如果当前叶子节点的CF节点个数小于阈值L,则创建一个 新的CF节点,放入新样本,将新的CF节点放入这个叶子节点 ,更新路径上所有的CF三元组,插入结束。否则转入4。 将当前叶子节点划分为两个新叶子节点,选择旧叶子节 点中所有CF元组里超球体距离最远的两个CF元组,分别作为 两个新叶子节点的第一个CF节点。将其他元组和新样本元组 按照距离远近原则放入对应的叶子节点。依次向上检查父节 点是否也要分裂,如果需要按和叶子节点分裂方式相同。 生成CF树之后BIRCH算法的主要过程,就是建立CF Tree 的过程,此外还包括对CF Tree的优化。 如: 去除一些异常CF节点,这些节点一般里面的 样本点很少。对于一些超球体距离非常近的 元组进行合并。 利用其它的一些聚类算法比如K-Means对所有 的CF元组进行聚类,主要目的是消除由于样 本读入顺序导致的不合理的树结构,以及一 些由于节点CF个数限制导致的树结构分裂。]]></content>
      <categories>
        <category>学习笔记</category>
        <category>互联网数据分析</category>
      </categories>
      <tags>
        <tag>数据分析</tag>
        <tag>数据挖掘</tag>
      </tags>
  </entry>
  <entry>
    <title><![CDATA[Manjaro安装手册]]></title>
    <url>%2F2019%2Ff61d%2F</url>
    <content type="text"><![CDATA[获取Manjaro镜像进入Manjaro官网 下载Manjaro的时候不需要去各种镜像网站下载，Manjaro官网会在你开始下载前自动匹配合适的镜像网站 不要使用旧版本的Manjaro安装，旧版本在系统升级时很可能会出现依赖问题导致无法升级或者安装应用，虽然有办法解决，但是为啥非要折腾自己呢？ 选择桌面环境Manjaro支持很多种桌面环境，选择前建议勾选上Beginner-friendly，然后选择一个发行版就可以开始下载了 制作Manjaro启动盘参考自Manjaro User Guide 在Windows下制作推荐使用rufus大小只有1M，可以Rufus 3.4 Portable （便携版）无需安装直接使用 软件截图如下 设备选项选择你插入的U盘 ISO选择刚刚下载的Manjaro安装镜像 其他保持默认点击开始 在弹出的窗口中选择DD模式写入（第二个选项），不要使用默认的ISO模式 等待程序运行完毕 在Linux下制作 插入U盘，打开终端进入镜像文件所在目录 使用fdisk命令查看设备信息，记录下你的U盘编号（格式就像：/dev/sdb） 1sudo fdisk -l 使用DD命令写入磁盘 if后面接ISO文件名可以使用tab自动补全 of是你的U盘编号 1sudo dd if=manjaro-xfce-18.0-stable-x86_64.iso of=/dev/(上面的U盘编号) bs=4M 我的U盘是/dev/sdb，所以我的命令应该改成 1sudo dd if=manjaro-xfce-18.0-stable-x86_64.iso of=/dev/sdb bs=4M 命令最后可以加上status=progress显示dd制作的进度 一段时间的等待 开始安装Manjaro电脑关机，插入制作好的启动盘 ，进入欢迎界面，如下图所示 进入安装界面有一个前提，需要进入电脑的BIOS系统中调整启动顺序，将你的启动盘放到最上面。电脑进入启动盘的方式一般是开机时按F2或F12，如果不行请自行百度相应电脑型号如何进入BIOS 启动测试环境时区改为Asia/Shanghai 语言改为中文 然后选择Boot那一项就可以启动Manjaro的测试环境 你可以在这里试用Manjaro系统，在试用过程中进行的设置操作均不会保存 觉得不错就可以准备安装了系统会弹出一个hello程序，找到Installer选项（或者直接点击桌面上的Installer文件 进入装机程序 选择语言为简体中文 选择时区为Asia、Shanghai 选择分区方案：可以选择一个空的磁盘或者自己手动分区 下面是Manjaro中文社区中关于磁盘分区的部分讨论，这里可以做一个参考。 必须准备一个256mb，格式fat32的分区，挂载点/boot/efi，设置成esp。（安装过程中会提示，当然256mb是非常绰绰有余了，我看到过别人说只设置100mb，这个你自行尝试） 关于分几个区，有些人会建议 / 一个分区， /home一个分区，然而/home中会有很多配置文件，如果新系统有洁癖的小伙伴，这么做会不大爽， 我个人的建议是 / 一个分区，然后/home/下载 挂载一个分区（不见得把自己下载的数据每次都格式化掉对吧），然后这个分区里设置一个譬如Document的目录，新系统安装好后把这个文件夹ln -s到/home/文档，这样就行了。 关于swap分区嘛，以前的人都会分，但现在的内存都很大，所以我觉得可以不要分，但安装完系统可以：dd if=/dev/zero of=/swapfile bs=1024M count=2 （这里是分了2G的swap，dd命令可以自行搜索）mkswap /swapfileswapon /swapfile然后写进fstab：/swapfile swap swap defaults,noatime 0 2 总结：3个分区一个/swapfile，一个是fat32的挂载/boot/efi（强制），另一个是 / （ext4），第三个是 /home/下载（ext4）。我自己的硬盘是512G的，我给 / 分了50G，swapfile暂时给了1G不够再换个大点的文件。（内存4g的老笔记本） 配置用户名称、电脑名称、用户密码，以及管理员密码 预览安装配置信息 开始安装 安装结束等到安装结束之后，就可以关闭电脑、拔出U盘、开机开始Manjaro的体验之旅 TodoList 一篇关于Manjaro配置方面的笔记]]></content>
      <categories>
        <category>Manjaro</category>
        <category>安装</category>
      </categories>
      <tags>
        <tag>linux</tag>
        <tag>Manjaro</tag>
        <tag>install</tag>
      </tags>
  </entry>
</search>