戈吉

整理一些博客链接

2021-11-06T02:07:25.000Z

个人博客

阮一峰: 中国区 github followers 第一, 教程、新闻、想法很多;
陈皓: 网名 左耳朵耗子，元老级程序员专家，对技术理解比较深刻;
王垠: 思想奇葩;
谢益辉: 有个性的一个人，R 语言高手;
洪亮劼: 人工智能专家，LinkedIn 工程总监，学习学习算法从业者想法;
郝海龙: 英文翻译专家，创立《林中来信》付费文章，作家。当时是被【用 Papers for Mac 搞学术】文章吸引了的，原博客已删掉了此文章，链接里为作者的 github 博客;

张铁蕾: 阿里后端开发者，会写小说、诗词;
刘家财: 擅长 Emacs，独立做了 EmacsTalk 节目;
杨英明: 博客主题不错;
DIYgod: 开源 star 量多，博客主题很个性;
丁亮: 自主创业者，每年会出个人总结，感觉是很有想法的人;
郭家宝: 谷歌员工，当时被其游记吸引了;
陈丹琦: NLP 专家，获得 2021 Google AI 研究学者计划;
张驰原: 谷歌大脑研究者;
翁天信: 一个未上过学的自学者，摄影精美;
李彬: Linux 后端工程师，从事存储行业;
codedump: Lua 高手，出过书;
白宦成: 网名 西秦公子，自由职业者;
卢昌海: 物理学家、科普作家，发表作品无数 👍;
中国独立开发者合集: 开源独立开发者合集;

独立开发者/项目

透明创业实验室: 一位独立开发者 @timqian 坚持每周更新独立开发进度;
毒蘑菇: 吴掌柜个人开发短文、名言、鸡汤网站;
W2Solo: 独立开发者信息交流社区，人不是很多，但有自己不了解的信息;

博刊(日/周/月刊)

【周刊】科技爱好者周刊: 阮一峰创作，每周五发布;
【月刊】HelloGithub: 有趣的开源项目合集;
【周刊】FEX 前端: 前端技术分享;
【周刊】Weekly 前端: 前端精读文章合集;
【日/周报】开源工厂: 开源项目介绍合集;
【日报】湾区日报: 关注创业与技术;
美团技术团队: 美团企业分享合集;
有赞技术团队: 有赞企业分享合集;
机器之心: 人工智能新闻合集;
全栈工程师增长指南: 全栈工程师指南;
专业程序员必看书籍指南: 程序员书籍指南;
大厂技术分享目录合集: 大厂分享目录合集;

LaTeX 介绍和使用

2020-08-22T02:07:25.000Z

最近在整理自己的收藏夹和知识集合，总感觉很多文档放本地或者印象笔记、有道笔记不是很好，遇到问题本能总是先 Google，不曾想过有时候自己已经花大量时间整理了，并且可能会出现在本地多个文档中整理了同一知识点，或者在不同笔记里都有记录相关问题，导致相关信息杂乱。因此，我规划从现在起将自己收藏的东西整理出来，全部放博客中，便于查找和统一更新。今天先更新 LaTeX 整理记录。

简介

1 . 七十年代末，Donald E. Knuth（高德纳）在看到其多卷巨著 “The Art of Computer Programming” 第二卷的校样时，对由计算机排版的校样的低质量感到无法忍受。因此决定自己来开发一个高质量的计算机排版系统，这样就有了 TeX 。

2 . TeX 的第一版于 1978 年面世，TeX 的源程序是用 Pascal 写成的，原因是 Knuth 希望 TeX 尽可能方便地移植到其它的操作系统中去。当时 Pascal 是最适合于这一要求的编程语言。这也使得 TeX 现在已经在几乎所有的计算机系统中得到实现。

3 . TeX 的另一个重要的特征就是它的输出是与 设备无关 的。TeX 的输出文件称为 DVI 文件，即是 “Device Independent” 。一旦 TeX 处理了你的文件，你所得到的 DVI 文件就可以被送到任何输出设备如打印机，屏幕等并且总会得到相同的结果，而这与这些输出设备的限制没有任何关系。这说明 DVI 文件中所有的元素，从页面设置到文本中字符的位置都被固定，不能更改。

4 . TeX 现在已经被它的开发者 Knuth 所 “冰封”(frozen)，基本不再开发了。但新的变种版本不断出现，

LaTeX: 1984 年，由 Lamport 开发, 适合论文书籍, 对 TeX 推广贡献巨大，由于其标准的格式控制，latex 逐渐成为主流的 TeX 文档排版命令。LaTeX 时代开启。
PDFTeX : 1997 年，由 H.T. Thanh 开发，完全兼容标准的 TeX ，但能够给出 PDF 输出。它也可以输出标准的 DVI 。
XeTeX : 2005年，Jonathan Kew 在 e-TeX 基础上添加 Unicode 支持，并且连接 Mac OS X 的各种技术。XeTeX 在2005/6年陆续发布了它的 Windows 和 Linux 版本，最终集成在 TeXLive 2007 当中，标志着它被广泛地认可。在 XeTeX 中，使用多国语言，变得非常轻松。
LuaTeX : 2007年，是 Aleph 与 PDFTeX 项目的继任者，主要由 Taco Hoekwater 开发，是 Lua 脚本语言和 TeX 的结合。

5 . LaTex 发型版本：

TeXLive : 【官方】是由国际 TeX 用户组织 TUG 开发的 TeX 系统，支持不同的操作系统平台。其 Windows 版本又称 fpTeX ， Unix/Linux 版本即著名的 teTeX, Mac 版本为 MacTeX。ISO 镜像下载地址：点我
MiKTeX : 原来是 Windows 系统平台上的一个发行版本，之后也扩展支持到 Linux 和 MacOS 了。其本身集成了一个编辑器 TeXworks。
CTex : 这个很多人谈论到中文 LaTeX 的时候会提到，但是 CTeX 发行版是民间为早期 LaTeX 不支持中文而基于 MiKTeX 开发的支持中文版本。其本身就是 MiKTeX。但现在 Unicode 支持的 XeTeX 和其他 TeX 已经趋于成熟，因此，现在不推荐再用 CTeX 版本了。
CTeX 宏集 : 这里要提一下 CTeX 宏集，这个宏集与 CTeX 发行版本/套装是完全不一样的东西，CTeX 宏集是 Chinese Support TeX，是为支持中文的 TeX 库，这个是在用到中文时必须要用的库，因此，千万不要混淆这两者。现今所说的 CTeX 一般都是指这个 CTeX 宏集。

发行版本

发行版本就是 LaTeX 多种标准实现类型。主要是分为 TeXLive 和 MiKTeX，其他版本都是基于这两个主流版本衍生而来的。这两大发行版本都是全平台支持的。MacTeX 实际上就是 TeXLive 的 MacOS 系统上的实现，因此这里归类其为 TeXLive。相关说明如下：

TeXLive: https://tug.org/texlive,【官方】发行，自带 TeXShop;
MacTeX: https://tug.org/mactex, 实际上属于TeXLive，因为支持 MacOS 较迟，因此给了新名称，自带 TeXShop;
MiKTeX: http://www.miktex.org, 自带 TeXWorks;
CTeX: http://www.ctex.org/HomePage，XeTeX 出现之前民间中文支持的版本，基于 MiKTeX，不再维护。目前中文文档用 XeTeX + CTeX 宏包即可支持了。

如果需要安装的话，大家看官网实际上都能找到地址的，为方便这里列下不同发行版本的不同平台下载地址:

TeXLive
- Windows: https://tug.org/texlive/windows.html
- MacOS: https://tug.org/mactex/
- Linux: https://www.tug.org/texlive/quickinstall.html
MiKTeX, 这个资源简单，同一个页面选择不同系统即可
- Windows: https://miktex.org/download
- MacOS: https://miktex.org/download
- Linux: https://miktex.org/download

编辑器

LaTeX 实际上和 Java 语言一样，都是需要先配置环境，然后选择一款自己喜欢的编辑器或 IDE 进行编写“代码”。当然所有文本编辑器都可以编写 LaTeX 或者 Java 等其他语言“代码”。这里的 IDE 指集成了一些语言本地化的功能，比如编译、特殊符号等等。

LaTeX 的发行版中会自带一款编辑器，用 TexLive 的话，MacOS 上会有个叫 TexShop 的编辑器，而 Windows 上则会是一个叫 TexWorker 的编辑器，这些是都可以胜任编写工作的。另外，也有第三的 LaTeX 编辑器，下面我整理出所有编辑器说明，我个人用的也推荐程度也放上了，这是个人喜好，大家根据自己的偏好选择。

TeXMaker: http://www.xm1math.net/texmaker/ , 全平台，免费，强烈推荐👍👍👍；
TeXStudio: http://texstudio.sourceforge.net/ , 全平台，免费，推荐👍👍；
WinEdit: http://www.winedt.com/index.html , 只支持 Windows，收费，自己选👍👍🍚；
TeXWorks: http://www.tug.org/texworks/ ，MiKTeX 自带编辑器，免费👍；
TeXShop: https://pages.uoregon.edu/koch/texshop/ ，TeXLive 自带编辑器，免费👍；

我个人推荐前两个，因为第三个收费且不跨平台，之所以写上第三个，主要是因为网络上很多博客或用户都推荐用第三个，这个我使用时也感觉不错，但每次我使用都得到 Windows 上使用，比较麻烦。当然，如果你使用 Windows 且有钱，WinEdt 确实使用体验和功能都是比较好的。

安装

Windows / MacOS: 建议安装 TeXLive，根据自己的系统选择对应的安装包。Mac 系统对应 MacTeX。
MacOS: 安装后会自动将命令加入到环境变量, 并自带 TeXShop 编辑器。
1
2
$ which latex
/Library/TeX/texbin/latex
MacOS: TeXShop 是 MacTeX 自带的编辑器，我个人倾向于再安装一个编辑器 TeXMaker，其内置较多可视化符号，可点击插入，简单便捷。
Windows: 推荐 TeXMaker 和 WinEdt , 专门针对 TeX 开发, 提供许多便捷功能, 有助于提高排版效率
编译推荐: 用 pdflatex ( 英文文档 ) 或 xelatex ( 中文文档 ) 编译, 生成相应的 pdf 文件。

使用

基础框架

1 . 基本结构

\documentclass[a4paper]{article} % 指定文档类型
% 导言区: 全局设置, 宏包调用等
\begin{document}
% 正文部分
Hi, this is my first \LaTeX{} file.
\end{document} % 结束

LaTeX 源文件：正文 + 命令 + 注解。
排版命令（简称：命令）：反斜杠 开头的字符串。
注解符号：百分号 %
文档类型：\documentclass{...}(论文、书籍、幻灯片、海报)
环境：\beigin{...} 开头，\end{...} 结尾。
附：\documentclass[]{} 就是引用模板，默认提供 article 等模板。

2 . 排版命令

方括号中的是可选的 (称为选项), 花括号中的参数是必需的

\command
\command[option]{arguments}
% 一些常用命令：
\documentcalss, \title, \author, \date, \usepackage 
\begin{环境名}, \end{环境名} % 组成一个环境

定义新命令

\newcommand{新命令}{命令内容}
\renewcommand{已有命令}{命令内容}
% 举例
\newcommand{\eps}{\varepsilon} % $\eps$ → ε

文档类型：\documentclass[选项]{文档类}
- 位于源文件的最前面, 用于指定文档的整体结构和布局, 必须且只能选一种
  - 常用 文档类: article, book, beamer, ctexart, ctexbook, ctexbeamer
  - 常用选项:
  - 10pt(缺省值), 11pt, 12pt → 指定基本字体的大小
  - letterpaper(缺省值), a4paper, a5paper, … → 指定纸张的大小
  - 单双面选项: oneside, twoside, openright, openany
  - 数学公式: leqno (公式编号在左边), fleqn (靠左显示行间公式)
- 导言区: \documentclass 和 \begin{document} 之间的区域
  - 导言区用于放置全局控制命令, 如: 调用宏包, 设置页面大小, …
  - 放在导言区的命令对整个文档都起作用

3 . 中文排版

CTEX 宏集中提供了三个中文文档类: texart, ctexbook, ctexbeamer

用 xelatex 编译! 用 xelatex 编译! 用 xelatex 编译!

\documentclass[12pt,a4paper]{ctexart} 
\usepackage{amsmath}  % AMS 数学公式 宏包 
\usepackage{amssymb}  % AMS 数学符号 宏包 
\usepackage{amsfonts} % AMS 数学字体 宏包 
\usepackage{graphicx} % 插图 宏包 
\usepackage{xcolor}   % 彩色 宏包
\begin{document} 
欧拉公式是
$$ e^{ix} = \cos(x) + i\sin(x).$$
\end{document}

常用包和命令

1 . 代码和注释：

% 页面布局：页面宽度, 页面高度, 页眉高度, 页脚高度，各种边距等等
% \usepackage[a4paper,scale=0.8,hcentering,bindingoffset=8mm]{geometry} % A4纸大小，缩放80%，设置奇数页右边留空多一点
\usepackage{geometry} % 页面布局 宏包
% 定制页眉页脚: \pagestyle, \thispagestyle
\usepackage{francyhdr} % 页眉页脚高级定制 宏包 
%
\usepackage{amsmath} % AMS 数学公式 宏包 
\usepackage{amssymb} % AMS 数学符号 宏包 
\usepackage{amsfonts} % AMS 数学字体 宏包
\usepackage{amsthm, bm} % 数学
%
\usepackage{algorithm} % 算法
\usepackage{algpseudocode} % 伪代码
\usepackage{listings} % 各种语言的代码块
%
\usepackage{graphicx}   % 插图 宏包 
\usepackage{subfigure}  % 使用子图像或者子表格 宏包
\usepackage{subcaption} % 图片描述
%
\usepackage{courier}    % 字体
\usepackage{fontspec}   % 字体
%
\usepackage{titlesec} % 章节定制 宏包
\usepackage{titletoc} % 目录定制 宏包
\usepackage{cite}     % 引用  宏包
\usepackage{natbib}   % 参考文件定制 宏包
\usepackage{longtable, diagbox, colortbl, booktabs} % 表格定制 宏包
%
\usepackage{list}     % 无序列表定制 宏包
\usepackage{enumitem} % 有序列表定制 宏包
%
\usepackage[选项列表]{hyperref} % 超链接 宏包
\usepackage{xcolor}   % 彩色 宏包
%
% ====================== 常用命令 =================
%%%%%%%%%% 标题部分： 标题, 作者, 日期, 脚注等命令 %%%%%%%%%%
\title{标题}  % 标题
\author{作者} % 作者
\date{日期}   % 日期
% \date{} % 留空则不输出日期，不填则自动加上默认日期，所以要不显示日期需要这句命令
\thanks{...} % 脚注，这个必须放在上面命令的{}内
\maketitle   % 必不可少，生成标题命令，以上命令只是声明，这句才可生成
%%%%%%%%%%%%% 摘要 %%%%%%%%%%%%
\begin{abstract} % 开始，book 类型没有摘要
%... ...
\end{abstract}   % 结束
%%%%%%%%%%%%% 目录 %%%%%%%%%%%%%
\tableofcontents % 生成目录
% \setcounter{tocdepth}{层次号} % 设置目录中生成的章节层次
%%%%%%%%%%% 章节命令 %%%%%%%%%%%
\part % 篇
\chapter % 章 : article 中没有 chapter，在 book 中有 
\section, \subsection, \subsubsection % 节
\paragraph, \subparagraph % 段落
%%%%%%%%%% 参考文献 %%%%%%%%%%%
\begin{thebibliography}{编号样本} 
\bibitem[编号]{标签} 文献条目 
\bibitem[编号]{标签} 文献条目
\end{thebibliography}
%%%%%%%%%% 表格命令 %%%%%%%%%%%
\begin{tabular}[竖向位置]{列格式} 
%first line \\
%last line \\
\end{tabular}
%%%%%%%%%% 编号命令 %%%%%%%%%%
% 无序编号
\begin{itemize} 
\item[标签] 条目内容
\end{itemize}
% 有序编号
\begin{enumerate} 
\item[标签] 条目内容
\end{enumerate}
%%%%%%%% 脚注 %%%%%%%%%
 \footnote{脚注文本} % 自动编号脚注，紧接在需要标注的文字之后
 \footnote[标记]{脚注文本} % 手工指定脚注标记

2 . 特殊说明

短标题: 用于显示在目录和页眉中, 缺省与标题相同

带星号的章节命令: 不参与自动编号

\章节命令[短标题]{标题} 
\章节命令*{标题}

章节举例
文本对齐方式 (缺省为左对齐)
- 左对齐: \raggedright 或使用 flushleft 环境
- 右对齐: \raggedleft 或使用 flushright 环境
- 文本居中: \centering 或使用 center 环境
字体大小
- 英文/中文都适用
- 中文字体: ctex 提供的命令和字号命令如下
  1
  \heiti, \songti, \fangsong, \kaishu, \lishu, \youyuan, \yahei

超链接

1 . \usepackage[选项列表]{hyperref}

在有交叉引用的地方 (如目录, 书签, 参考文献, 公式等) 建立链接
提供对外部文件, 互联网网址, 邮件地址的链接
常用选项 (也可通过 \hypersetup{选项列表} 来设置)
- bookmarks → 创建书签, 缺省为 true
- CJKbookmarks → 支持中日韩文字的书签
- colorlinks → 使用彩色显示链接, 缺省为红色方框
- linkcolor → 内部普通链接 (如页码) 的颜色, 缺省为 red
- citecolor → 文献引用链接的颜色, 缺省为 green
- urlcolor → URL 链接的颜色, 缺省为 magenta
- breaklinks → 允许在链接中断行, 缺省不允许

2 . 例子：

\usepackage{hyperref} 
\hypersetup{CJKbookmarks=true,  % 支持中文书签
            colorlinks=true,    % 使用彩色链接
            citecolor=blue,     % 引用标记颜色
            linkcolor=blue,     % 内部普通链接的颜色
            urlcolor=blue,      % url 链接的颜色
            breaklinks=true }   % 允许在链接处换行

3 . 创建网页链接: \url 和 \href

\url{网址}
\href{网址}{文本}

\url → 生成网址的同时在页面上输出其内容
\href → 生成网址的同时在页面上输出文本的内容

颜色

https://www.jianshu.com/p/d184caa2cf15

\documentclass{article}
\usepackage{xeCJK}
\usepackage{mathpazo}
\usepackage{color,xcolor}
% predefined color---black, blue, brown, cyan, darkgray, gray, green, lightgray, lime, magenta, olive, orange, pink, purple, red, teal, violet, white, yellow.

\definecolor{light-gray}{gray}{0.95}    % 1.灰度
\definecolor{orange}{rgb}{1,0.5,0}      % 2.rgb
\definecolor{orange}{RGB}{255,127,0}    % 3.RGB
\definecolor{orange}{HTML}{FF7F00}      % 4.HTML
\definecolor{orange}{cmyk}{0,0.5,1,0}   % 5.cmyk

\begin{document}
%\pagecolor{yellow}          %设置背景色为黄色
\textcolor{green}{绿色}     %1.方法一
{\color{orange} 橙色}       %2.方法二

\colorbox{red}{\color{black}红底黑字}
\fcolorbox{red}{green}{红框绿背景} %框色+背景色

\color{blue!20}
\color{blue!20!black}
\color{blue!20!black!30!green}  %a mixture of (20*0.3) percent blue, ((100-20)*0.3) percent black and (100-30) percent green

{\color[rgb]{1,0,0} This text will appear red-colored}          % 直接使用
\textcolor[rgb]{0,1,0}{This text will appear green-colored}     % 直接使用

\end{document}

参考

随手拍

2020-06-13T04:00:40.000Z

最近一个月，疫情逐渐缓和了。在公司吃完午饭后走一走是一件很愉悦轻松的事情😊。

虽然目前还没有经济和时间出去旅游，但自己还是很喜欢美好的景色的。

随手记录下自己所见，留存在手机和博客中，想来老去后才会有值得回忆之事。

图1

图2

图3

图4:

图5:

图6:

图7:

日志随想

2020-06-10T07:16:40.000Z

去年(2019年) 7 月入职，到今天也差不多一年了吧。在公司确实学习到了很多技能，但最令我欣慰的应该是公司的整体环境：Leader 随和，同事友好，工作环境舒适开放，双休不常加班(自愿)，另外有大牛带，每两周都有内部大神分享经验。

从大学、到研究生，再到工作，一路走来，都很庆幸自己没有走太多的弯路。

本科时，同学关系很铁，这也是本科给我的最有价值的东西，到现在最常联系的也是本科的那一波人。而本科的魄力和能力则十分欠缺。虽然最终保研了，但对于我而言，保研靠的是我那书呆子的”读书“能力。我不认为这是值得表扬的事情，因为这种能力对我而言是比较”畏弱“的表现，没有特色、没有想法、没有表达，只会做题。。。

读研期，与导师关系很铁。看到网上很多导师压榨学生的新闻，我感觉遇到导师则是用尽了毕生的运气了。从大二开始就加入了导师实验室。谈项目，见客户，去企业做技术支持、企业招标导师都带上我，让我见识到了更多的人与事，真的让这个从农村来的我眼界大开。此外，师弟师妹的加入，让研究生的实验室更加活泼、朝气、美好。让原本孤独的自己有了陪伴，很喜欢那种一起”挥霍时间“的感觉。

到现在，虽然没有成为什么成功人士，但心性和认知我自认为自己了解了他们是什么。

公司最近裁员了，实习期认识的同事被迫离职了。。。，不知道自己能干多久。我知道命运应该要掌握在自己手里，如何掌握还需进一步探索。希望刚入行或即将入行的同学提早规划下吧！

QUIC/HTTP3 协议说明与站点构建

2020-05-29T14:16:25.000Z

HTTP 已不再是全基于 TCP 了，QUIC 的发展终将带来 HTTP3

互联网的世界绝大部分的数据传输都是基于 HTTP 协议。自从 1990 年伯纳斯·李发明这 超文本传输协议(HTTP, HyperText Transfer Protocol) 后，于 1999 年 IETF 才正式发布 HTTP1.1(RFC 2616) 协议版本，而这个版本一用就是 15 年，至 2015 年 IETF 才正式发布 HTTP2(RFC 7540) 协议版本。其中 HTTP2 相比 HTTP1.1 的优化，我将会专门写个文章详细说明下。而今天我们会谈未来的 HTTP 协议 – QUIC/HTTP3。

本文将实现支持 QUIC/HTTP3 协议站点: https://http3.godjiyi.cn:9445/
个人实现 HTTP1.1/HTTP2/HTTP3 速度对比示例: https://demo.godjiyi.cn
开源 QUIC 支持项目： https://github.com/jiyiren/quic-web

视频示例:

your browser does not support the video tag

协议截图:

QUIC 与 HTTP3

相信大家很早听说的下一代协议是 QUIC, 即 Quick UDP Internet Connections，意为快速UDP网络连接。该协议最早是由谷歌于 2013 推出的，项目首页: https://www.chromium.org/quic，并且在谷歌自家的 Youtube 和搜索引擎上试验，有兴趣的可以看下 The QUIC Transport Protocol - Design and Internet-Scale Deployment 这篇谷歌发表的论文。下图是谷歌应用 QUIC 于搜索引擎的的搜索延迟降低的百分比。(标1的地方是当时谷歌发现了 Bug，到标2处修复后重新上线。标3处则是谷歌进行了一次优化，所以性能有了逐步提高) 整体上能降低搜索 6% 的延迟。

正因为 QUIC 的优势(为什么会有这优势，下面会进行说明)，谷歌已经逐步将 QUIC 推广到自家的各个服务中了。

而当时 IETF 组织正忙于 HTTP2 协议的标准化，最终于2015年5月正式发布 HTTP2 规范(RFC 7540)。在 HTTP2 标准化完后，IETF 终于有时间进行下一代 HTTP 标准化，也就是 HTTP3。而谷歌也有意将 QUIC 作为普适性协议进行推广。因而，于同年6月，谷歌提交 QUIC 草案给 IETF，以期作为下一代 HTTP 协议标准进行普及。

至 2018年，IETF组织中专门制定 HTTP 协议的组织(HTTP WG)正式确定将基于 QUIC 的 HTTP (HTTP Over QUIC) 作为下一代 HTTP 协议，并重命名为 HTTP3。并且 HTTPWG 认为标准化的 QUIC 协议应该支持 HTTP 以外的应用层协议。因此，IETF 将 QUIC 作为单独的传输层进行标准化，并成立了专门的 QUIC 协议标准化小组。

这里 QUIC 出现的频次较多，由于历史原因，导致大家会很难理解 QUIC 的具体含义，这里着重讲解下。

HTTP3 确立标准化之前，QUIC 代表的都是谷歌的 QUIC，表示完整的 HTTP 实现，其又分为两种；
- HTTP2 协议标准化之前: 传输层 UDP 实现类 TCP 特性协议 + Spedy;
- HTTP2 协议标准化之后: 传输层 UDP 实现类 TCP 特性协议 + HTTP2;
HTTP3 确立标准化之后，QUIC 既指代谷歌的 QUIC 也指代 IETF 的 QUIC, IETF 的 QUIC 仅仅表示传输层 QUIC，不包含应用层的实现;

为便于更好地区分 HTTP3 标准化前后两种 QUIC，现在，一般我们现在将谷歌的 QUIC 改称为 gQUIC，而 QUIC 则仅仅指代 IETF 的传输层 QUIC。文字不好理解，我特意画了张图。

虽然现在我们知道这 QUIC 应该指 IETF 的基于 UDP 的上层 “传输层协议”，但是由于 HTTP3 还没有出正式标准，且了解 IETF 中规范的 QUIC 标准很少，因此互联网上所说的 QUIC 一般都是 gQUIC。下文除非特别说明，QUIC 一律指 gQUIC。

QUIC/HTTP3 特性

对于 QUIC 的特性这里简单说下，以后会对每个点进行详细解释。

我们直接看谷歌 QUIC 官方首页：https://www.chromium.org/quic

一共总结四点：

大大减少建立连接时间;
增强的拥塞控制;
无队头阻塞的多路复用;
连接迁移;

通过整理了网上的特性说明，我将转换了下说法：

1/0 RTT;
优化拥塞控制;
无队头阻塞;
连接迁移;

对应的图示如下:

1/0 RTT

RTT 是指互联网上两个点建立连接的一次往返时间(round-trip time)。QUIC 建立握手的时间能达到 1 或 0 RTT。这是因为原有的 HTTP 是基于 TCP 的方式中：

① 裸 HTTP 需要 1.5 RTT；
② HTTPS 方式需要 3 RTT；

而 QUIC 则是基于 UDP 的，UDP 无需建立握手就能传输数据，那 1 RTT 只指 SSL 的建立时间。因此建立连接效率比原有 HTTP 快。这个我会专门写篇文章介绍。

而裸 HTTP 是不安全的，谷歌表示未来的协议都将默认加入安全传输 SSL 协议，因此 QUIC 本身就是要基于加密的，目前的大多数 QUIC 协议的实现也都默认含有加密的，因此，对于 QUIC 的对比，一般都是以 HTTPS 进行对比的。

优化拥塞控制

我们知道 TCP 的拥塞控制是内嵌于操作系统的，Linux 内核从 2.6.19 开始就是用 Cubic 拥塞控制算法。而谷歌于 2016 年发明了全新的 TCP 拥塞控制算法 – BBR (Bottleneck Bandwidth and RTT)，这个已经验证是比 Cubic 性能更好的拥塞控制算法。因此，Linux 内核从 4.19 开始加入了 BBR 算法。

每一次的拥塞控制算法的更新都要更新内核，这使得新算法的迭代和普及极其缓慢。而 QUIC 协议则是基于 UDP 实现的类似 TCP 的协议，诸如有序控制、拥塞避免、拥塞控制都进行了重新实现。从宏观上来看，QUIC 则就是应用层协议，这对于拥塞控制算法的更新极其容易，不用更新操作系统。

此外 QUIC 中的拥塞控制是可拔插式的，这可更进一步优化和迭代各种新的拥塞控制算法。这也是 QUIC 极具吸引人的地方。

无队头阻塞

这里的消除队头阻塞在 QUIC 上是彻底地消除了。我们都知道 HTTP2 协议的规范上也说了消除队头阻塞。但那仅仅是消除了 HTTP 连接的队头阻塞，而根本上的 TCP 队头阻塞是没有消除的。因为只要基于 TCP 就铁定有 TCP 队头阻塞的。而 QUIC 是基于 UDP 的，非面向连接的，从而自动消除 TCP 队头阻塞。

多路复用是 HTTP2 的一大特定，也是相比 HTTP1.1 的提升体现。一个 web 站点在使用 HTTP2 协议时，只需要建立一个 TCP 连接，所有的数据通过帧进行发送，多个 HTTP 连接里的帧可以并行通过一个 TCP 连接发送。而原有的 HTTP1.1 则是一个 HTTP 连接就只能在一个 TCP 连接里发送，多个 HTTP 连接不能并行发送。一般 Chrome 浏览器对于 HTTP1.1 协议允许一个网站建立最多 6 个 TCP 连接。
虽然 HTTP2 的多路复用可解决 HTTP 连接并行问题，但解决不了 TCP 的队头阻塞问题。我们知道 TCP 需要包有序到达，当无序的时候，接收方会等待缺少的包，直至包到达。这是 TCP 的优点，也是缺点。
谷歌为了解决 TCP 握手和这种天生的缺陷，就基于 UDP 实现了类 TCP 各种特性的新协议，并将此协议融入 QUIC，这也就是 QUIC 天生就无队头阻塞的原因。

连接迁移

连接迁移这个就是指手机在 4G/5G 流量网络与 WIFI 网络之间可以无缝切换，而无需重建连接。

我们知道原有的基于 TCP 的 HTTP 协议，在切换网络时，都需要我们的手机与服务器进行重新建立 TCP 连接，然后才能重新发送 HTTP 数据包。

而 QUIC 协议是基于 UDP 的，天生无面向连接之说，但是我们还是需要维持客户端与服务的逻辑连接的。QUIC 中在数据包的头部加了 ConnectionID，这样每个 UDP 包里都有同一个连接的 ID，即使手机从 4G 切为 WIFI 了，手机在发送包时，仍然正常发送，而服务器可以根据 ConnectionID 进行组装即可，这也就是无缝连接迁移。

废话不多说，看谷歌给的连接迁移 Demo: QUIC Connection Migration demo

构建 QUIC/HTTP3 服务

QUIC库选择

由于 HTTP3 协议还在制定中，目前还没有正式的标准出台，只有每年定期举行的会议会给出 Draft 手稿。 IETF 官方 QUIC 工作组有统计在协议设计期间的各种实现库：

大家可以看下，我自己对比了比较常用和著名的库，表格如下，希望对大家选择有帮助。

今天我们先用 openlitespeed 库进行部署支持 QUIC 协议的 WEB 网站。因为该库官网放出性能是 Nginx 的几倍，且支持 gQUIC 和 HTTP3 协议。

QUIC 部署

openlitespeed 安装很简单，可以看官方教程: Install OpenLiteSpeed, 为防止部分人看不到，我记录了下：

先根据系统安装 repo 源:

# CentOS 5
rpm -Uvh http://rpms.litespeedtech.com/centos/litespeed-repo-1.1-1.el5.noarch.rpm
# CentOS 6
rpm -Uvh http://rpms.litespeedtech.com/centos/litespeed-repo-1.1-1.el6.noarch.rpm
# CentOS 7
rpm -Uvh http://rpms.litespeedtech.com/centos/litespeed-repo-1.1-1.el7.noarch.rpm
# CentOS 8
rpm -Uvh http://rpms.litespeedtech.com/centos/litespeed-repo-1.1-1.el8.noarch.rpm
# Debian 7, 8 & Ubuntu 12,14,16,18
wget -O - http://rpms.litespeedtech.com/debian/enable_lst_debian_repo.sh | bash
# Amazon Linux
wget http://rpms.litespeedtech.com/centos/litespeed.repo -P /etc/yum.repos.d/

再执行安装命令(根据自己的系统选择安装命令)

# CentOS
yum install openlitespeed
# Debian & Ubuntu 
apt-get install openlitespeed

安装完了就进行配置，配置说明请参考官方文档: Configuration

说实话，这个库是有后台的，是可视化配置，但是比较难用，需要自己熟悉才行。为避免大家浪费时间，我将整个服务安装好，并配置好了，构建了一个基础镜像：https://hub.docker.com/r/jiyiren/http-base-quic，如何配置自己的服务呢，下面简单讲下。

部署和配置代码已放 Github 上：https://github.com/jiyiren/quic-web

效果展示，我部署在我自己的服务器上: https://http3.godjiyi.cn:9445/ 。

并且我也写了一个 HTTP1.1 、HTTP2、HTTP3 速度加载对比示例: https://demo.godjiyi.cn

分别用 Chrome 浏览器和 Firefox 浏览器进行测试。这里说明下：

目前 Chrome 浏览器支持谷歌自家的 QUIC 协议，而谷歌家的 QUIC 原来单叫 QUIC，比如 gQUIC/46。在提交草案给 IETF 后，IETF 也开始了标准化，因此逐渐地谷歌开始将自家的 QUIC 像 IETF 标准靠，因此为 gQUIC-h3-50，相信以后 Chrome 会逐渐替换到 HTTP3 来。
而 Firefox 浏览器本身就和 Chrome 是竞争关系，所以虽然 QUIC 好，但没有国际组织的支持 Firefox 也不会支持的。而在谷歌提交草案后，得到了 IETF 的认可，并且 IETF 在进行标准化了，因此 Firefox 直接实现了 IETF 正规的 Draft 版本协议。所以 Firefox 浏览器标识时正规的 HTTP3 协议。

但不论怎样，这些协议思想一致，都是 UDP 进行传输，握手 RTT 很低，大家通过上面的速度加载对比就能看出来 HTTP3 的快速，当然在弱网情况下效果会更好点。

项目已放入 Github：https://github.com/jiyiren/quic-web 基于 Docker 构建，可以非常快速的构建自己的站点或 API。

参考

国际标准化组织发展史

2020-05-09T00:07:25.000Z

最近在了解 HTTP 协议的时候知道了 IETF 标准化组织，而前端中的 W3C，以及 EMCA 这些组织也在网上经常看到，还有国际标准化组织 ISO 这些到底有什么关系呢？下面记录下自己的了解。

主要关键词: IEC、ISA、ISO、ITU、EMCA 、IETF、W3C 等说明;

IEC: 国际电工委员会
ISA: 国家标准化协会的国际联盟
ISO: 国际标准化组织
ITU: 国际电信联盟
EMCA: 欧洲计算机制造商协会
IETF: 互联网工程任务组
W3C: 万维网联盟

时间线图示:

下面会分别对各个组织进行详细介绍。

国际电工委员会( IEC )

英文: International Electrotechnical Commission ( IEC )
主页: https://www.iec.ch/
成立时间: 1906 年
设立总部: 日内瓦
标准内容: 负责有关电工、电子领域的国际标准化工作

IEC 成立于 1906 年，是世界上最早的国际性电工标准化机构，总部设在日内瓦。但由于 IEC 只关注电工领域标准化，而其他方面缺少标准化组织进行全球化规范。而直到 1947 年 国际化标准组织 ISO(下面会介绍) 成立，其关注全方面的标准化内容。

而 IEC 既然已经在电工领域进行标准化运作了，因此，IEC 作为电工部门并入 ISO，但在技术上、财务上仍保持其独立性。根据 1976 年 ISO 与 IEC 的新协议，两组织都是法律上独立的组织，IEC 负责有关电工、电子领域的国际标准化工作，其他领域则由 ISO 负责。 IEC 的工作领域包括了电力、电子、电信和原子能方面的电工技术。现已制订国际电工标准 3000 多个。

IEC 是世界上最早的国际性标准化组织了，也是因为全球化的发展起源于电力的运用，因此电力领域是最早进行规范化的部分，而其他部分随着历史的发展也不得不成立新的组织。

国家标准化协会的国际联盟 ( ISA ) (已终止)

英文: International Federation of the National Standardizing Associations ( ISA )
成立时间: 1926 年
标准内容: 负责有关机械工程方面
终止时间: 1942 年

前面 1906 年 成立的国际电工委员会 ( IEC ) 是世界上最早的国际标准化机构，但它主要专注于电子领域。其他技术领域的工作还没有标准化组织进行规定约束，因此在 1926 年成立了 国家标准化协会的国际联盟 ( ISA ) 来承担该角色，ISA 的重点在于机械工程方面。直到 1939.9.1-1945.9.2 爆发的第二次世界大战，ISA 的工作最终在 1942 年终止运行。

国际标准化组织 ( ISO )

英文: International Organization for Standardization ( ISO )
主页: https://www.iso.org/home.html
成立时间: 1947 年
设立总部: 日内瓦
标准内容: 负责有关工业方面的国际标准化工作

上面也说了 ISA 由于二战最终终止运行了，那非电子领域的国际标准化工作总的有人来做吧。于是，在二战后一年的 1946 年，来自 25 个国家的代表在伦敦召开会议，决定成立一个新的国际组织，其目的是促进国际间的合作和工业标准的统一。于是，ISO 这一新组织于1947年2月23日正式成立，总部设在瑞士的日内瓦。

ISO 标准的内容涉及广泛，从基础的紧固件、轴承各种原材料到半成品和成品，其技术领域涉及信息技术、交通运输、农业、保健和环境等。

多人注意到国际标准化组织( International Organization for Standardization )的全名与缩写之间存在差异，为什么不是“IOS”呢? 其实，“ISO”并不是首字母缩写，而是一个词，它来源于希腊语，意为“相等”，现在有一系列用它作前缀的词，诸如“isometric”(意为“尺寸相等”)、“isonomy”(意为“法律平等”)。从“相等”到“标准”，内涵上的联系使“ISO”成为组织的名称。

说到 ISO 作为计算机专业的大家是不是一下子就能想到一个互联网基础协议– OSI 七层网络互联协议，这里的 OSI 是指开放系统互联( Open System Interconnection ) 的意思，也是英文缩写，并且该标准就是 ISO 这一标准组织设定的。虽然这七层互联协议在工业实践中被 TCP/IP (注: TCP/IP 协议不是由组织定义的而由罗伯特·卡恩、温顿·瑟夫在1978年发明的)协议超越，但它提供的分层设计思想为后来很多系统和协议提供了很大的帮助。

目前，ISO已经发布了至少 17000多个国际标准，如 ISO公制螺纹、ISO的A4纸张尺寸、ISO的集装箱系列（世界上95%的海运集装箱都符合ISO标准）、ISO的胶片速度代码，以及最出名的ISO9000 品质保证标准也是由 ISO 发布的。

由于 ISO 是国际标准，有的时候并不适合国内，因此我国一般会对国际标准进行修改以适应国内情况，为避免国内标准与国际标准不一致，因此国内命名的标准一般以 GB/T (GB 国标的首字母，T 表示推荐标准) 开头，对于国际标准的，一般后面接 1+ 国际标准代号，如 ISO9000 在国内则叫 GB/T19000。

国际电信联盟 ( ITU )

英文: International Telecommunications Union ( ITU )
主页: https://www.itu.int/zh/Pages/default.aspx
成立时间: 1934 年
设立总部: 日内瓦
标准内容: 负责有关电信(电通信)方面的国际标准化工作

ITU 的历史可追溯到 1865 年。为了顺利实现国际电报通信(注: 1864年，麦克斯韦建立电磁理论)，1865年5月17日。当时有20个国家的代表在巴黎签订了一个《国际电报公约》。

之后，

1875年，贝尔发明电话。
1887年，赫兹证明电磁波的存在。
1896年，马可尼发明无线电报。

这使得电通信得到长足发展，而无线通信也逐渐步入人类生活。于是，

1906年有27个国家代表在柏林签订了一个《国际无线电报公约》。
1924年在巴黎成立了国际电话咨询委员会。
1925年成立了国际电报咨询委员会。
1927年在华盛顿成立了国际无线电咨询委员会。

1932年, 70多个国家代表在西班牙马德里开会，决定把上述两个公约合并为一个《国际电信公约》，并将电报、电话、无线电咨询委员会改为“国际电信联盟”。并决定自1934年1月1日起正式改称为“国际电信联盟 (ITU)”。

1947年10月15日，经联合国统一，国际电信联盟( ITU )成为联合国的一个专门机构，其总部由瑞士伯尔尼迁至到日内瓦。ITU 是联合国的15个专门机构之一，但在法律上不是联合国附属机构，它的决议和活动不需联合国批准，但每年要向联合国提出工作报告。

对于 ITU 的标准规范，我们最熟悉的莫过于无线网络的传输方面的规划了，比如频谱管理、无线电波传播、卫星业务等。未来的 5G 相关传输标准和频率划分也离不开 ITU 的规范。

ECMA

英文: European Computer Manufacturers Association ( ECMA )
中文: 欧洲计算机制造商协会
主页: https://www.ecma-international.org/
成立时间: 1961 年
设立总部: 日内瓦
标准内容: 目标是评估、开发和认可电信和计算机标准

这个机构我们一般都比较熟悉其下的一个标准 ECMA-262 ECMAScript 标准，因为 JavaScript 语法就是由其标准化的。

ECMA 是 1961 年 成立的，与前面的 IEC、ISO、ITU 等机构不同，它本身并不是官方机构，而是由主流厂商组成的一个非盈利组织。旨在建立统一的电脑操作格式标准(包括程序语言和输入输出)的组织。该组织的目标是评估、开发和认可电信和计算机标准。

简单说吧，就是 IEC、ISO、ITU 等官方机构定义基础设施标准，比如安全级别、通用尺寸、频谱划分等，各种类别都有定义，而 ECMA 则只关注计算机方面的基础设施标准，并进一步对应用层方面进行更细致的标准定义，一般由谷歌、微软、苹果等大厂通过实践经验进行提交参议稿，大家可以看百度百科 ECMA, 已发布的标准名单里基本都是编码、磁带、软盘、磁盘、文件系统等与计算机相关的标准。

由于 ECMA 也是跟随国际组织的标准的，为便于跟进国际标准，大家决定把 ECMA 的总部设在日内瓦，因为这样能够让它与其它与之协同工作的标准制定组织更接近一些，比方说国际标准化组织（ISO）和国际电工委员会（IEC）。

对于前面讲的 ECMAScript 标准与 JavaScript 的关系这里也说下。在 1995 年时，网景公司发布了世界上第一个商用浏览器 Netscape, 并同时发明了 JavaScript 以便于用户网页动态交互。之后微软发现浏览器的重要性，于是就爆发了世界著名的浏览器大战。微软在 IE 中也发布自家的 JScript 脚本，之后还有其他的脚本语言出现，如: CEnvi 的 ScriptEase。

这么多脚本语言的出现，导致不同浏览器的脚本写法各不相同，因此，急需一个标准来规范各种网页脚本语言。

1997 年，JavaScript 1.1 作为一个草案提交给 ECMA，ECMA 的第 39 技术委员会（TC39）被委派来“标准化一个通用、跨平台、中立于厂商的脚本语言的语法和语义”。锤炼出了 ECMA-262 第一版( ES1 )。而 ECMA 为了避免 JavaScript 版权名问题，于是就将标准定义为 ECMAScript，作为全新脚本语言规范。
1998 年，国际标准化组织及国际电工委员会（ ISO/IEC ）也采纳 ECMAScript 作为标准（ISO/IEC-16262）。同年发布了 ECMA-262 第二个版( ES2 )
2002 年，ECMA-262 第三版( ES3 )，新增引入了强大的正则表达式，更好的字符串处理，新的控制语句，try / catch 异常处理，更严格的错误定义，数字输出的格式化以及预期未来语言增长的微小变化。第三版在当时应用非常广泛，几乎所有的浏览器都支持 ES3 的标准。

ECMA-262 第四版本( ES4 )夭折，部分功能被迁移到ES6中。

2009 年：ECMA-262 第五版( ES5 )发布。在 ES3 的基础上增加了很多功能：包括访问器属性，对象的反射创建和检查，属性的程序控制，附加的数组操作函数，对 JSON 对象编码格式的支持以及提供增强的错误检查和程序安全性的严格模式。
2011 年：被批准为国际标准 ISO/IEC 16262，同年发布 ES5.1 版本（对 ES5 做一些升级优化）同时被 MCMA-262 和 ISO/IEC 批准
2015 年：ECMA-262 第六版（ ES6 或者叫 ES 2015 语言规范），ES6 可以说从2000 年，ES3 发布之后就开始沉淀，由于 ES4 的夭折，ES4 中的一些功能特性一直等到 ES6 才发布，所以第六版的完全是十五年的努力的结果。

ES6 主要新增了如下功能：主要增强包括模块，类声明，词法块范围，迭代器和生成器，异步编程的承诺，解构模式和适当的尾部调用。内置的 ECMAScript 库被扩展为支持额外的数据抽象，包括映射，集合和二进制数值数组，以及对字符串和正则表达式的使用。

从 ES1 到 ES6 ( ES4 除外)，不管大家有没有亲身经历过，至少到现在为止我们可以使用由 ECMA 制定好的标准规范，而无需担心各种兼容性问题了。

互联网工程任务组

英文: The Internet Engineering Task Force ( IETF )
主页: https://www.ietf.org/
成立时间: 1985 年
标准内容: 负责互联网相关技术规范的研发和制定

IETF 也是非官方机构，它也只是一个公开性质的大型民间国际团体，汇集了与互联网架构和互联网顺利运作相关的网络设计者、运营者、投资人和研究人员，并欢迎所有对此行业感兴趣的人士参与。

IETF 内部引领者也基本都是苹果、谷歌、微软等公司员工。因为 IETF 的目标是互联网中的技术规范，而互联网中最具影响力的就是操作系统与浏览器(包括搜索引擎)，而这些工具都被苹果、微软、谷歌牢牢掌握住了。也正因为此，这些巨头也希望规范标准向着有利于自身的利益方向发展，从而很多新的规范标准得建议稿以及代码实现、测评也都是由这些巨头公司完成的，毕竟他们的用户都是覆盖全球的、网络流量也都是数一数二的，从这些公司中测试的结果中才能更好地体现标准的性能或优劣。

就比如我们最常用的 HTTP 协议吧，从 1999 年 HTTP 1.1 标准发布后，经过了 16 年，直到 2015 年才发布 HTTP2。而其中对其贡献最大的莫过于 Google 公司了。因为 HTTP2 是基于 Google 在 2009 年提出的 Spdy 协议的。而未来的 HTTP3 也是基于 Google 提出的 QUIC 协议进行设计的，HTTP3 的草案也是由 Google 在 2015 年提交给 IETF 的。

为什么谷歌能引领 HTTP 协议呢？最主要的就是谷歌浏览器占有时长 80% 以上的市场份额，因为 HTTP 新协议的测试必须有两个要素，第一个就是浏览器、第二个就是服务端。服务端很好控制，新协议部署就行，但是浏览器要修改新协议则必须是自家的才行。而 Google 正是因为拥有了大量的浏览器市场份额，才能很早就设计并实验超高性能的新协议。

正因为有这些巨头乐意参与标准的制定，才会推出性能越来越好、适用范围越来越广的标准规范，推动着时代进步。

IETF 制定的是整个互联网的标准，比下面讲的 W3C 机构的范围更广。因为 21 世纪是“万物基于互联网”的时代，而 W3C 负责的仅仅是网页内容的规范制定，虽然网页是互联网中最大的应用场景，但仍然有很多其他互联网应用，比如：FTP，邮件，DNS 等等。简单来说，W3C 制定的仅仅是基于 HTTP 协议的网页方面的规范标准，而 IETF 则制定互联网互联互通规范标准，包括各种协议，比如 HTTP 就是 IETF 制定的。另外 IP（包括 IPv4, IPv6）、DNS、SMTP 也都是由 IETF 制定。目前 IETF 的最新工作内容则是 HTTP3，还没有发布正式版本。

W3C

英文: World Wide Web Consortium ( WWWC 又称 W3C )
中文: 万维网联盟
主页: https://www.w3.org/
成立时间: 1994 年
成立地点: 麻省理工学院计算机科学实验室
标准内容: 最重要的工作是发展 Web 规范，主要包括 HTML、CSS的规范标准

万维网联盟，又称 W3C 理事会。1994 年10月在麻省理工学院计算机科学实验室成立。建立者是万维网的发明者蒂姆·伯纳斯·李。到目前，W3C 已成为 Web 技术领域最具权威和影响力的国际中立性技术标准机构。到目前为止，W3C 已发布了200多项影响深远的 Web 技术标准及实施指南，包括 HTML、XML、WCAG，而最新的 HTML5、CSS3 分别在 2014年10月28日和 2015年5月20日由 W3C 组织正式发布。

W3C 主要关注前端 Web 方面的规范制定，基本上都是静态渲染的语言规范。JavaScript 这个则不是由 W3C 制定的，这个是由前面的欧洲计算机制造商协会( ECMA ) 制定的，目前已到 ECMAScript6，也是 2015 年提出的。

参考

基于 gitbook 的项目文档设计

2019-09-15T11:07:25.000Z

基于 Gitbook 的开源生态，更具美观的项目文档设计

项目源码地址：https://github.com/jiyiren/ProjectDoc

有色Demo预览地址：https://jiyiren.github.io/project-doc/

无色Demo预览地址：https://jiyiren.github.io/project-doc-plain/

无色样式：

基本环境

安装 Nodejs

全球官网：https://nodejs.org/en
中文官网：http://nodejs.cn/

下载安装后测试下 Node 是否安装成功：

$ node -v
v10.15.3

如果提示命令没找到，那么是由于 Node 没有加入环境变量，大家将安装的 Node 环境地址放在环境变量里就可以了。

安装 gitbook

直接输入命令进行安装：

$ npm install gitbook-cli -g

npm 也是和 node 一起安装的，node 存在 npm 就存在。-g 参数表示全局安装，也就是模块包会安装到全局环境里，这个是推荐做法，因为像这种工具命令全局安装是最好的。而项目依赖模块则项目内安装即可。

测试 gitbook 命令是否安装成功：

$ gitbook -V
CLI version: 2.3.2
GitBook version: 3.2.3

使用 gitbook

任意找一个空目录，执行：

$ gitbook init
warn: no summary file in this book 
info: create README.md 
info: create SUMMARY.md 
info: initialization is finished

会在当前目录下创建出两个文件，分别是：

README.md
SUMMARY.md

暂且先不管其他的，我们现在可以直接运行试试，先把流程走通：

$ gitbook build
$ gitbook serve

上面的 gitbook build 是编译整个 markdown 文件，然后在当前目录生成 _book 目录，里面是 html 页面。这个主要在部署的时候用到。

而 gitbook serve 是本地调试开启服务命令，项目最终是要成网站的，因此, 该命令可以开启本地 http://127.0.0.1:4000 地址作为网站浏览地址。

假如大家执行 gitbook serve 出错，建议大家先 gitbook build 在 gitbook serve.

项目结构

基本结构

我们上面通过 gitbook init 生成的只有下面两个文件：

README.md
SUMMARY.md

但实际上我们要定制我们的 gitbook 项目，项目还有一个配置文件的: book.json，只不过 gitbook init 没有自动创建出来。我们一看这文件名就应该知道这个配置文件就是 json 格式的。最基本的 book.json 长什么样子呢？如下所示：

{
  "title": "ProjectDoc",
  "author": "jiyiren",
  "description": "ProjectDoc",
  "language": "zh-hans",
  "links": {
  },
  "styles": {
  },
  "plugins": [
  ],
  "pluginsConfig": {
  }
}

基本 book.json 内容：

title: 网站标题;
author: 网站作者;
description: 网站描述;
language: 网站语言;
links: 侧边栏配置项;
styles: 全局自定义网站样式;
plugins: 插件配置项;
pluginsConfig: 配置插件的配置项，为一些插件传入参数的;

简单示例

上面最基本的 book.json，对默认界面基本无变动，其界面显示为：

我们来一个简单 gitbook 定制，book.json 如下：

{
"title": "ProjectDoc",
"author": "jiyiren",
"description": "ProjectDoc",
"language": "zh-hans",
"links": {
  "sidebar": {
    "本文托管": "https://github.com/jiyiren/ProjectDoc"
  }
},
"styles": {
},
"plugins": [
    "anchor-navigation-ex@0.1.8"
],
"pluginsConfig": {
    "anchor-navigation-ex": {
        "isRewritePageTitle": true,
        "isShowTocTitleIcon": true,
        "tocLevel1Icon": "fa fa-hand-o-right",
        "tocLevel2Icon": "fa fa-hand-o-right",
        "tocLevel3Icon": "fa fa-hand-o-right"
    }
}
}

其界面为如下，多出左侧栏 本文托管，和文章右侧的 目录以及回到开头 按钮。

必备插件

插件使用

插件添加：插件的使用就放在 book.json 的 plugins 和 pluginsConfig 键中，形式如：pluginName@versionName 也就是插件名@版本，当然没有版本时，采用最新默认版本。
插件删除：要删除自带的插件则使用 -pluginName 即 -插件名

下面介绍本文档使用到的插件。

splitter

使侧边栏的宽度可以自由调节

"plugins": [
    "splitter"
]

simple-page-toc

文章页面右上角显示目录，这个目前已经被废弃，建议每个页面自己生成 md 目录。

{
    "plugins" : [
        "simple-page-toc"
    ],
    "pluginsConfig": {
        "simple-page-toc": {
            "maxDepth": 3,
            "skipFirstH1": true
        }
    }
}

search-plus

支持中文搜索, 需要将默认的 search 和 lunr 插件去掉

{
    "plugins": ["-lunr", "-search", "search-plus"]
}

tbfed-pagefooter

为页面添加页脚

"plugins": [
   "tbfed-pagefooter"
],
"pluginsConfig": {
    "tbfed-pagefooter": {
        "copyright":"Copyright © zhangjikai.com 2017",
        "modify_label": "该文件修订时间：",
        "modify_format": "YYYY-MM-DD HH:mm:ss"
    }
}

添加Toc到侧边悬浮导航以及回到顶部按钮，这个自动生成的悬浮目录必须以下面形式书写，也就是一定要有一个是 h1 开头的，否则不能识别。

# h1
## h2
### h3

配置代码：

{
    "plugins": [
        "anchor-navigation-ex"
    ],
    "pluginsConfig": {
        "anchor-navigation-ex": {
            "isRewritePageTitle": true,
            "isShowTocTitleIcon": true,
            "tocLevel1Icon": "fa fa-hand-o-right",
            "tocLevel2Icon": "fa fa-hand-o-right",
            "tocLevel3Icon": "fa fa-hand-o-right"
        }
    }
}

prism

使用 Prism.js 为语法添加高亮显示，需要将 highlight 插件去掉。该插件自带的主题样式较少，可以再安装 prism-themes 插件，里面多提供了几种样式，具体的样式可以参考这里，在设置样式时要注意设置 css 文件名，而不是样式名。

{
"plugins": [
    "-highlight",
    "prism@^2.1.0",
    "prism-themes@^0.0.2"
  ],
"pluginsConfig": {
"prism": {
      "css": [
        "prism-themes/themes/prism-a11y-dark.css"
      ]
    }
  }
}

其他插件大家可以参考这个博主的：http://gitbook.zhangjikai.com/plugins.html

最终的页面示例

有配色见：https://jiyiren.github.io/project-doc/

无配色见：https://jiyiren.github.io/project-doc-plain/

参考

无版权图库资源收集

2019-09-15T10:55:25.000Z

我平常自己在写文档时，常常会搭配一些图片来展示。一般我都会去 无版权图片库 找一张搭配，毕竟程序员老是敲代码和文字打交道，已经苦不堪言了，来一点 色彩图像 刺激真的会让人耳目一新。很多时候程序员不仅仅应该是实现功能方，我们也应该要把自己当做甲方或者用户，去体验什么样的设计才能让自己感觉舒适。我喜欢有自己的个性，有自己的配色配图。

pixabay

推荐：★★★★★
地址：https://pixabay.com/
主页：

pexels

推荐：★★★★★
地址：https://www.pexels.com/
主页：

isorepublic

推荐：★★★★★
地址：https://isorepublic.com/
主页：

gratisography

推荐：★★★★
地址：https://gratisography.com/
主页：

rawpixel

推荐：★★★★
地址：https://www.rawpixel.com/
主页：

polayoutu

推荐：★★★★
地址：http://www.polayoutu.com/collections
主页：

pxhere

推荐：★★★★
地址：https://pxhere.com/
主页：

picjumbo

推荐：★★★
地址：https://picjumbo.com/
主页：

参考

2019-07-28 日志

2019-07-28T07:16:40.000Z

最近，我也毕业入职了，用了一个月时间熟悉了身边新环境，虽说还可以，但仍旧心有不安。

今年都说工作形式不好，多家互联网企业被爆裁员。互联网，曾今是多么充满活力的名词，基本上是”万众创业”的根本，而现在给人的则是”赢者通吃”的感觉，再无敢与巨头相争，百花齐放的景象了。

虽说现在巨头当道，创业热情没有以前的高，但互联网仍然是最大的创业领域。目前，移动互联的创业确实少了，但是 5G、IoT、人工智能的创业项目却有很多。

很多时候我们都在以我们自己能看到的信息进行评判和决策的，由于我们都处于历史长河中的一部分，在那一部分中我们的绝大部分技能、信息都聚焦于某一种东西上，如果时代改变了这种东西的价值，那我们自身的价值也会相应变化，最坏的情况就是贬值，而这正是互联网的特性。

心有不安，不安在时代正在极速地改变着最吃香的技能，而自己的技能却在逐步被淘汰！很多人怕的不是被裁，而是怕自己已经适应不了社会的需求了！

一份 LaTeX 报告形式模板

2018-12-13T02:07:25.000Z

A LaTeX Template for Report, With Supporting Chinese Language

项目源码地址：https://github.com/jiyiren/ReportPaper

文档预览地址：https://img.godjiyi.cn/report_paper.pdf

环境

需要先安装 LaTeX 环境，而支持中文的 LaTeX 为 CTeX，CTeX 也只是一种标准定义，其通常分为两个发行版：

TeXLive: http://tug.org/texlive/
MiKTeX: https://miktex.org/

两个发行版都是全平台支持的，很多人会将 MacTex 也作为一种发行版，但我喜欢将其归类于 TeXLive 发行版中，这看自己的意愿。

因此，环境的话大家可以自行选择，这里为使用 TeXLive，下面为安装包地址，大概有 3 GB 左右：

MacOS: MacTex
Windows: TeXLive.iso

安装后将命令加入环境变量，并使之生效，通过 which latex 可查看是否设置成功：

$ which latex
/usr/local/texlive/2018/bin/x86_64-darwin/latex

IDE

LaTeX 实际上如果 Java 语言一样，都需要先配置环境，然后选择一款自己喜欢的 IDE 进行编写“代码”。

当然所有文本编辑器都可以编写 LaTeX 或者 Java 等其他语言“代码”。这里的 IDE 指集成了一些语言本地化的功能，比如编译、特殊符号等等。

LaTeX 的发行版中会自带一款编辑器，用 TexLive 的话，MacOS 上会有个叫 TexShop 的编辑器，而 Windows 上则会是一个叫 TexWorker 的编辑器，这些是都可以胜任编写工作的。

另外，对于第三的 LaTeX 编辑器，笔者也用的不多，这里我推荐两个：

TeXMaker: http://www.xm1math.net/texmaker/, 全平台，免费，强烈推荐；
TeXStudio: http://texstudio.sourceforge.net/ , 全平台，免费，推荐；
WinEdt: http://www.winedt.com/index.html , 只支持 Windows，收费，自己选；

使用

上面两点都讲了没实际作用的环境配置，对于使用本项目实际上很简单：

使用 XeLaTeX 编译：
1
xelatex report_paper.tex
用 BiBTeX 再次编译生成的 report_paper.aux 文件：
1
bibtex report_paper.aux
之后再次用 XeLaTeX 编译：
1
xelatex report_paper.tex

这时候生成的 pdf 文件是最全和完整的文档。

上面是命令行编译的，大家若使用 IDE 则是比较简单的操作：

编译选择 XeLaTeX 编译一次；
再选择 BiBTeX 编译一次；
再选择 XeLaTeX 编译一次；

这时产生的 pdf 和上面一致；通过编辑器形式不用自己指定文件名，因此更简单方便。

最终生成的 pdf 文档示例：

github: report_paper.pdf
七牛：report_paper.pdf

参考

Kafka

2018-08-04T04:07:25.000Z

分布式消息系统，解耦模块的桥梁

Kafka 是一个基于 发布-订阅 的分布式消息系统，主要面向于大数据应用场景。它最初由 LinkedIn 公司开发，之后成为 Apache 项目的一部分。Kafka 是一种快速、可扩展、本身就专注于分布式的、实时消息流系统。Kafka 在2010 年正式向 Apache 社区开源，目前社区活跃。目前在互联网公司使用非常广泛，已经成为大数据分析的基础服务。

应用场景

Kafka 是众多消息系统中的一种实现方式，那我们为什么需要用到 消息系统 ？这里我列出以下几种在业务中常常碰到的场景，分别从 系统架构视角、消息传播视角、消息处理视角、自身系统结构视角 共四个角度的应用场景来说明：

模块解耦

从系统架构视角看

这个我想是最明显的一点了，在业务系统上通常会存在一些系统产生数据，一些系统消费数据，这实际上就是 生产者–消费者 模式。这里的解耦是什么意思呢？我把消息系统独立出来了，那我的消息系统则会依赖生产者系统，消费系统则会依赖消息系统，不是多出了两个依赖，何为解耦呢？

这里的解耦实际上是解耦 不等速率依赖 (这个名词是我造的，纯属个人观点)。也就是说生产者系统和消费者系统之间会有 生产和消费速度不一致 而导致消息丢失的情况。而消息系统与生产者系统、消息系统与消费者系统之间则没有这种情况，即使有也不会造成消息丢失(只会暂存下来)。因此，破除了生产者系统和消费者系统的依赖关系就叫解耦，而消息系统正是为此而生。

异步通信/缓冲队列

从消息传播视角看

很多时候，或并发达到一定量级的时候，系统是不能完全提供 实时消息 处理的能力的。这时不能立即处理的消息我们必须把这些请求放入 缓冲队列 中以等待处理。这种场景在一个公司中可能会有多种业务都会涉及到，因此，领先者们自然想到可以将缓冲队列设计成一个独立的平台，以满足各种业务的接入，从而，消息系统作为缓冲异步队列轰然降临。

这里我使用的是缓冲队列而非缓存队列，主要是因为通常我们所说的缓存都是基于内存的，而缓冲则更普遍一点，你可以让它基于内存，也可以让它基于硬盘的。通常消息系统基本上都是基于硬盘存储的，包括 Kafka 其也是持久化到硬盘的。

那 缓冲队列 与我们的 Redis/Memcached 缓存 或者 DB 数据库 有什么区别呢，为什么不用 Redis/Memcached 或者 DB 实现缓冲功能呢？

这里我也大概谈下自己的看法：

先说 基于内存的缓存 吧，缓存的出现都是为了用昂贵的内存代价换来性能上的提升的，缓存通常是暂存那些常被访问的数据以提升较好的用户体验而设计，我们的 消息系统 并不是为了快，而是为了 数据完整性，不丢失 而作的缓冲设计。因此，我们无需用如此昂贵的内存来作为消息系统的存储介质。另外一点就是缓冲的队列有可能会很大，达到千万甚至更多级别，这样如果用内存，那么代价就更昂贵了。
再说 DB 数据库，上面讲了内存昂贵，那我用数据库总可以了吧！那我们还是先想想数据库的原生作用：数据库是为持久化，通常是恒久的持久化而生的，也就是数据存下去，基本就不用变了，只会少量的修改删除。我们再想想缓冲队列，它是为 临时存储 而生的。用持久化的数据库来存临时数据，那会造成频繁的增删操作，势必会给数据库带来极大的性能消耗。
总结下，缓冲队列目标是：数据完整性 (而非存读的快速性，不是缓存)，临时存储能力 (而非恒久持久性，不是数据库)。

数据一致性保障

从消息处理视角看

有些情况下，我们将数据提交给某个系统处理，有可能那个系统突然崩溃了，那传给它的数据就都覆灭了，这可是企业不能容忍的！因此，我们可以利用消息系统，作为临时备份处，将消息同时发送给消息系统以及那个处理系统，当处理系统处理成功后，发送确认操作让消息系统删除那条消息，也就是采用 “插入-获取-删除“ 范式。这样，假如处理系统崩溃，那数据仍然在消息队里中，重启处理系统就可以了。

这里，我们都是假设消息系统很可靠，比处理系统更可靠！为什么有这个依据呢？这实际上也是消息系统的另一大特性，就是可扩展性强，部分组件失效可容忍。

可扩展性强，部分组件失效可容忍

从自身结构视角看

这部分的内容我们在后面几节进行说明。

消息模式

消息模式就是消息系统实现时需要考虑的业务场景中的不同情况。由于生产者(系统)和消费者(系统)都可能是多个，那么就会产生一些微妙的不同。这里我们只考虑它们都处理相同的消息。对于多个生产者而言，消息系统就是不断接受消息的一个存储域，因此没有什么不同。而对于多个消费者而言就会有两种情况了：

一个消息只给一个消费者消费：这个是最常见的情况了，一个消息无法被重复消费的，因此这种情况对应到消息模式就是 点对点模式或者叫队列模式。
一个消息可以给多个消费者消费：这个情况类比订阅付费服务，比如我是一家报社，有很多人订阅了我的报纸，只要我这边有新报纸刊登，我就需要把这些新报纸寄送给每一个订阅的人。因此这种情况对应到消息模式就叫 发布/订阅模式。

以上两种模式就是消息模式最常见的两种，所有的消息系统的实现都会考虑这两种模式的，因此大家在学习一个新的消息系统的时候就可以考虑这个消息系统 如何实现者两种情况的。对于 Kafka 我们会在下面讲到其对应的两种模式。

平台对比

消息系统目前最有名气的大概有四个：ActiveMQ、RabbitMQ、Kafka、RocketMQ. 它们的对比网上也应该有很多了，我就不一一列举了。

这里我将我之前做过的 PPT 拿过来放这里作下对比，我简单说明下：

下图各个消息系统从左到右，支持的消息量级越来越大，ActiveMQ 最小，RocketMQ 最大；
ActiveMQ、RabbitMQ 稳定性是相对较好的，RabbitMQ 稳定性更好同时数据安全性最高，如果对实时性、数据不允许丢失要求高时，可以用 RabbitMQ；
RocketMQ 是阿里开源的，其处理量是最高的，但是生态比较少，因此若使用过程中出现问题，你只能找原开发者或维护者了；
Kafka 是目前生态链最广、社区最活跃的消息系统了。但是其会存在消息丢失情况，通常应用在分布式日志消息处理等这些对消息丢失可容忍性的场景。目前，大数据已成主流的今天，Kafka 也逐渐成为使用的主流消息系统，因为大数据对消息丢失一般都是可容忍的，比如训练集中丢了几条数据等等，都是无相关的。而对于 支付、会员 等这些消息则不推荐用 Kafka ，可转用其他 MQ 系统。

宏观结构

下图是 Kafka 消息系统的 分布式宏观架构图，这里分别讲下各个组件的作用及其关系：

Producer: 数据的生产客户端，生产数据发送到 Kafka Cluster；
Zookeeper: 负责整体集群的协调工作，保存 Broker 与 Consumer 交互的元信息，并进行数据变更监控；
Broker: Broker 实际上就是单台服务器，其主要接收 Producer 和 Consumer 请求，持久化Message，其中会通过选举产生一个 Controller，来主持协调工作；
Kafka Cluster: 由多个 Borker 和一套 Zookeeper 组成，Broker 之间无主从关系，地位平等，可任意增删节点，这主要由 Zookeeper 维护；
Consumer: 数据的消费客户端，用于从 Broker 中订阅/拉取消息；

微观设计

Kafka 内部消息传递流程 如下图所示：

Topic

一个 消息主题，也就是一个分布式业务消息队列。不同的生产者将不同的业务消息分发到不同的 topic 上，这样，消费者就可以根据 topic 进行对应的业务消息消费了。

Partition

这个就是 topic 分布式的体现，由于一个 topic 就是一个业务消息，这些消息可能会源源不断来，并且有可能会同时并发很大地进入队列，将这些消息合理地分布在分布式机器中则可以保证机器的负载均衡性，同时也可以使得不同的消费者可以同时拉取不同 partition 中的消息，可提升消费者并发性能，这里总结下 partition 特性：

一个 topic 分成多个 partion；
多个 producer 生产消息可以并行入队，多个 Consumer 可并行消费；
同一个 partition 里保证消息有序, 不同 partition 则不能完全保证有序；

Consumer Group

消费者组应该是 Kafka 最大的特色了，消费者组就是消费者组成的一个组，消费者在向 Kafka 拉取数据的时候需要提供一个组名，这个名称就是消费者组名，上面的两种消息模式都可以在消费者组中得到实现：

点对点/队列模式：一个消息只能被一个消费者消费，我们只需要将这些消费者放在同一个消费者组里就可以了，这样消费者在同一个组中，那么 topic 中的一条消息只会向一个消费者组发送一次；
发布-订阅模式：一个消息可被多个消费者消费，这种情况，我们只需要将各个消费者放在各自单独的组中，各个组均订阅了此消息 topic 就可以了。

这里还有如下注意点：

一个消费组消费一个 topic 的全量数据；
组内消费者消费一个或多个 partition 数据，如果一个组里的消费者数量少于订阅的 topic 的 partition 数量，那么组中必有一个消费者要消费多个 partion 数据；
一个组里的消费者应小于等于 topic 的 partition 数量，这是因为一个 partition 最多只能与一个 consumer 连接，那么如果 partition 数量大于 consumer 数量，则必定有 consumer 是空闲的，因此尽量避免这种情况；

OpenTSDB 存储结构

2018-07-03T04:07:25.000Z

时序处理数据库，更快的存储和聚合

OpenTSDB 是为存储时序数据而设计的，它基于 HBase 存储数据，充分发挥了 HBase 的分布式列存储特性，支持数百万每秒的读写，支持千万数目的 Metric，它的特点就是容易扩展，具有灵活的 Tag 机制。其主要用途，就是做监控系统，譬如收集大规模集群（包括网络设备、操作系统、应用程序）的 监控数据 并进行存储和聚合查询，在目前的 IoT 方面具有很大的应用价值。

Hbase Schema

OpenTSDB 是基于 Hbase 存储系统的，主要利用了 Hbase 数据自动排序 以及 可靠的分布式特性。 OpenTSDB 在安装启动时，默认在 Hbase 里面创建四张表。分别为：

tsdb: 存储数据点表，也就是存储实际的时序数据，绝大部分的数据是存在这个表中；
tsdb-uid: 存储 name 和 uid 的映射关系，也就是给字符串的键、值映射成数值，通常包括 metric、tagk、tagv 等字符串映射。
tsdb-meta: 元数据表，这个只有通过配置文件开启才会存储数据的，默认不开启。如果开启了存储的就是你传过来的完整的 json 格式数据，没有经过解析的，这就是元数据。
tsdb-tree: 树形表，这个也是只有开启配置文件选项才能使用，开启后可以由自己创建和管理自己的树形 metric 结构，需要自己设计管理的。

下面主要说明下 tsdb 和 tsdb-uid 的表结构。

UID Table Schema

这里我们主要分析下 OpenTSDB 存储 UID 的表 – tsdb-uid。

首先，看下 tsdb-uid 的表结构。其存储的是字符串到 UID 的映射关系。

我们可以通过 hbase shell 通过 Hbase 访问数据库入口查看小 tsdb-uid 的表结构：

list 'tsdb-uid'
# == 结果如下 ==
Table tsdb-uid is ENABLED                                                                                                                                     
tsdb-uid                                                                                                                                                      
COLUMN FAMILIES DESCRIPTION                                                                                                                                   
{NAME => 'id', BLOOMFILTER => 'ROW', VERSIONS => '1',... }                                               
{NAME => 'name', BLOOMFILTER => 'ROW', VERSIONS => '1',... }                                             
2 row(s) in 0.0360 seconds

上面结果我只列出了少量信息，主要看 NAME 就可以了，表示该表的 Column Family, 分别为 name 列族和 id 列族。那具体怎么将字符串映射为 UID ? 这里就需要通过实际的例子来说明。

我们先上传一个数据，格式内容如下，可以通过 Postman 进行上传测试，OpenTSDB 默认上传地址为 http://ip:4242/api/put?details，后缀 details 是为了查看上传反馈。

[
    {
        "metric": "sys.test.metric",
        "timestamp": 1528784369,
        "value": 10,
        "tags": {
           "hostname": "jiyiren",
           "area": "shanghai"
        }
    }
]

上传成功后返回：

{
    "success": 1,
    "failed": 0,
    "errors": []
}

我们先看下我们上传的数据格式，需要进行映射的字符串是对应 metric, tagkey, tagvalue 的，这里 tag 有两组，所以要映射的有 5 个字符串，分别为： sys.test.metric, hostname, jiyiren, area, shanghai.

那我们就再用 Hbase Shell 查看表内容：

scan 'tsdb-uid'
# === 结果如下 ===
ROW                                      COLUMN+CELL 
\x00\x00\x01  column=name:metrics, timestamp=1528517476774, value=sys.test.metric
\x00\x00\x01  column=name:tagk, timestamp=1528517476790, value=area 
\x00\x00\x01  column=name:tagv, timestamp=1528517476803, value=shanghai
\x00\x00\x02  column=name:tagk, timestamp=1528517476816, value=hostname                                              
\x00\x00\x02  column=name:tagv, timestamp=1528517476830, value=jiyiren 
area      column=id:tagk, timestamp=1528517476793, value=\x00\x00\x01
hostname  column=id:tagk, timestamp=1528517476819, value=\x00\x00\x02
jiyiren   column=id:tagv, timestamp=1528517476832, value=\x00\x00\x02
shanghai  column=id:tagv, timestamp=1528517476806, value=\x00\x00\x01
sys.test.metric column=id:metrics, timestamp=1528517476778, value=\x00\x00\x01

从中我们可以看到，数据总是成对出现的，包括 UID 映射字符串 和 字符串映射 UID。上面 5 组是 UID 映射成字符串，下面 5 组是字符串映射为 UID. 前面已经看过 tsdb-uid 表有两个列族，而其中的 name 列族对应的就是 UID 映射成字符串，而 id 列族对应字符串映射为 UID, 这正是这两个列族的作用，这样对于正反查找速度都是极快的。

此外，对于 UID 映射字符串的，每行数据，也就是 rowkey 相同的，至少包含三个列，分别是 metrics, tagk, tagv. 我们可以通过前三行结果看出。

到这里我们知道了 UID 与字符串间是怎么映射以便于查询的，但是 UID 到底是怎么生成的呢？

实际上大家在前面操作 scan 'tsdb-uid' 的时候，结果会列出额外三行以 \x00 开头的数据：

ROW                                      COLUMN+CELL 
\x00    column=id:metrics, timestamp=1528517476737, value=\x00\x00\x00\x00\x00\x00\x00\x01                                  
\x00    column=id:tagk, timestamp=1528517476811, value=\x00\x00\x00\x00\x00\x00\x00\x02                                      
\x00    column=id:tagv, timestamp=1528517476825, value=\x00\x00\x00\x00\x00\x00\x00\x02

实际上 UID 是用 3 bytes 表示的非负整型数，并且是自增的，而自增的就要依赖于上一次插入的最新 ID 值，这三行就是分别保存 metrics, tagk, tagv 插入的最新数据的 UID，这样下次插入新的数据只要在对应的值上加 1 就能得到其对应的 UID 了。

Data Table Schema

我们再看看 OpenTSDB 的实际存储时序数据的表 – tsdb。

既然 UID 与字符串的映射关系搞定了，那么真实的时序数据存储就好理解了。tsdb 保存了所有的时序数据，其 rowkey 就是由各个字段对应的 UID 组成的。

先查看下 tsdb 数据库结果：

scan 'tsdb'
# == 结果如下 ==
ROW                COLUMN+CELL 
\x00\x00\x01[\x1Fa`\x00\x00\x01\x00\x00\x01\x00\x00\x02\x00\x00\x02 column=t:I\x00, timestamp=1528521000278, value=\x0A

结果值太长了，可以分开看，先看列族里的数据【18.7.10 更正为】:

column=t:I\x00, timestamp=1528521000278, value=\x0A

其中 value=\x0A 而 0X0A 化为十进制就是 10, 正好是我们前面上传的 metric 的值。

再看看 rowkey：

\x00\x00\x01[\x1Fa`\x00\x00\x01\x00\x00\x01\x00\x00\x02\x00\x00\x02

rowkey 是 OpenTSDB 设计的独特之处，其构成规则为：

[salt][...]

salt 是为了更好的分布式，

我们的上面添加的 metric 为，其中 tagk 会自动按字母排序，所以 area 排在前面：

# 字符串对应
sys.test.metric 1528784369 area shanghai hostname jiyiren
# UID 对应 ( timestamp 先不变 )
000001 1528784369 000001 000001 000002 000002

除了 timestamp 和上面结果完全对应，而 timestamp 则是按小时存储的，也就是取 3600 的整数倍的 timestamp 作为当前时间戳。计算方法 timestamp - timestamp % 3600.

这样，我们应该对 OpenTSDB 的 UID 以及 Rowkey 的生成和存储结构都基本了解了。

时序数据介绍

2018-06-22T06:00:40.000Z

基于时间序列，实现数据聚合

时序数据 就是基于时间序列的数据，其常常表现为同一指标按时间序列记录的数据列，在需求实时性的场景中比较常见。而对于此种数据的运用通常使用基本的聚合方式就能达到需求了。当然，目前 AI 盛行的时代，机器学习领域也不断出现很多基于 时序预测 的算法。但本文主要介绍时序数据的基础认识，这部分的认知主要是从自己目前所做的数据监控项目的经验所得，若有不正确，请大家批评指正。

基本格式

时序数据 和一般的数据没什么区别的，基本上也都用 json 格式表示，唯一不同点就是数据中一定包含关于时间的信息，比如： 时间戳。

一般一条时序数据只表示一个键值信息，而在时序数据中，这个键常常称为指标或 指标名 (英: metric )，而值则就是指标对应的值了。因而，一个时序数据的基本格式如下：

{
  "timestamp": 1346846400,    // 时间戳
  "metric": "sys.mem.bytes",  // 指标名
  "value": 18  // 指标值
}

主要包含了 时间戳、指标名、指标值。其中，对于指标的值，也就是上面的 value 字段值，这个值一般都是 数值型 ( Integer、Float、Double ) 的, 为什么大多是 数值型 的呢？这个下面会进行说明。

到这里，我们已经知道了一个时序数据的基本格式。但是，难道时序数据就是一个格式吗？即使加入了时间信息，那也和普通的 json 数据也没什么本质区别呀？

数据聚合

的确，时序数据的存在可不是因为一个数据格式，而是由于 数据聚合 应用的需求而出现的。比如，我们现在有 1 台服务器，我想快速地知道今天上午 10 点到上午 12 点之间这台服务器的内存使用的 平均值、最高值、最小值，那我们怎么办？其中，这个指标可能也会是 CPU、磁盘 IO 等其他指标。

这里我们可以看出像 平均值、最高值、最小值 等等功能对于 metric 是通用的，因此，我们只需要将各种需求功能设计成通用的 聚合函数，那么我们需要看哪种指标的 平均、最高、最小 等聚合值时，只要选择对应的函数即可了。

这实际上也就是为什么 value 字段大多是 数值型 的原因，因为聚合函数绝大部分只是一些常规的 数学计算，数值型是最好处理的类型。当然这不是绝对的，只要你的后台明白如何处理对应的值类型即可了。

然而，上面举例是 1 台服务器，那我们如果有 2 或多台服务器，比如叫 hostA，hostB，host… 。那么，我们直接对内存指标进行聚合那会计算到两台机器的聚合值，这个不是我们想要的，我们需要能对特定的主机进行聚合的能力，那该如何做？

这时就用到了标签功能，一个标签就是一个 键值对，通常标签是作为后台的过滤条件的，而由于过滤条件的多样化也需要标签的多样化，因此一个时序数据中可以包含多个标签的。从而我们需要在基本的时序数据格式中再添加一种键名，即 标签组 – tags，如下：

{
  "timestamp": 1346846400,    // 时间戳
  "metric": "sys.mem.bytes",  // 指标名
  "value": 18,  // 指标值
  "tags":{                    // 标签组
    "host.name": "hostA",
    "address": "shanghai"
  }
}

这样表示的时序数据更具有通用化、个性化、定制化的能力，从而我们可以先进行指标、标签的过滤后再进行相应的 聚合操作，这样就能更满足多样化的业务需求。而上面多台服务器的情况，则需要在上传数据时加入 host.name 值, 这样后台可根据该字段检索 host.name = hostA 也就是 A 主机的指标，然后对特定指标进行聚合即可。

总结说明

时序数据的需求通常是出现在 随着时间的推移某个指标值变化关系到业务运转 的情况下，因此我们就需要 间隔性地上传那个指标的数据 以实时地知道其状态值以应对突发情况，这个实际上就是一种 数据监控 场景。这里的监控可不是我们平常的视频监控，而是 指标的检测与上报，比如我们用脚本实时检测网站服务器的内存指标状态、CPU 状态、磁盘 IO 状态并上传到统一的后台，这个传输过程的数据格式就是使用时序数据，这样后台只需通过简单的 聚合功能 就能够对服务器的运行状态 了如指掌 了。

目前，时序数据应用最为广泛的也就是上面提到的 实时检测服务器主机指标 状态信息了，比如：阿里云、腾讯云等这些公有云服务提供商，当你购买一台服务器后，你在后台是可以看到一些服务器的性能指标的，这些指标信息就是实时监控主机并以 时序数据 格式传输出来的。

明白了上面的时序格式和应用方式，我们可以反过来想下，实际上时序数据的出现主要是由于 我们很想知道一段时间内一些指标信息的聚合结果 而产生的。为实现这种目的，我们不希望重复实现聚合功能，因此只需要实现一次可复用的聚合函数即可，这就产生了通用的 聚合函数。这相应地要求一条时序数据只包含一条 指标信息 以实现简单统一、包含一组 标签信息 以便实现筛选过滤。

因此，时序数据和其他一切业务名词一样，也都是由大量的实际需求逐渐演变成的统一化、规格化的结果！都是历史的选择！

Java 优雅地退出程序

2018-06-18T06:00:40.000Z

show me code? No, show me elegant code!

很多情况下，我们的程序需要在操作系统后台一直运行，这在程序代码里的实现就是用死循环 ( while (true) ) 来实现的。但是，这样会出现一个问题，就是我们想要关闭程序怎么办？如果用暴力结束进程方式，那程序的内存中若还有未输出的数据，这部分数据将会遗失。因此，我们要对程序实现 退出收尾 操作，这就需要我们完善我们的程序，实现 “优雅” 地退出。

后台进程

首先，我们需要知道什么是后台进程。众所周知，我们与服务器进行交互都需要通过终端进行实现，而在终端上执行的程序都会默认将输出打印在终端界面里，而这中方式就 交互式进程，并且当前终端只能运行一个交互进程的，所以如果我们想在一个终端里运行多个任务，我们就需要将某些进程丢到后台，而这些进程不影响当前终端的交互执行，就被称为 “后台进程”。

所有的 交互式进程 都是可以转为 后台进程 的，因为进程的操作任务是一定的，只不过是它们的显示方式不同罢了，通常我们在一个终端里在任务后面加上 & 操作符就可以让交互式进程变为后台执行进程了。如：

前台进程：

git clone https://gitee.com/jiyiren/linuxfile

如果按 ctrl + c 将会结束 clone 操作。

转为 后台进程：

git clone https://gitee.com/jiyiren/linuxfile &
[1] 70235

我们可以看到此时该命令输出一个编号 70235，这个就是后台 job 的 ID，此时你按 ctrl + c 并不会结束改任务。如果要 查看 job 列表，可以使用 jobs -l, 如下：

jobs -l
[1]+ 70235 运行中               git clone https://gitee.com/jiyiren/linuxfile &

可以看到该任务在运行中，此时若想将该任务再 调到前台，可以使用 fg % jobid ( 注意百分号前后都有空格 ), 如下：

fg % 70235
git clone https://gitee.com/jiyiren/linuxfile
remote: Total 15 (delta 3), reused 0 (delta 0)
Unpacking objects: 100% (15/15), done.

此时，显示的就是正在进程的任务，如果此时按 ctrl + c 则将取消 clone 操作。

上面是基本的 Linux 前后台任务转换命令，我们可以看到我们结束进程都是将任务调到前台，然后用 ctrl + c, 来结束进程的。然而，将任务从后台调到前台的方式只能在同一个终端里操作的，如果用户在将任务掉入后台后关闭了终端窗口，那么该任务是永远无法通过 fg % jobid 调到前台了。这时如果要结束该进程怎么办？

KILL 命令

还好我们有终极杀器 – kill 命令，但 kill 命令操作的是 进程 ID 而非 job ID。也就是说 job ID 只能是同一个终端下的操作，相当于终端局域性的，而脱离了该终端后，该局域的 job ID 就不再有效。而 进程 ID 则是全局性的，任意终端都可以操作的，并且局域的 job ID 都会有与之对应的全局 进程 ID 的，因此如果关闭了那个 job ID 所在的终端，我们可以通过 kill job ID 对应的进程 ID 来结束此任务进程。

在我们平常的开发中，我们不可能一直维持着一个服务器的终端的，因此通过 ctrl + c 的方式结束 job ID 的方式对正式部署应用很不适合的，它只能适合个人的简单测试，因此 kill 命令方式才是 统一而确实有效 结束进程的方式。

假如，我们上面执行下面命令之后，就关闭掉了终端 ( 也不用管 job ID 了 )：

git clone https://gitee.com/jiyiren/linuxfile &

我们可以先通过 ps 命令来拿到我们的 进程 ID：

ps -aux | grep linuxfile | grep -v grep
jiyi  70376  0.0  0.0 116676  1536 pts/1    S    01:06   0:00 git clone https://gitee.com/jiyiren/linuxfile
jiyi  70377  5.7  0.4 174908  7952 pts/1    S    01:06   0:01 git-remote-https origin https://gitee.com/jiyiren/linuxfile
jiyi  70379  3.3  0.0 124632  1136 pts/1    Sl   01:06   0:00 git fetch-pack --stateless-rpc --stdin --lock-pack --thin https://gitee.com/jiyiren/linuxfile/

上面第一个 grep 后面就是自己要搜索的进程中包含的 关键词，这个自己根据自己的命令选择命令中的关键词，这样便于更好地过滤。第二个 grep 则是去除本身这个查找命令的意思。

我们从上面命令结果可以看到有三个进程与此任务对应，其中第二列是 进程的 ID, 我们可以用下面命令杀死该任务的所有进程：

kill -9 70376 70377 70379

这样在终端里通过 jobs -l 可以看到已经没有任务在运行了。

KILL 信号

通过上面的叙述，我们知道 kill 命令的作用。那么，上面的结束进程的命令 kill -9 的 9 是什么意思呢？实际上 kill -9 是 kill -s 9 的缩写，-s 后面接信号名称或者信号序号。而 9 代表的信号名为 SIGKILL, 也就是说 kill -9 也可以写成 kill -s SIGKILL. 此外，如果用信号名，字符的大小写是不敏感的，因此大家也可以写成 kill -s sigkill. 最后，由于所有的信号名都是以 SIG 打头的，因此，通常在我们自己写的程序中都是去掉 SIG 作为信号名的，因此，此命令还可以写成 kill -s kill. 这里我整理出信号 9 所有相同功能的命令操作：

kill -9 [PID]
kill -s 9 [PID]
kill -s SIGKILL [PID]
kill -s sigkill [PID]
kill -s KILL [PID]
kill -s kill [PID]

大家可以把 SIGKILL 这个信号换成其他的也适用，但由于信号名称有点长，不太好记，因此，通常我们在操作命令的时候使用序号来执行 kill 命令。

那我们怎么知道有哪些信号？以及这些信号对应的序号呢？实际上 kill 命令还有一个参数 -l, 可以列出所有支持的 信号序号 以及 信号名：

kill -l
 1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 5) SIGTRAP
 6) SIGABRT 7) SIGBUS 8) SIGFPE 9) SIGKILL10) SIGUSR1
11) SIGSEGV12) SIGUSR213) SIGPIPE14) SIGALRM15) SIGTERM
16) SIGSTKFLT17) SIGCHLD18) SIGCONT19) SIGSTOP20) SIGTSTP
21) SIGTTIN22) SIGTTOU23) SIGURG24) SIGXCPU25) SIGXFSZ
26) SIGVTALRM27) SIGPROF28) SIGWINCH29) SIGIO30) SIGPWR
31) SIGSYS34) SIGRTMIN35) SIGRTMIN+136) SIGRTMIN+237) SIGRTMIN+3
38) SIGRTMIN+439) SIGRTMIN+540) SIGRTMIN+641) SIGRTMIN+742) SIGRTMIN+8
43) SIGRTMIN+944) SIGRTMIN+1045) SIGRTMIN+1146) SIGRTMIN+1247) SIGRTMIN+13
48) SIGRTMIN+1449) SIGRTMIN+1550) SIGRTMAX-1451) SIGRTMAX-1352) SIGRTMAX-12
53) SIGRTMAX-1154) SIGRTMAX-1055) SIGRTMAX-956) SIGRTMAX-857) SIGRTMAX-7
58) SIGRTMAX-659) SIGRTMAX-560) SIGRTMAX-461) SIGRTMAX-362) SIGRTMAX-2
63) SIGRTMAX-164) SIGRTMAX

大家也看到了，信号太多了，这里我挑选出最长用的信号进行说明：

信号名 信号序号含义
SIGHUP     1    终端断线
SIGINT     2    中断（同 Ctrl + C）
SIGQUIT    3    退出（同 Ctrl + \）
SIGTERM   15    正常终止
SIGKILL    9    强制终止
SIGCONT   18    继续（与STOP相反， fg/bg命令）
SIGSTOP   19    暂停（同 Ctrl + Z）
SIGUSR1   10    用户自定义信号1
SIGUSR2   12    用户自定义信号2

这里我们只取其中的 结束进程的信号 来讲:

SIGINT     2    中断（同 Ctrl + C）
SIGTERM   15    正常终止
SIGKILL    9    强制终止

其中大家经常使用的 ctrl + c 快捷键就是发送了 SIGINT(2) 信号给进程的。另外，整个信号中，最特殊的命令就是 SIGKILL(9), 它代表 无条件结束进程，也就是通常说的强制结束进程，这种方式结束进程有可能会导致进程内存中 数据丢失。而另外两个信号对于进程来说是可以选择性忽略的，但目前的绝大部分的进程都是可以通过这三个信号进行结束的。

那这三个结束命令到底有啥区别？对比如下表：

信号	快捷键	正常结束	无条件结束	应用场景
SIGINT(2)	ctrl + c	是	否	前台进程快捷终止
SIGTERM(15)	无	是	否	后台进程正常终止
SIGKILL(9)	无	否	否	后台进程强制终止

大家主要关注下各个信号的 应用场景 即可。

然而，我们的上线程序绝大部分都是后台进程在跑的，本篇内容也是讨论后台进程，因此我们主要看 后台进程的正常结束( SIGINT(2)、SIGTERM(15) ) 与 后台进程的强制结束 ( SIGKILL(9) ) 的区别。

正常与强制结束方式

本篇讨论 Java 程序的后台程序正常与 强制结束 方式对比。在 Java 中，强制结束代表 直接立即结束 进程中的 Main 线程和其他所有线程，这里强调 直接和立即，也就是说通过强制方式，进程不会做任何收尾工作。而 正常结束 则非立即结束进程，而是先调用程序的 收尾线程，等收尾线程结束后再结束所有线程。

这里出现了 收尾线程，实际上这个就是 Java 程序中通过 Runtime.getRuntime().addShutdownHook() 方式注册的线程就是收尾线程。为了更详细地说明正常结束与强制结束的区别我们先定义一个工作线程 JobThread：

// 工作线程，每秒钟输出一个递增的数字
public class JobThread extends Thread {

    int count = 0;

    @Override
    public void run() {
        while (true) {
            try {
                Thread.sleep(1000);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            System.out.println("Work Thread: " + count++);
        }
    }
}

另外我们再定义一个收尾线程 ShudownHookThread：

// 收尾线程，没 0.5 秒输出一个递减的数字
public class ShudownHookThread extends Thread {

    int count = 10;

    @Override
    public void run() {
        while (count>0){
            try {
                Thread.sleep(500);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            System.out.println("Shutdown Thread: "+count--);
        }
    }
}

现在在 Main 函数中先注册收尾线程，然后再启动工作线程：

public class Main {

    public static void main(String[] args) {
        Runtime.getRuntime().addShutdownHook(new ShudownHookThread());
        JobThread jobThread = new JobThread();
        jobThread.start();
    }
}

然后打包成 Jar 包 ( 假设名字为 jvmexit-example.jar )，我们通过下面命令启动程序:

java -jar jvmexit-example.jar
0
1
2
3
.
.

我们可以看到工作线程每隔 1 秒输出一个数字，此时如果我们来通过正常和强制执行看看他们相应的输出。

正常结束 kill -2 [PID] 或者 kill -15 [PID]：

强制结束 kill -9 [PID] :

从中我们可以看出 正常结束 方式，会 先调用收尾线程，然后再结束，而 强制结束 则直接 杀死所有线程。因此，这里给出优雅结束进程说明：

先定义自己的 收尾线程 要完成的任务，比如：清理内存，将未完成的 IO 操作完成，删除缓存文件等等；
Main 函数里，在主任务启动之前注册 收尾线程 即可完成收尾任务的注册；
使用 kill 的 SIGIN(2) 和 SIGTERM(15) 两个信号进行进程结束，则 收尾线程 会被调用；

自定义 kill 信号处理

我们前面也讲过，除了信号 SIGKILL(9) 外，其他信号对于进程来说都是可忽略的。而这个忽略就是自己在自己的任务进程里实现这些信号的监听。

Java 中有提供一个接口 SignalHandler，完整名 sun.misc.SignalHandler，我们只要实现该接口，就可以在接收到信号后进行一些相应处理了。

我们定义类 SignalHandlerImp 其实现接口 SignalHandler：

public class SignalHandlerImp implements SignalHandler {

    public void handle(Signal signal) {
        System.out.println(signal.getName()+":"+signal.getNumber());
    }

}

类内部只有一个要实现的方法 public void handle(Signal signal), 而我们在方法里仅仅是打印了信号的名称和序号。然后在 Main 函数里注册一下

public class Main {

    public static void main(String[] args) {
    // 注册要监听的信号
        SignalHandlerImp signalHandlerImp = new SignalHandlerImp();
        Signal.handle(new Signal("INT"), signalHandlerImp);     // 2  : 中断（同 ctrl + c ）
        Signal.handle(new Signal("TERM"), signalHandlerImp);    // 15 : 正常终止
        Signal.handle(new Signal("USR2"), signalHandlerImp);    // 12 : 用户自定义信号
        
        JobThread jobThread = new JobThread();
        jobThread.start();
    }
}

主函数里我们监听了三个信号：SIGINT(2), SIGTERM(15), SIGUSR2(12), 同时我们也用到了上一节使用的工作线程 JobThread ( 注意这里没有用到上节的扫尾进程 ), 让我们来重新打包并启动任务。

java -jar jvmexit-example.jar
0
1
2
3
.
.

执行结果是一样的，每秒输出一个数字，那我们来分别执行:

// pid 换成自己的进程 ID
kill -2 [PID]
kill -15 [PID]
kill -12 [PID]
kill -9 [PID]

得到的结果如下：

从中我们可以看出自定义的信号处理方式，正常结束的信号 ( SIGINT(2) 和 SIGTERM(15) ) 都不会结束进程，而只是执行自己自定义的方法，然而 强制结束信号 ( SIGKILL(9) ) 则不会被自定义监控，大家自己可以尝试下在 Main 函数中注册 KILL 信号，如下：

Signal.handle(new Signal("KILL"), signalHandlerImp);    // 9 : 强制终止

这个在运行的时候就会报错，因此 SIGKILL(9) 信号是唯一不能够被自定义的信号。

那既然我们自己可以自定义信号，那我们通过自定义的信号来处理我们的收尾操作也是可行的。因此我们只要在 SignalHandler 接口的实现类中 handle 方法中处理自己的收尾操作就可以了。这里也整理下自定义信号处理进行收尾的说明：

实现 SignalHandler 接口，在 handle 方法中实现自己的收尾操作；
Main 函数里，在主任务启动之前注册 自定义信号名 即可完成收尾任务的注册，只需要注册一个就行了；
使用 kill 的对应 自定义信号名 进行任务进程的结束，就可以正常收尾了。

另外，在实际操作中使用自定义信号的方式通常是直接让 工作线程 实现 SignalHandler 接口的，我们上面是为了举例，以不至于发送对应信号后进程就停止了，而实际情况下是需要我们发送信号工作线程就应该停止，因此可以将上面的工作线程修改如下：

// 工作线程，每秒钟输出一个递增的数字
public class JobThread extends Thread implements SignalHandler{

    boolean isStop = fals;
    int count = 0;

    @Override
    public void run() {
        while (!isStop) {
            try {
                Thread.sleep(1000);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            System.out.println("Work Thread: " + count++);
        }
    }
    
    public void handle(Signal signal) {
      isStop = true;
        // do other something;
    }
}

如上所示，加一个运行标识，并在收到信号后进行标识的反赋值，这样工作线程就会自动停止，当然还可以进行其他相关操作。

两种方式对比

本文接收两种优雅 ( 而非暴力 kill -9 ) 结束进程方式：

采用默认信号处理机制，通过 Runtime.getRuntime().addShutdownHook(new ShudownHookThread()); 实现收尾进程的注册，这样在收到默认正常结束信号 ( SIGINT(2) 和 SIGTERM(15) ) 就可优雅退出；
采用自定义信号处理机制，通过 Signal.handle(new Signal("USR2"), new SignalHandlerImp()); 注册 自定义信号 以及 信号处理实现类，这样使用 kill -自定义信号 ( 如： SIGUSR2(12) ) [PID] 就可以达到收尾操作在 信号处理实现类 里实现，从而也可实现优雅退出。

那这两种方式哪个更好点？或者说适应性更广泛一点？

这里我参考了 JVM 安全退出这篇文章，它给出了 JVM 关闭的不止有 正常关闭、强制关闭 还有一种 异常关闭 如下图：

这种方式还是会调用以 Runtime.getRuntime().addShutdownHook(new ShudownHookThread()); 此方法注册的 收尾线程 的，而不会触发自定义的信号通信的。因此，还是第一种默认信号处理机制，通过 Hook 线程方式适应性更广泛。

参考

Java 日志工具介绍

2018-06-16T06:00:40.000Z

容易被忽略的数据生产源

目前，随着大数据方向的推进，越来越多的数据被应用于数据分析和挖掘，而其中一大部分就是项目中的 日志数据。而 Java 项目中有很多的日志输出包，不同项目使用不同的日志工具会造成数据结构的不一致，这样就为 数据分析 增添了一定的麻烦，今天记录下对各中日志工具的说明。

日志组件历史

JUL

这个是 java.util.logging 的缩写，也就是 Java 本身 JDK 自带的日志工具，但是通常它的功能有限，因此，项目中的日志输出都是采用特有的日志工具进行记录。而日志工具中得到广泛使用的就是 log4j.

Log4j

Java 界里有许多实现日志功能的工具，最早得到广泛使用的是 log4j, 许多应用程序的日志部分都交给了 log4j, 不过作为组件开发者，他们希望自己的组件不要紧紧依赖某一个工具，毕竟在同一个时候还有很多其他很多日志工具，假如一个应用程序用到了两个组件，恰好两个组件使用不同的日志工具，那么应用程序就会有两份日志输出了。

JCL

为了解决这个问题，Apache Commons Logging （之前叫 Jakarta Commons Logging, 所以缩写为 JCL ）粉墨登场，JCL 只提供 log 接口，具体的实现则在运行时 动态寻找。这样一来组件开发者只需要针对 JCL 接口开发，而调用组件的应用程序则可以在运行时搭配自己喜好的日志实践工具。

所以即使到现在你仍会看到很多程序应用 JCL + log4j 这种搭配，不过当程序规模越来越庞大时，JCL 的 动态绑定 并不是总能成功，具体原因大家可以 Google 一下，这里就不再赘述了。解决方法之一就是在程序部署时 静态绑定 指定的日志工具，这就是 SLF4J 产生的原因。

SLF4j

跟 JCL 一样，SLF4J 也是只提供 log 接口，具体的实现是在打包应用程序时所放入的绑定器（名字为 slf4j-XXX-version.jar ）来决定，XXX 可以是 log4j12, jdk14, jcl, nop 等，他们实现了跟具体日志工具（比如 log4j ）的绑定及代理工作。举个例子：如果一个程序希望用 log4j 日志工具，那么程序只需针对 slf4j-api 接口编程，然后在打包时再放入 slf4j-log4j12-version.jar 和 log4j.jar 就可以了。

现在还有一个问题，假如你正在开发应用程序所调用的组件当中已经使用了 JCL 的，还有一些组建可能直接调用了 java.util.logging，这时你需要一个桥接器（名字为 XXX-over-slf4j.jar ）把他们的日志输出重定向到 SLF4J, 所谓的桥接器就是一个假的日志实现工具，比如当你把 jcl-over-slf4j.jar 放到 CLASS_PATH 时，即使某个组件原本是通过 JCL 输出日志的，现在却会被 jcl-over-slf4j “骗到” SLF4J 里，然后 SLF4J 又会根据绑定器把日志交给具体的日志实现工具。过程如下。

这时，你可能会发现一个有趣的问题，假如在 CLASS_PATH 里同时放置 log4j-over-slf4j.jar 和 slf4j-log4j12-version.jar 会发生什么情况呢？没错，日志会被踢来踢去，最终进入死循环。

日志搭配组合

日志工具那么多，有门面也有具体实现，那到底如何进行搭配呢？这里主要给出目前最流行的两种搭配：

JCL + Log4j 搭配

这种方式是采用 JCL 作为日志门面抽象接口，具体日志输出使用 Log4j. 具体用到的 Jar 包和资源文件如下：

commons-logging-1.1.jar// JCL 日志门面
log4j-1.2.15.jar// Log4j 具体日志输出
log4j.properties// Log4j 的日志配置文件

对于 Log4j.properties 如何配置，下面会讲到，这里给出常用日志定义代码：

// 注意导入的包
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;   
public class A {  
 private static Log logger = LogFactory.getLog(A.class);
 private static void main(String[] args){
logger.debug("This is debug");
 logger.info("This is info");
logger.warn("This is warn");
logger.eror("This is error");
}
}

SLF4j + Log4j 搭配

这种方式采用 SLF4j 作为日志门面抽象接口，具体日志输出仍然使用 Log4j. 具体用到的 Jar 包和资源文件如下：

slf4j-api-1.5.11.jar
slf4j-log4j12-1.5.11.jar// slf4j 桥接给 log4j
log4j-1.2.15.jar
log4j.properties

我们可以看到除了各自的 API jar 包还有一个 slf4j-log4j12-1.5.11.jar, 这个就是输出流重定向的意思，将 slf4j 接口输出转到具体的 log4j 实现。而假如你目前项目中已经用 JUL 实现日志输出了，你想用此种配置方式怎么办？那就再加一个 jar 包：

jul-to-slf4j-1.7.25.jar

或者你已经使用了 JCL 日志门面接口，那如何转，只要加下面的 jar 包：

jcl-over-slf4j-1.7.25.jar

从中我们可以看出，slf4j 接口使用还是很广泛的，不管是入口还是出口都有各种对应的 jar 包可供使用的，那它可定制化以及适应性是非常广泛的，因此我推荐大家以后尽量使用 SLF4j 这个日志门面作为通用日志输出接口。

使用 SLF4j 的日志代码：

// 注意导入的包和上面的 JCL 不一样的，不要混淆了
import org.slf4j.Logger;  
import org.slf4j.LoggerFactory;   
public class A {  
 private static Logger logger= LoggerFactory.getLogger(A.class);
 private static void main(String[] args){
logger.debug("This is debug");
 logger.info("This is info");
logger.warn("This is warn");
logger.eror("This is error: {}","error stack string");
// error 的输出中 {} 是占位符，可以有多个，对应的后面字符串参数也应该多个
 }
}

这里我们发现一个不同点，就是 SLF4j 可以用 {} 作为占位符，进行日志字符串的拼接操作，那这个有什么好处呢？这里也说明下：

首先看不用占位符是怎么使用多字符串拼接的：

logger.debug("This is debug: " + "debug stack string");

如上所示，完成了一个 debug 日志输出，很多人都是这样实现的，但是大家知道，我们上线的应用不能将 debug 日志输出的，因为 debug 只能在开发调试阶段使用。因此，我们需要配置我们的日志工具，使其只能输出 info, warn, error 的日志信息。那么，logger.debug 这句话内部就会自动判断是否要进行输出，当在内部判断后确实不需要输出！

但是，我们发现一个问题，就是参数字符串拼接都是要先执行的，也就是不管你内部要不要输出，字符串都是要先拼接好才能进入 logger 内部判断的。如果日志记录很少有加的字符串还没多少性能问题，但如果有很多字符串拼接操作，并且拼接很多个字符串，那么会白白地浪费这些字符串拼接过程的性能。因此，正确的做法是：

if (logger.isDebugEnabled()){
logger.debug("This is debug: " + "debug stack string");
}

但是没次输出都要先进行判断是不是太过于重复了，因此，带占位符的字符串拼接操作就诞生了：

logger.debug("This is debug: {}" , "debug stack string");

这种方式多个字符串当做参数传入，不会先进行拼接再传入，而是在内部判断后再进行拼接操作，因此这也是 SLF4j 日志工具的一大优势。那下面就主要讲下 SLF4j 的配置参数。

SLF4j 配置

SLF4j 由于其适配广泛，通用性强，因此很多开源项目中都是使用它作为自己的日志记录接口，就如 Hadoop 系列生态。我们在开发 Hadoop 生态应用的时候，常常会在调试的时候打印出：

log4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell).  
log4j:WARN Please initialize the log4j system properly.  
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

这个就是因为没有配置 log4j.properties 所导致的。那通常的解决方法就是在项目路径里新建一个 log4j.properties, 然后填下面信息就可以了：

log4j.rootLogger=INFO, stdout, logfile

# 标准输出流：输出到终端
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.Encoding=UTF-8
log4j.appender.stdout.Threshold=DEBUG
log4j.appender.stdout.ImmediateFlush=true
log4j.appender.stdout.layout = org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=[%p] %-d{yyyy-MM-dd HH:mm:ss} [%c] %m%n

# 文件输出流：输出到日志文件
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.Threshold=INFO
log4j.appender.logfile.Encoding=UTF-8
log4j.appender.logfile.File=${user.dir}/logs/mylog.log
log4j.appender.logfile.Append=true
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=[%p] %-d{yyyy-MM-dd HH:mm:ss} [%c] %m%n

那这些配置信息到底是什么意思？下面详细讲下。

配置 RootLogger

首先看第 1 行，也就是 log4j.rootLogger 的配置，其语法为：

log4j.rootLogger = [ level ] , appenderName1, appenderName2, ...

(1). level : 是日志记录的优先级，分为 OFF、FATAL、ERROR、WARN、INFO、DEBUG、ALL 或者您定义的级别。Log4j 建议只使用四个级别，优先级从高到低分别是 ERROR、WARN、INFO、DEBUG. 如果设置为 INFO 则，ERROR, WARN, INFO 都会输出，而 DEBUG 不会输出。

(2). appenderName : 是日志输出的目的地，名字是 自定义，也可以写多个；上面的配置 stdout 就是一个 appenderName 名字，当然你也可以叫其他名字的。当然你这里定义了这个名字，那么下面就要配置这个名字对应的输出地的相关信息，那下面配置的信息就得和这里设置的一致。下面会讲到。

配置信息输出目的地

上面代码的第 4-7 和 12-16 行都是配置日志输出目的地的，目的地有多种类型：

(1). org.apache.log4j.ConsoleAppender（控制台）

Threshold=WARN// 指定日志消息的输出最低层次。
ImmediateFlush=true// 默认值是true,意谓着所有的消息都会被立即输出。
Target=System.err// 默认情况下是：System.out,指定输出控制台

(2). org.apache.log4j.FileAppender（文件）

Threshold=WARN// 指定日志消息的输出最低层次。
ImmediateFlush=true// 默认值是true,意谓着所有的消息都会被立即输出。
File=mylog.txt// 指定消息输出到mylog.txt文件。
Append=false// 默认值是true,即将消息增加到指定文件中，false指将消息覆盖指定的文件内容。

(3). org.apache.log4j.DailyRollingFileAppender（每天产生一个日志文件）

Threshold=WARN // 指定日志消息的输出最低层次。
ImmediateFlush=true// 默认值是true,意谓着所有的消息都会被立即输出。
File=mylog.txt// 指定消息输出到mylog.txt文件。
Append=false// 默认值是true,即将消息增加到指定文件中，false指将消息覆盖指定的文件内容。
DatePattern=''.''yyyy-ww//每周滚动一次文件，即每周产生一个新的文件。当然也可以指定按月、周、天、时和分。即对应的格式如下：
1)''.''yyyy-MM: 每月
2)''.''yyyy-ww: 每周  
3)''.''yyyy-MM-dd: 每天
4)''.''yyyy-MM-dd-a: 每天两次
5)''.''yyyy-MM-dd-HH: 每小时
6)''.''yyyy-MM-dd-HH-mm: 每分钟

(4). org.apache.log4j.RollingFileAppender（文件大小到达指定尺寸的时候产生一个新的文件）

Threshold=WARN// 指定日志消息的输出最低层次。
ImmediateFlush=true// 默认值是true,意谓着所有的消息都会被立即输出。
File=mylog.txt// 指定消息输出到mylog.txt文件。
Append=false// 默认值是true,即将消息增加到指定文件中，false指将消息覆盖指定的文件内容。
MaxFileSize=100KB// 后缀可以是KB, MB 或者是 GB. 在日志文件到达该大小时，将会自动滚动，即将原来的内容移到mylog.log.1文件。
MaxBackupIndex=2// 指定可以产生的滚动文件的最大数。

(5). org.apache.log4j.WriterAppender（将日志信息以流格式发送到任意指定的地方）

这个用得相对较少，这里就不介绍了。

日志信息的输出格式

上面代码的第 8-9 和 17-18 行都是配置日志输出格式的，也有多种类型：

(1). org.apache.log4j.HTMLLayout（以HTML表格形式布局）

LocationInfo=true// 默认值是 false, 输出 java 文件名称和行号
Title=my app file// 默认值是 Log4J Log Messages.

(2). org.apache.log4j.PatternLayout（可以灵活地指定布局模式）

ConversionPattern=%m%n// 指定怎样格式化指定的消息。
ConversionPattern=%-4r %-5p %d{yyyy-MM-dd HH:mm:ssS} %c %m%n// 这个模式下面会详细介绍

(3). org.apache.log4j.SimpleLayout（包含日志信息的级别和信息字符串）

LocationInfo=true:默认值是false,输出java文件和行号

(4). org.apache.log4j.TTCCLayout（包含日志产生的时间、线程、类别等等信息）

对于 PatternLayout 模式下：

ConversionPattern=%-4r %-5p %d{yyyy-MM-dd HH:mm:ssS} %c %m%n

这里需要说明的就是日志信息格式中几个符号所代表的含义：

－x号: x信息输出时左对齐；
%p: 输出日志信息优先级，即 DEBUG，INFO，WARN，ERROR，FATAL, 
%d: 输出日志时间点的日期或时间，默认格式为 ISO8601，也可以在其后指定格式，比如：%d{yyy MMM dd HH:mm:ss,SSS}，输出类似：2002年10月18日 22：10：28，921 
%r: 输出自应用启动到输出该log信息耗费的毫秒数
%c: 输出日志信息所属的类目，通常就是所在类的全名
%t: 输出产生该日志事件的线程名
%l: 输出日志事件的发生位置，相当于%C.%M(%F:%L)的组合,包括类目名、发生的线程，以及在代码中的行数。举例：Testlog4.main(TestLog4.java:10) 
%x: 输出和当前线程相关联的NDC(嵌套诊断环境),尤其用到像java servlets这样的多客户多线程的应用中。
%%: 输出一个"%"字符
%F: 输出日志消息产生时所在的文件名称
%L: 输出代码中的行号
%m: 输出代码中指定的消息,产生的日志具体信息
%n: 输出一个回车换行符，Windows平台为"\r\n"，Unix平台为"\n"输出日志信息换行
  可以在%与模式字符之间加上修饰符来控制其最小宽度、最大宽度、和文本的对齐方式。如：
 1)%20c：指定输出category的名称，最小的宽度是20，如果category的名称小于20的话，默认的情况下右对齐。
 2)%-20c:指定输出category的名称，最小的宽度是20，如果category的名称小于20的话，"-"号指定左对齐。
  3)%.30c:指定输出category的名称，最大的宽度是30，如果category的名称大于30的话，就会将左边多出的字符截掉，但小于30的话也不会有空格。
  4)%20.30c:如果category的名称小于20就补空格，并且右对齐，如果其名称长于30字符，就从左边交远销出的字符截掉

下面给出一个完整的配置说明：

# 这里里配置了DEBUG等级，则可显示DEBUG以上的所有信息；
# 配置的输出地有两个apconsole,apfile, 与下面的 后面的log4j.appender.apconsole 最后一个单词相同
log4j.rootLogger = DEBUG, apconsole, apfile

# ========================= apconsole ===========================

# apconsole 目的地配置为：ConsoleAppender（控制台）
log4j.appender.apconsole = org.apache.log4j.ConsoleAppender
# apconsole 输出日志编码 UTF-8
log4j.appender.apconsole.Encoding=UTF-8
# apconsole 的 Threshold: 指定日志消息的输出最低层次为 DEBUG
log4j.appender.apconsole.Threshold=DEBUG
# apconsole 的 ImmediateFlush=true，默认值是true,意谓着所有的消息都会被立即输出
log4j.appender.apconsole.ImmediateFlush=true
# apconsole 的 Target=System.out：默认情况就是是：System.out, 指定输出控制台
# log4j.appender.apconsole.Target=System.out
# apconsole 的信息输出格式为：PatternLayout（可以灵活地指定布局模式）
log4j.appender.apconsole.layout = org.apache.log4j.PatternLayout
# apconsole 的输出格式 ConversionPattern 此处输出为：日志优先级 日志时间 日志所属类全名 日志具体信息 回车
log4j.appender.apconsole.layout.ConversionPattern=[%p] %-d{yyyy-MM-dd HH:mm:ss} [%c] %m%n

# ========================== apfile =============================

# apfile 目的地配置为：DailyRollingFileAppender（每天生成一个文件）
log4j.appender.apfile = org.apache.log4j.DailyRollingFileAppender
# apfile 输出日志文件格式为 UTF-8
log4j.appender.apfile.Encoding=UTF-8
# apfile 输出日志文件地址为 tomcat 主目录的 logs 下的 log.txt
log4j.appender.apfile.File=${catalina.home}/logs/log.txt
# apfile 将消息增加到指定文件中, false 则是覆盖原文件内容
log4j.appender.apfile.Append=true
# apfile 每天产生一个日志文件, 名称为 年月日
log4j.appender.apfile.DatePattern='.'yyyyMMdd
# apfile 采用灵活指定输出布局模式
log4j.appender.apfile.layout = org.apache.log4j.PatternLayout
# apfile 使用 ConversionPattern 此处输出为：日志优先级 日志时间 日志所属类全名 日志具体信息 回车
log4j.appender.apfile.layout.ConversionPattern=[%p] %-d{yyyy-MM-dd HH:mm:ss} [%c] %m%n

参考

Docker 常用命令

2018-03-18T06:00:40.000Z

为虚拟化应用而生，生产环境一键打包

Docker 是一个开源的 应用容器引擎，基于 Go 语言并遵 从Apache2.0 协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口（类似 iPhone 的 App ），更重要的是容器性能开销极低。

应用场景

Web 应用的自动化打包和发布；
自动化测试和持续集成、发布；
在服务型环境中部署和调整数据库或其他的后台应用；
从头编译或者扩展现有的 OpenShift 等平台来搭建自己的PaaS环境；

Docker

官网：www.docker.com

仓库：

docker 官网仓库: http://hub.docker.com
docker 中国区官网仓库: https://registry.docker-cn.com
阿里镜像仓库: https://dev.aliyun.com
163 仓库(需注册): http://c.163yun.com/hub

安装：

MacOS 安装: 官网教程地址
Ubuntu 安装: 官网教程地址

Ubuntu 简单旧版安装:

uname -r # 内核版本需要 > 3.10
sudo apt-get install -y docker.io # 安装系统自带的 docker ( 可能不是最新版本 )
docker version # 出现客户端和服务端版本

Docker初体验

拉取镜像

docker pull [OPTIONS] NAME[:TAG]

NAME 必须指定，TAG 表示版本，默认不写为 latest 最新版本

默认 pull 的地址为 docker 官方镜像地址: https://hub.docker.com/explore/

如：

docker pull hello-world# 拉取 hello-world 镜像
docker pull tomcat# 拉取 tomcat 镜像
docker pull nginx# 拉取 nginx 镜像
docker pull mysql# 拉取 mysql 镜像

但是国内该地址常常被墙，所以国内大公司出了自己的镜像仓库，在上一节已经说明。

这里以用 163 蜂巢的镜像为例，地址: https://c.163.com/hub#/m/home/

地址里含有 libary 为 163 从 docker 官网复制过来的镜像。

如：

docker pull hub.c.163.com/library/tomcat:latest# 拉取 tomcat 镜像
docker pull hub.c.163.com/library/nginx:latest# 拉取 nginx 镜像
docker pull hub.c.163.com/library/mysql:latest# 拉取 mysql 镜像

查看本机镜像

docker images [OPTIONS] [REPOSITORY[:TAG]]

docker images

运行镜像

docker run [OPTIONS] IMAGE[:TAG] [COMMAND] [ARG]

一个镜像运行起来就变为容器了，容器是动态的运行时的称呼。同一个镜像可以运行出多个容器，因为只要运行镜像，其内部内存占用等等一定不相同，所以镜像与容器是 1对多 的关系。

# 直接运行
docker run hello-world# 如果没有此镜像则会自动从官方下载镜像
docker run tomcat# 通过命令行运行 tomcat，按 ctrl+c 就可以结束
# 也可以带参数 [OPTIONS] 运行
docker run -d hello-world# -d 表示后台运行tomcat镜像
# 也可以带命令运行
docker run learn/tutorial echo "hello word"# 输出 hello world
docker run learn/tutorial apt-get install -y ping # 安装 ping 工具
docker run lean/ping ping www.google.com # 执行 ping 命令

查看本机容器

相信用过 Linux 的同学应该知道 ps 这个工具，代表 process 即进程。程序与进程的区别和镜像与容器的关系是一致的，进程和容器都是运行时状态，因此，查看本机容器的关键名也是 ps.

# 查看当前 docker 所运行的容器
docker ps# 列出所有运行着的容器
# 要查看所有容器，包括未运行的容器
docker ps -a# 显示所有容器

运行容器命令

docker exec [OPTIONS] CONTAINER [COMMAND] [ARG]

前面 运行镜像 时已经说明直接运行镜像时可以带上命令以一起运行，那如果容器已经被启动了，怎么再在里面运行命令呢？那就是这个命令。

# 在容器中运行命令，查看帮助文档
docker exec --help# 查看帮助文档
# 其中 -i 和 -t 参数最常用，其这两者常搭配使用
# -i 表示以交互模式运行容器；
# -t 表示为容器重新分配一个伪输入终端；
docker exec -it f4e5 bash# 在某个容器里运行 bash
# 其中 f4e5 表示运行着的容器的 ID ，大家用前面的 docker ps 看到的 ID 就是；
# ID 可以选择前几个字符就可以的，因为前几个字符基本就能确定到这个容器了。

停止容器

docker stop CONTAINER_ID

# 停止某个容器 ( 可以为容器的 Id，也可以是容器的名称 )
docker stop 56f433965490# 以容器 Id 停止容器

打包成镜像

docker commit CONTAINER_ID IMAGE_NAME

容器既然是镜像运行时状态，那我们如果在容器里装很多软件，而自己又不想每次用这个镜像都想重新装一遍软件，那么就可以将自己 DIY 的容器存为镜像，以后我们再 DIY 时就从我们已经装完软件的那个时刻开始了。将容器打包为镜像命令如上。

# 将容器打包成一个新的镜像
docker commit 56f tomcat/property
# 将 Id 为 56f 的容器打包成一个镜像，镜像名称自己起就可以了

删除镜像和容器

# 1. 删除容器
docker rm CONTAINER_ID
# 2. 删除所有容器，-q 表示显示容器 Id
docker rm $(docker ps -a -q)
# 3. 删除镜像，rmi 中的 i 表示 image
docker rmi IMAGES_NAME
# 4：举例：删除 tomcat 镜像
docker rmi tomcat

常用命令

基本命令

下面给出做 web 方向常用到的一些命令：

# 从 163镜像中心 下载 nginx 镜像
docker pull hub.c.163.com/library/nginx:latest
# 或者从官网镜像中心下载 nginx 镜像
docker pull nginx

# 运行 Nginx 镜像， 没有端口映射，只能本机访问
docker run hub.c.163.com/library/nginx# 前台运行
docker run -d hub.c.163.com/library/nginx# 后台运行

# 运行 Nginx 镜像，端口映射本机 80 端口,
# 这样其他机器访问本机的 80 自动映射到容器 80 服务
# docker run -d -p 80:80 --name webserver nginx 
# --name 表示给容器起名，这里为 webserver

# 停止运行 Nginx 镜像的 webserver 容器
docker stop webserver
# 或者用容器 Id 停止
docker stop CONTAINER_ID

# 在容器里运行 bash
docker exec -it f4e5 bash# 打开 f4e5 容器里的 bash 命令行界面

# 查看容器 ip
docker inspect f4e5 | grep IPAddress

容器端口映射

# 将本机 8080 端口映射到容器的 80 端口，-p 代表开放端口
docker run -d -p 8080:80 hub.c.163.com/library/nginx
netstat -na | grep 8080  // 可以检查本机端口状态
# 将本机随机的端口映射到容器的 80 和 443 端口
docker run -d -P hub.c.163.com/library/nginx

容器运行 WAR 包

这是我在一个项目里面用这种方式尝试过了，使用 tomcat 镜像运行出的容器，把本地的 war 包映射到容器 tomcat 里的 ROOT 目录，同时端口也要映射出来，最后可以通过外网访问。

docker run -d -it -p 8089:8080 -v $(pwd)/ROOT.war:/usr/local/tomcat/webapps/ROOT.war -v $(pwd)/ROOT:/usr/local/tomcat/webapps/ROOT -v $(pwd)/uploads:/usr/local/webapps/uploads tomcat
# 1. 将本地 8089 映射到容器的 8080 端口,
# 2. 将本地磁盘的 ROOT.war 映射到容器里 tomcat 的 webapps 目录，
# 3. 将本地磁盘的 ROOT 目录，映射到容器里 tomcat 的 ROOT 目录，
# 4. 将本地磁盘的 uploads 目录，映射到容器里 tomcat 的 webapps/uploads 目录 (这是我们项目上传文件的地址)
# 5. 最后为镜像名称，如果为 163蜂巢的镜像名 则应改为蜂巢的镜像名
# -v : 为加载本地硬盘
# -it : 为执行容器里命令开启
# -i : --interactive 打开STDIN，用于控制台交互   
# -t : --tty 分配tty设备，该可以支持终端登录

制作自己的镜像

这个是从构建文件制作自己的镜像的，主要是写 Dockerfile, 这个目前还涉及的较少，只写下基本的构建过程。主要分为 Dockerfile 编写和 build 命令：

Dockerfile

from hub.c.163.com/library/tomcat# 镜像从 tomcat 继承
MAINTAINER jiyi xxx@163.com# 著作者名和邮箱
COPY jpress.war  /usr/local/tomcat/webapps# 镜像操作，这里将 jpress.war 放到 tomcat/webapps 目录下

docker build [OPTIONS] [PATH]

# 直接在包含 Dockerfile 的当前目录 build
docker build .
# 或者 -t 为生成的镜像配一个 tag 说明，这里 jpress 为名字，lastest 为 tag
# 注意还有一个 . 表示 [PATH]，这里还是指当前路径
docker build -t jpress:latest .

私有仓库部署

很多公司里需要构建自己的私有仓库，因此这里也简单介绍下。

假设有两台机器:

A: 192.168.31.115 (作为仓库)

B: 192.168.31.215 (提交镜像者)

(1). A: 下载仓库镜像

docker pull registry

(2). A: 运行镜像

应该将本地某个目录映射到 /tmp/registry 中以保存镜像，官方文档: 点我，这里还是说下不同版本的 registry 镜像中仓库地址是不一样的：

版本 1.0 的数据保存在 ~~/tmp/registry~~
版本 2.0 的数据存储在 /var/lib/registry

示例命令如下：

docker run -d -p 5000:5000 -v /opt/data/registry:/var/lib/registry registry

(3). B: 先下载一个小镜像

docker pull busybox

(4). B: 修改该镜像的 tag

docker tag busybox 192.168.31.115:5000/busybox

(5). B: 上传镜像

docker push 192.168.31.115:5000/busybox

出现问题不能 https，官方说明配置:https://docs.docker.com/registry/insecure/，这里说下我自己尝试的方法：

如果是在 Mac 上操作的，直接在docker 图标的设置里添加 Insecure-registry:192.168.31.115:5000, 保存重启软件就可以了。

如果是 Linux 系统，则修改 Docker 的配置文件 /etc/docker/daemon.json, 如下：

{
"insecure-registries" : ["myregistrydomain.com:5000"]
}

(6). B: 检查是否上传成功

curl -XGET http://registry:5000/v2/_catalog
curl -XGET http://192.168.31.115:5000/v2/_catalog
curl -XGET http://registry:5000/v2/image_name/tags/list
curl -XGET http://192.168.31.115:5000/v2/192.168.31.115:5000/busybox/tags/list

返回结果示例：

{
"repositories": [
"busybox"
]
}

论文收录平台 ( SCI、EI 等 ) 详细说明

2017-11-18T06:00:40.000Z

学术论文平台一点通，毕业论文不再是难事

最近发论文的需求逐渐被提高上来，身边的同学也在忙碌自己的研究，准备发篇论文以应对论文开题。但我们学校对发的论文有一定要求，需要被至少 SCI、EI、北大核刊 录入才可以，但是全球期刊和会议多之又多，怎么确定哪个会议被哪个平台是否录入，哪个学术会议或期刊价值更高点，以及怎么对各个平台进行索引搜索，这就需要自己详细地了解各种平台以及各个名词，下面记录下自己的了解。

主要关键词：ISI、SCI、SCIE、SSCI、JCR、ESI、EI、ISTP、IEEE、CCF等说明；
各个服务的检索网址说明；
中国索引服务介绍

详细说明

SCI

SCI 的英文全称为 Science Citation Index ，即 《科学引文索引》，简称 《SCI》，是美国科技情报研究所（ Institute for Scientific Information 简称“ ISI ” ）于 1961 年创办的国际权威检索系统，其创始人为 尤金·加菲尔德（ Eugene Garfield, September 16, 1925～2017 ）。

SCIE

SCIE 即 SCI Expanded 为《科学引文索引扩展版》（即网络版），上面的 SCI 则主要 指来源刊为3700多种的SCI印刷版和SCI光盘版；而 SCIE 则收录了5600多种来源期刊，提供WEB检索服务，随着网络的普及，现在我们 高校所讲的SCI 通常是包 原SCI+SCIE 的,而网络上能检索的通常是 SCIE，所以一般网上讲的 SCI 通常都是指 SCIE。

SSCI

SSCI 即 Social Sciences Citation Index 为 《社会科学引文索引》，也由 ISI 创建，是 SCI(原SCI+SCIE) 的姊妹篇。主要收录 1809 种世界最重要的 社会科学 期刊，内容覆盖包括人类学、法律、经济、历史、地理、心理学等 55 个领域。收录文献类型包括：研究论文，书评，专题讨论，社论，人物自传，书信等。选择收录 ( Selectively Covered ) 期刊为 1300 多种。

JCR

JCR 即 Journal Citation Reports 为 《期刊引用报告》，也由 ISI 出版，每年出版一次，其主要是对 SCIE 和 SSCI 收录的期刊的引用和被引用数据进行统计、运算，并针对每种期刊定义了 影响因子（Impact Factor，缩写IF） 等指数加以报道。该指数主要作为 期刊(并非论文)的评价工具。一种刊物的影响因子越高，也即其刊载的文献被引用率越高，一方面说明这些文献报道的研究成果影响力大，另一方面也反映该刊物的学术水平高。

ESI

ESI 即 Essential Science Indicators 为 《基本科学指标》,也由 ISI 出版，于 2001 年推出的衡量科学研究绩效、跟踪科学发展趋势的基本分析评价工具，也是基于 SCI 和 SSCI 所收录的 12000 多种学术期刊的1000多万条文献记录而建立的计量分析数据库，这个可用于 评价论文、作者、高校、学术机构、国家/地区国际学术水平及影响力的重要评价指标，因此很多学校很看重这个。

ESI 指标会每 两个月更新一次，其每次都会将评判的所有期刊和会议列表成文档，放在官网提供下载，因此也会有很多高校会要求学生发表的论文期刊或会议在此列表中。ESI 每次更新的文档下载地址：ESI评价期刊列表下载

Web of Science

Web of Science 简称 WOS 是由 Thomson Scientific(汤姆森科技信息集团) 推出的综合性学术信息资源平台，其具有丰富而强大的检索功能–普通检索、被引文献检索、化学结构检索，您可以方便快速地找到有价值的科研信息，即可以越查越旧，也可以越查越新，全面了解有关某一学科、某一课题的研究信息。它的资源库 除了SCIE，还有SSCI，还有A&HCI ( 人文和艺术引文索引 ),也包括其他扩充的数据资源库 ( 如：KCI,韩国期刊数据库 )。

Web of Knowledge

Web of Knowledge 是由 Thomson Scientific(汤姆森科技信息集团) 开发的信息检索平台，该平台包含了 Web of Science(主要是学术论文、会议录和新增的学术图书数据库)，还有 专利数据库，还有 JCR(Journal Citation Reports)，以及 ESI(Essential Science Indicators) 等数据检索服务。这个是所有检索服务的入口平台，官网为：http://www.webofknowledge.com。

对于 Web of Science 和 Web of Knowledge区别?，可以打个比方：Web of Knowledge 就相当于Microsoft Windows操作系统，而 Web of Science 则相当于Microsoft Office一套办公软件，正如Microsoft Windows平台除了可以跑Microsoft Office之外，还可以跑各种应用程序一样，Web of Knowledge平台除了 Web of Science 还包括 专利数据库服务、JCR服务、ESI服务 等。详细说明可以查看这里。

注意：这个网址 不是免费的，各大高校访问会根据学校 ip 自动登录就可以检索了，因为高校通常购买了使用权，但如果使用的普通外网则不能够访问。

官网首页–默认为 Web of Science 板块,查询 SCI 文章:

其次– JCR 板块，查询期刊影响因子:

另外– ESI 板块，查询论文、作者、机构等排名:

EI

EI 即 The Engineering Index 为 《工程索引》，由 美国工程师学会联合会 于 1884 年创办的历史上最悠久的一部大型综合性检索工具,EI 每月出版1期，文摘 1.3 万至 1.4 万条；每期附有主题索引与作者索引；每年还另外出版年卷本和年度索引，年度索引还增加了作者单位索引。收录文献几乎涉及 工程技术 各个领域。例如：动力、电工、电子、自动控制、矿冶、金属工艺、机械制造、土建、水利等。它具有综合性强、资料来源广、地理覆盖面广、报道量大、报道质量高、权威性强等特点。

这个是 EI数据库官网：http://www.engineeringvillage.com
这个是 EI公司的官网：http://www.elsevier.com （ 查 EI 论文，这个网址不需要 ）
检索 说明教程：图文说明

ISTP

ISTP 即 Index to Scientific & Technical Proceedings，为《科技会议录索引》 简称 ISTP，创刊于 1978 年，由 美国科学情报研究所(ISI) 编辑出版。SCI、EI、ISTP是世界著名的三大科技文献检索系统，是国际公认的进行科学统计与科学评价的主要检索工具,其中以SCI最为重要。ISI 基于 Web of Science 的检索平台，将 ISTP（科学技术会议录索引）和 ISSHP（社会科学及人文科学会议录索引）两大会议录索引集成为 ISI Proceedings。集成之后 ISTP 分为文科和理科两种检索，分别是 CPCI-SSH 和 CPCI-S。所以它们还统称为 ISTP，也有人叫它们 CPCI。

IEEE

IEEE 即 Instituteof Electrical and Electronics Engineers 为 美国电气和电子工程师协会 是一个国际性的电子技术与信息科学工程师的协会，是世界上最大的专业技术组织之一（成员人数），拥有来自 175 个国家的 36 万会员( 到2005年 )。该组织在太空、计算机、电信、生物医学、电力及消费性电子产品等领域中都是主要的权威。

IEEE 就和IEE（现在是IET）是英国的，IEICE是日本，CIE（中国电子协会）是中国的一样，它属于一个 学术组织 ，不是数据库
既然是学术组织，一般都有自己的学术刊物，对于IEEE主要有 Transactions（汇刊，会刊或学报），Journal（学报），Magazine（杂志）和Letters（快报，通讯）等
而SCI和EI只是检索工具，严格来讲其不是论文内容数据库，因为检索内容和论文内容不是一个意思，例如：你可以用SCI工具检索到大部分IEEE刊物论文信息，但是SCI（ISI
Thompson）是无法提供论文内容的，因为他们的检索信息是各个刊物提供的，你要获取全文需要访问付费数据库，例如IEEExplore,Elsevier数据库等。
与IEEE相似概念的有：ACM (Association for Computing Machinery ) 中文：国际计算机学会。ACM是一个世界性的计算机从业员专业组织，创立于1947年。 CCF (China Computer Federation),中国计算机学会,成立于1962年，是中国计算机科学与技术领域群众性学术团体。

CCF

CCF : 即 China Computer Federation 为 中国计算机学会，成立于 1962 年，是中国 计算机科学与技术领域 群众性学术团体。注意此处是专注 计算机科学与技术，因此很多计算机专业的学院都会要求发表的论文为 CCF推荐会议或期刊 论文,CCF自动将各个期刊和会议分为 A、B、C类，A 类为顶会期刊或会议。

中科院JCR期刊分区

中科院JCR期刊分区 : 分区是为了区别期刊的影响力等级，这与 CCF 中的 A类、B类、C类是同一个意思，只不过这里通常划分为四个分区。而分区主要还是基于 汤森路透公司(ISI隶属于此公司)的 JCR(《期刊引用报告》), JCR 中定义了的 影响因子 ( Impact Factor 简称 IF )就是决定分区方法的主要因素。分区也主要分为两种分区方式，一个就是汤森路透公司自己的分区方法 – 汤森路透分区法，另外就是我们中国中科院的分区方法– 中国科学院分区法，两者分区区别请看 SCI汤森路透分区法和中国科学院分区法的区别

(1). 汤森路透分区法 : 检索是通过上文提到的 Web of Knowledge 中的 JCR模块查询。

(2). 中科院JCR期刊分区 : 检索地址为：http://www.fenqubiao.com/,这也需要账号的，高校通常会提供。

首页登录

浏览期刊排名

检索服务

国内索引服务

上面讲的核心都是国外提供的索引服务，对于国内的(比如:北大核刊)，也是有的,下面这些来源于知乎，地址：https://www.zhihu.com/question/31558495

中文核心期刊要目总览 ( PKU ): 因是北京大学图书馆主持发布的，俗称中文核心，北大核心。内容包含全面，既有自然科学类又有人文社会科学类。(北大图书馆带领一堆专家玩小聚会，玩出了境界，门类齐全但每个门类都很少，两千种左右。武林至尊谁敢不从，一般没有特别要求的核心都是说它)
中文社会科学引文索引 ( CSSCI )，因为是南京大学中国社会科学研究评价中心主持发布的，俗称南大核心。只包含人文社会科学类。(十几所高校联合起来搞高级酒会，搞出了高度，社科类就玩五百多种期刊啦，文科仔们都气冒烟了)
中国科技论文统计源期刊 ( ISTIC )，是中国科技部中国科学技术信息研究所主持发布的中国科技期刊引证报告中的核心部分，俗称统计源核心，中国科技核心。包含自然科学类，极少部分人文社科类的。一千六百左右吧。( 还是我科技部的敞亮，理工仔们扬眉吐气了，自然期刊比北大多了不少种嘛。尤其吸收的医学生物学，医学类比例都占三分之一了，外号叫医学核心也不是没有道理。但后来竟然吸收了社科的我也不懂为什么。)
中国科学引文数据库来源期刊 ( CSCD )，是由中国科学院文献情报中心发布的统计源的核心部分，俗称中科院核心。好像是申请国家基金项目的硬指标啊。只是包含自然科学类的。核心部分八百种左右。( 科学院也不想让理工仔们活的潇洒啊，勒紧你们的紧箍咒 )
中国人文社会科学核心期刊 ( CHSSCD )，中国社科院文献计量与科学评价研究中心发布的中国人文科学核心期刊要览中的核心部分，俗称应该就是人文社科核心，社科院核心吧，包含人文社会科学类。五百种左右。(社科院的姿态，怒刷存在感)
中国人文社会科学报核心期刊,评选出的都是大学学报的社科版啦，好像不受关注的样子。(大学学报们这也能搞出来个学会，城会玩。也来开个party，我发现社科仔们真会玩啊)
中国核心期刊(遴选)数据库，万方数据股份有限公司 的(开个私人会所，没背景也没NB评审团的，倒是起了个招摇的名字，我服了你了，印在封面上唬人一来一来的。)
中国期刊全文数据库 ( CJFD )，中国知网CNKI，原名中国期刊网，同方知网技术有限公司，全国八千多种期刊，(什么叫闷声发大财，垄断就在你的屏幕上摆着呢，我就问你买不买？)
中国科技期刊数据库，维普，重庆维普资讯有限公司，尽收一万两千多种期刊。(收破烂专家的样子)。
中国权威学术期刊 ( RCCSE )，在武汉大学中国科学评价研究中心与武汉大学图书馆和信息管理学院联合研发完成的 RCCSE 中国学术期刊评价研究报告——权威、核心学术期刊排行榜，俗称武大核心。三百多种。(威呜呜呜呜，权威两个字就问你们怕不怕，哈哈)
中国学术期刊综合评价数据库，以中国学术期刊（光盘版）和中国期刊网专题全文数据库的评价数据为基础而建立起来的大型数据库。中国知识资源总库（ CNKI ）、清华大学主办、中国学术期刊（光盘版）电子杂志社出版、清华同方知网（北京）技术有限公司发行、数百位科学家、院士、学者参与建设，精心打造的大型知识服务平台和数字化学习系统。(圈地，知网这步棋走的好啊，一统江湖)
人大报刊复印资料，中国人民大学《复印报刊资料》由中国人民大学书报资料中心出版，该数据库从国内公开出版的近六千种核心期刊与专业特色期刊中精选全文并汇编而成，囊括了人文社会科学领域中的各个学科。( 普遍是白皮封装，文章被其收录是刊物和论文的一种荣誉吧 )
新华文摘，新华文摘是人民出版社主办的是一个大型的综合性、学术性、资料性的文摘半月刊，其选登文章代表了诸领域的前沿思想。同上，收录的也是其他期刊已经发表的优秀文章。在有的职称评选条件中，人大复印资料和新华文摘被承认国家级核心刊物。

本校要求的索引平台

下面是我自己学校研究生论文要求平台而提供的说明：

参考

CDH-5.13 基于 Ubuntu 的布式部署

2017-11-09T09:40:40.000Z

企业大数据开源平台，从部署迈出第一步

最近应项目公司需求，我们需要为其构建一个大数据平台。开源的Hadoop生态应用 由于没有技术服务支持，公司不采用此种方案进行构建。因此我们选择采购具有技术支持的 第三方大数据平台，当然这些公司的平台也完全基于 Hadoop, 只不过他们有着一帮技术团队，可以为自己平台出现的问题提供技术服务。

第三方平台目前我们所接触了解的有四家：

Cloudera
星环科技
华为
阿里

而由于 Cloudera 提供了开源免费版本的产品，因此这篇博客主要对 Cloudera 公司产品的部署过程进行记录。

简要介绍

Cloudera: Cloudera 公司目前是世界上最大的大数据平台提供商，其总部位于美国，且已经上市，2014进入中国市场，Hadoop 创始人 Doug Cutting 目前也就职于Cloudera，担任首席架构师，其内部有很多开源项目的 Committer，相比其他公司，其技术水平有着绝对的优势。
CDH: Cloudera 公司目前主要的产品是 CDH ( Cloudera’s Distribution including Apache Hadoop ),是对 Hadoop 生态( hadoop + hive, hbase, flume, impala 等等)的一种封装融合，该产品是 完全免费下载和安装 的，其盈利方式是技术支持服务。
Cloudera Manager: 由于大数据平台本身就是分布式，CDH 自然也不例外，为了便于用户快捷安装，Cloudera 公司提供了 Cloudera Manager 工具，可让用户在可视化的页面上组织自己的集群。
部署方式：首先，Cloudera 公司提供了产品的尝鲜版本，主要提供了Virtual Box、VMWare、KVM、Docker Image 等虚拟镜像，为了体验产品的用户可以尝试。此外，Cloudera 提供正式版本的安装说明,下面就按照正式版本正式生产环境进行安装部署。

环境准备

目前，Cloudera 最新版为 CDH5.13，因此本教程基于 CDH5.13 安装

硬件准备

搭建一个包含四个节点的集群，1 个 master, 3 个 slave, Host IP 对应关系如下：

192.168.1.100 master
192.168.1.101 slave1
192.168.1.102 slave2
192.168.1.103 slave3

各个主机的物理配置如下，master 至少 16G 内存，slave [ 1-3 ]至少 4G 内存：

master: CPU 16 核，32GB 内存，500G SSD
slave[1-3]: CPU 8 核，16GB 内存，500G SSD

软件准备

系统环境为Ubuntu16.04-Server版本，我们需要提前下好如下数据包：

Cloudera Manager 安装包，约 750MB;
CDH 离线资源包，约 1.9GB;
CDH 离线包验证文件，约 41B;
CDH 离线包内的组件描述文件，约 74KB;
JDK8 安装包，约 180MB;

其下载好的对应文件名如下：

cloudera-manager-xenial-cm5.13.0_amd64.tar.gz
CDH-5.13.0-1.cdh5.13.0.p0.29-xenial.parcel
CDH-5.13.0-1.cdh5.13.0.p0.29-xenial.parcel.sha
manifest.json
jdk-8u121-linux-x64.tar.gz

下载时需要确定自己系统的版本名称，Ubuntu 16.04 的对应的版本名称为 xenial，下面为对应文件的下载地址：

Cloudera Manager: Cloudera 官网地址
CDH 资源包、CDH 校验文件、manifest.json: Cloudera 官网地址
JDK: Oracle 官网地址或者个人仓库地址

正式部署环境配置

正式的环境安装,以下操作均以 root 身份执行

基本信息修改

主要修改 Hostname 以及 Hosts 配置。修改 Hostname 是为了我们集群好查看和管理各个结点，而修改 Hosts 则是为了我们不用每次输入命令时都输入对方主机的 IP，我们直接输入 Hosts 中 IP 对应的名称即可。

修改hostname: 所有节点，将各个主机名设置为对应的名称： master, slave1, slave2, slave3，master 主机修改为 master, slave[1-3] 则修改为 slave1,slave2,slave3, 修改命令如下：

# 所有节点
vi /etc/hostname

Hosts配置：主要修改 /etc/hosts 文件，修改命令如下：

# 所有节点
0.0.1     localhost
168.1.100 master
168.1.101 slave1
168.1.102 slave2
168.1.103 slave3

免密登录

安装过程全部自动化，因此需要让 master 主机到所有其他 slave 主机可以免密登录。

由于是刚装的系统，Ubuntu 默认没有开启 root 远程登录的权限，所以需要先配置所有主机可 root 远程 ssh 登录，主要编辑配置文件 /etc/ssh/sshd_config,修改命令如下：

# 所有节点
vi /etc/ssh/sshd_config
# PermitRootLogin prohibit-password # 原来的注释掉
PermitRootLogin yes# 修改为这个新配置
service ssh restart # 重启 ssh 服务，使之生效

其次，要配置 slave 信任 master 主机。首先在 master 节点上生成 ssh 公钥私钥，执行 ssh-keygen -t rsa 一直回车，会生成在用户目录下的 .ssh 文件夹里，里面存放了公钥和私钥。然后再将生成的公钥添加到 master 和 slave[1-3] 主机的信任授权列表里，命令如下：

# master节点上
ssh-keygen -t rsa
ssh-copy-id -i ~/.ssh/id_rsa.pub master
ssh-copy-id -i ~/.ssh/id_rsa.pub slave1
ssh-copy-id -i ~/.ssh/id_rsa.pub slave2
ssh-copy-id -i ~/.ssh/id_rsa.pub slave3

最后，测试 master 免密登录各个节点是否成功，使用 ssh [hostname]，若回车后自动登录，则成功，操作命令如下：

# master节点
ssh master
ssh slave1
ssh slave2
ssh slave3

配置JDK环境

首先，解压 JDK 压缩包

# 所有节点
tar -zxf jdk-8u121-linux-x64.tar.gz -C /opt # 安装在 /opt 目录下
mv /opt/jdk1.8.0_121 /opt/jdk8 # 将目录重命名

然后，配置 JAVA_HOME 和 PATH 环境变量

# 所有节点
vi /etc/profile # 加入下面环境
export JAVA_HOME=/opt/jdk8
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$JAVA_HOME/bin:$PATH
# 所有节点
vi /etc/environment # 添加如下，注意此处无需 export 关键字
JAVA_HOME=/opt/jdk8
# 所有节点
vi ~/.bashrc # 添加如下
export JAVA_HOME=/opt/jdk8
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$JAVA_HOME/bin:$PATH
# 所有节点
source /etc/profile# 让系统环境变量立即生效
source /etc/environment# 让系统环境变量立即生效
source ~/.bashrc# 让个人环境变量立即生效

最后，测试 Java 是否安装成功，输入 java -version ，显示 Java 版本即可。

安装MySQL

这个在 master 节点安装即可

# master节点
apt-get install mysql-server mysql-client

正式部署 – 安装 Manager

安装之前需要将必要的软件上传到 master 节点上，文件包含：

cloudera-manager-xenial-cm5.13.0_amd64.tar.gz，
CDH-5.13.0-1.cdh5.13.0.p0.29-xenial.parcel，
CDH-5.13.0-1.cdh5.13.0.p0.29-xenial.parcel.sha，
manifest.json

解压文件

解压 cloudera-manager-xxx.tar.gz 文件到 /opt

# master节点
tar -zxf cloudera-manager-xenial-cm5.13.0_amd64.tar.gz -C /opt

连接 MySQL

安装过程中 Cloudera Manager 需要用到 mysql 服务，所以这里需要先提供好 mysql 资源。

首先，安装 mysql-connector-java 包，并链接到 CM 库：

# 所有节点安装库
apt-get install libmysql-java
# 链接 mysql 连接库到 cm 库中给平台使用
ln -s /usr/share/java/mysql-connector-java.jar /opt/cm-5.13.0/share/cmf/lib/mysql-connector-java.jar

然后，再创建 cm5 的数据库：

# master节点
cd /opt/cm-5.13.0/share/cmf/schema
./scm_prepare_database.sh mysql -uroot -p123456 scm scm scm # 创建数据库

配置Agent

这个 Agent 实际上就是安装代理，分布式的每台机器安装过程中都会产生这个进程，那这些 Agent 由谁来操控，通常是由 master 节点进行管理操作，所以要先将配置文件的管理这指向 master.

首先，修改配置文件的 server, 指向 master

# master节点
vi /opt/cm-5.13.0/etc/cloudera-scm-agent/config.ini 
# 将 server_host 修改为 master
server_host=master

然后，同步 Agent 到 slave[1-3] 节点

# master节点上
scp -r /opt/cm-5.13.0/ root@slave1:/opt/
scp -r /opt/cm-5.13.0/ root@slave2:/opt/
scp -r /opt/cm-5.13.0/ root@slave3:/opt/

最后，为所有节点创建 cloudera-scm 用户

# 所有节点
useradd --system --home=/opt/cm-5.13.0/run/cloudera-scm-server/ --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm

配置 Parcels

要安装 CDH5, 我们需要配置 Parcels，这个是 Cloudera 给的安装包的镜像仓库地址，但是国内访问速度很慢，因此我们不使用在线安装，而是通过已经下载的 parcel 包，将其放置在下载镜像的目录，表示 parcel 包已经下载好了，这样就不会再联网下载了。

首先，在 master 节点，用下面命令创建文件夹

# master 节点
mkdir -p /opt/cloudera/parcel-repo

然后，传入三个文件：

CDH-5.13.0-1.cdh5.13.0.p0.29-xenial.parcel，
CDH-5.13.0-1.cdh5.13.0.p0.29-xenial.parcel.sha，
manifest.json

启动 Server 和 Agent

在 master 节点启动 Server 进程

# master 节点
cd /opt/cm-5.13.0/etc/init.d
./cloudera-scm-server start

在所有节点启动 Agent 进程

cd /opt/cm-5.13.0/etc/init.d
./cloudera-scm-agent start

这里假如大家有错误，可以查看对应进程的日志：

Server 进程 log 日志文件：
/opt/cm-5.13.0/log/cloudera-scm-server/cloudera-scm-server.log
Agent 进程 log 日志文件：
/opt/cm-5.13.0/log/cloudera-scm-agent/cloudera-scm-agent.log,
如果没有 .log 文件，可以试试 .out 文件

正式部署–可视化集群配置

等待 Cloudera Manager Server 和 Agent 启动完毕后，就可以进行 CDH5 的可视化界面安装了，在浏览器打开 http://master:7180, 注意，如果这是在 master, slave[1-3] 主机上时可以直接在浏览器里输入这个 url, 但如果 不在 master 和 slave[1-3] 节点上访问此 url，则需要修改主机的 hosts 文件，修改方法见 正式部署环境配置 中的 hosts 配置。

同意条款

选择版本

选择中间的试用版本，肯定要体验最全的功能

选择集群机器

这里只显示启动了Agent进程的主机

选择集群安装方式

这里选择 Parcel, 我们之前已经把离线包下载好并放在了 master 的仓库目录下，因此这里直接显示了我们已经下载的 CDH5

分发 Parcel 包到各个结点

这里自动由 master 将 CDH 包分发到 slave[1-3]

检测安装环境

这里出现下面警告，通过在所有主机上执行 echo 10 > /proc/sys/vm/swappiness, 然后再重新检测下环境即可

选择安装服务

这里我就选择核心服务，因为后面管理界面可以任意 增加、删除 各个服务。

角色配置

这里默认即可

数据库配置

这里是最重要也是最容易出错的地方，配置数据库前，需要先创建数据库,我们只需要在 master 主机上创建，这里主要需要创建 四个数据库 ( hive, rman, ozzie, hue ) 和 四个用户名 ( hive, rman, ozzie, hue ).

# master主机
mysql -u root -p # 连接mysql数据库
# 创建四个数据
create database hive DEFAULT CHARSET utf8; 
create database rman DEFAULT CHARSET utf8;
create database oozie DEFAULT CHARSET utf8;
create database hue DEFAULT CHARSET utf8;
# 创建四个用户名
grant all on hive.* TO 'hive'@'%' IDENTIFIED BY '123456';
grant all on rman.* TO 'rman'@'%' IDENTIFIED BY '123456';
grant all on oozie.* TO 'oozie'@'%' IDENTIFIED BY '123456';
grant all on hue.* TO 'hue'@'%' IDENTIFIED BY '123456';

此外，这里还常常出现 Hue 测试连接数据库时失败，这种情况是因为 依赖包 没有安装，这里给出我测试成功需要的依赖包，更详细的依赖包查看官网的 Install Package Dependencies 说明：

# 仅master主机
apt-get install python-mysqldb
apt-get install libxslt1.1
apt-get install apache2
apt-get install libssl-dev

然后，点击 测试连接，成功后进行下一步

进行安装

安装成功

集群界面

添加服务

点击 集群右侧倒三角，选择添加服务

出现服务选择界面，自己根据需求选择 Hadoop 生态中的应用：

添加主机到集群

点击菜单栏上的 主机–所有主机

会看到当前集群的所有主机列表，点击右上角的 向集群添加新主机

进入添加主机流程，大家一步一步下一步安装即可

参考

MacOS 下多 Python 版本说明

2017-10-31T14:16:40.000Z

好的配置环境是保证产能的前提

应大数据和机器学习的要求，对处理数据的计算机语言需求越来大，之前虽然弄过 Python 环境，但是没有彻底搞清楚 Python 多版本执行程序以及多版本的模块位置，导致自己电脑上环境紊乱，今天花了点功夫解决下。

说明

我的电脑是 MacOS 系统，并且 MacOS 系统是自带了 Python，而之前在捣鼓 Python 时，可能后装了很多次不同的版本，导致在我电脑上的的 Python 有诸多问题，这里主要说明以下几个问题：

多版本 Python 的安装路径识别
多版本 Python 对应的 pip 命令识别
多版本 Python 对应的 pip 安装模块位置确定

安装路径识别

Python 现在分为两个版本 2.X 版本 和 3.X 版本，两代版本并不能够完全兼容，因此两个版本的模块包也会分开安装的，因此完全把握两种版本环境是很有必要的。

Python 2.X版本

此版本对应旧版本，其默认执行命令是 python, 因此我们在终端输入 python --version 通常会显示 2.X 的版本字样。

通过 which python 命令查看 Python 路径，然后用 ls -l 可查看该路径的 Python 执行文件属性如下：

上图显示 /usr/bin/python 文件非软链接文件，由于我们自己安装的 Python 通常是用软链接的方式链接到安装目录，因此这里的 python 应该属于本机自带的 Python, 其安装位置即为 /usr/bin/python.

Python 3.X版本

此版本对应新版本，其默认执行命令是 python3, 不是完全兼容旧版本的，但是代表了 Python 的发展方向，新人的话建议直接学习此版本。

通过 which python3 命令查看 Python3 路径，然后用 ls -l 查看路径的的文件属性：

上图显示 /usr/local/bin/python3 文件为软链接文件，链接的源位置为 /Library/Frameworks/Python.framework/Versions/3.5/bin/python3, 因此这就是 Python3 的安装位置，由此也可以知道当前 Python3 的版本是 3.5.

实际上系统自带的命令通常安装在 /usr/bin/ 目录下，而用户自己安装的命令通常在 /usr/local/bin/ 目录下，这通常是因为普通安装命令都是在 /usr/local/bin/ 下有写的权限的。

pip 命令识别

Python 版本的不同导致 Python 下的包管理工具 pip 命令也不同，因此使得 pip 命令也产生很多的 pipX 命令。通常而言，对于 Python2x 版本其对应的 pip 命令为 pip, 而对于 Python3.X 版本其对应的 pip 命令为pip3. 此外，还有一种可同时执行不同版本 Python 的 pip 方式：python -m pip install xxx 或者 python3 -m pip install xxx, 这就不需要用不同的命令了，但是前提还是需要摸清自己本机的环境。

Python2.X 版本的 pip

通过 which pip 查看 pip 路径，然后用 ll 查看文件属性，该文件为非链接文件，其与上面的 Python 相对应

我们也可以通过命令来查看 pip 目录中有哪些 pip:

ll /usr/local/bin | grep pip

结果：

我们看到上图有好多 pip 命令，到底哪些可用或者一致呢？我们可以看这些命令的 创建时间 基本可以判断前三个 pip 是同一时刻安装的，最后一个是另外时间安装的 pip 工具，我们可以通过 pip 命令安装一个已经存在的模块查看其已经安装的模块路径如下图，我们可以知道 pip, pip2, pip2.7 都是 Python2.X 版本的 python 命令所对应的 pip.

Python3.X 版本的 pip3

通过 which pip3查看 pip 路径，然后用 ll 查看文件属性如下图，然而，pip3 并没有此命令，但我们从之前的查看命令可知存在 pip3.5 命令

ll /usr/local/bin | grep pip

再次执行 which pip3.5，情况如下：

我们天真地以为 pip3.5 命令就是我们 Python3.X 版本的 pip，我们执行安装命令试试 pip3.5 install numpy，结果如下：

执行报错，这错误网上有解决方法这里, 但是我们这里不确定此 Python3.5 是否关联我们本机的 Python3，因为这有可能是自己以前安装了 Python3.5 又卸载后存留的。这里我们再试试另外一种可能，就是本机 Python3 的 pip 在另外地方，只不过它没有在环境变量中，我们可以如下测试 python3 -m pip --version, 我们也可以尝试安装一个包，如图，可以确定通过 Python3 内部的 pip 可以将模块安装在内部目录里。

至此可以确定，Python3 对应的 pip 在自己安装路径内部，而不通过环境变量直接定位，需要通过 python3 -m pip install xxxx 来安装模块。

pip模块安装路径确定

到这里我想大家已经知道如何确定 pip 模块的安装位置了，主要要首先确定 Python 各个版本对应的 pip，然后通过 pip 的重复安装即可确定模块安装位置。

注意：下面的安装位置仅仅是我自己系统上的环境位置，并非适用你自己的环境，需要自己确定自己的 Python 版本和 pip 版本

Python2.X版本的模块位置:

pip install numpy

Python3.X版本的模块位置:

python3 -m pip install numpy

总结

Python2.X:

执行路径: /usr/bin/python

pip 路径: /usr/local/bin/pip, /usr/local/bin/pip2, /usr/local/bin/pip2.7

模块位置:/usr/local/lib/python2.7/site-packages

Python3.X:

执行路径: /Library/Frameworks/Python.framework/Versions/3.5/bin/python3

pip 路径: /Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/pip-9.0.1-py3.5.egg

模块位置: /Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages

Python 存在不统一路径查找的原因：

(1). 通过 pkg 安装包: Python 官网 https://www.python.org/downloads/, 下载后文件为 python-3.6.3-macosx10.6.pkg 形式的文件，这种文件可直接双击安装，其安装的位置通常在 /Library/Frameworks 下。

(2). 通过 homebrew 安装: Homebrew 官网 https://brew.sh/, 其安装方式为:

brew install python # 安装python2.X
brew install python3 # 安装python3.X

这种方式安装是先将包下载在 /usr/local/Cellar 目录下，然后自动在 /usr/local/bin/ 下新建一个执行链接到 /usr/local/Cellar.

如：我们安装一个wget 工具：brew install wget，然后我们可以查看wget的原路径：

对于安装用 brew 安装 Python3，其也会自动下载对应的 pip3 的，并且都会将其放置在 /usr/local/bin/目录下，以软链接的形式链接到 /usr/local/Cellar下的对应文件.

(3). 通过源码包: 这会自动放置在 /usr/local/bin 目录下，且不会用软链接。

参考

博客界面更新

2017-10-06T09:57:23.000Z

博客界面更新，应用个性化 Next 主题

戈吉

整理一些博客链接

个人博客

独立开发者/项目

博刊(日/周/月刊)

LaTeX 介绍和使用

简介

发行版本

编辑器

安装

使用

基础框架

常用包和命令

超链接

颜色

相关资源

参考

随手拍

日志 随想

QUIC/HTTP3 协议说明与站点构建

QUIC 与 HTTP3

QUIC/HTTP3 特性

1/0 RTT

优化拥塞控制

无队头阻塞

连接迁移

构建 QUIC/HTTP3 服务

QUIC库选择

QUIC 部署

参考

国际标准化组织发展史

国际电工委员会( IEC )

国家标准化协会的国际联盟 ( ISA ) (已终止)

国际标准化组织 ( ISO )

国际电信联盟 ( ITU )

ECMA

互联网工程任务组

W3C

参考

基于 gitbook 的项目文档设计

基本环境

安装 Nodejs

安装 gitbook

使用 gitbook

项目结构

基本结构

简单示例

必备插件

splitter

simple-page-toc

search-plus

tbfed-pagefooter

anchor-navigation-ex

prism

参考

无版权图库资源收集

pixabay

pexels

isorepublic

gratisography

rawpixel

polayoutu

pxhere

picjumbo

参考

2019-07-28 日志

一份 LaTeX 报告形式模板

环境

IDE

使用

参考

Kafka

应用场景

模块解耦

异步通信/缓冲队列

数据一致性保障

可扩展性强，部分组件失效可容忍

消息模式

平台对比

宏观结构

日志随想