样例数据集是什么

 
几行数据形成的数据集,意在验证/跑通 一个模型 
    
客户

 
import pandas as pd    
import numpy as np    
import random  
    
# 构造数据集    
np.random.seed(0)  # 为了结果的可重复性 
data_len = 50
data = {    
    '年龄': np.random.randint(20, 70, size=data_len),    
    '收入': np.random.randint(20000, 100000, size=data_len),    
    '简化信用评分': np.random.randint(300, 850, size=data_len),    
    '是否违约': np.random.choice([0, 1], size=data_len, p=[0.8, 0.2])  # 假设大部分不违约    
}    
df = pd.DataFrame(data)    
    
# 定义可能的职业类型  
job_types = ['软件工程师', '数据分析师', '市场营销专员', '医生', '教师', '会计师', '银行职员', '自由职业者']  
    
# 随机选择职业类型并添加到DataFrame中  
df['职业类型'] = [random.choice(job_types) for _ in range(len(df))]  
    

 

    

 

    

 

    

 


 

  

 


温度出行

 
$ cat wendu.csv 
weather,temperature,go_out
sunny,high,No
sunny,low,Yes
rain,high,No
rain,low,No
cloudy,high,Yes
cloudy,high,Yes
    

 
import pandas as pd
import os
from tpf import pkl_load,pkl_save

wendu_chuxing = "/media/xt/tpf/tpf/aiwks/datasets/tianqichuxing/wendu.csv"
wendu_pd = pd.read_csv(wendu_chuxing)

 
from tpf.params import TPF_DATADIR
wendu_path = os.path.join(TPF_DATADIR,"wendu_chuxing.pkl")
pkl_save(wendu_pd, file_path=wendu_path, use_joblib=False)

 
import os
import pandas as pd
from tpf import pkl_load,pkl_save
from tpf.params import TPF_DATADIR

wendu_path = os.path.join(TPF_DATADIR,"wendu_chuxing.pkl")
wendu_pd = pkl_load(file_path=wendu_path, use_joblib=False)

print(wendu_pd)
   weather temperature go_out
0   sunny        high     No
1   sunny         low    Yes
2    rain        high     No
3    rain         low     No
4  cloudy        high    Yes
5  cloudy        high    Yes

 

  

 

    
时序·机器人执行任务

 
    关于“robot_execution_failures”机器人数据集中“time”这一列数据的单位问题,其单位并非秒,但具体单位并未在公开信息中明确指出。不过,可以对该数据集进行详细的解释:
    一、数据集概述
    
    “robot_execution_failures”数据集是一个关于机器人执行失败情况的数据集,包含了机器人在执行任务过程中发生故障时的力和扭矩测量值。这些测量值是在故障检测后,以固定的时间间隔收集的。
    二、数据集内容
    
        数据格式:该数据集以TEXT格式存储。
        特征数量:每个数据集中的特征数量均为90个。这些特征都是数字的(连续的,尽管只有整数),并且每个特征表示在故障检测后收集的力和扭矩测量值。
        时间间隔:每个故障实例都以固定的时间间隔收集了15个力和扭矩样本。虽然具体的时间间隔(即“time”列的单位)未在公开信息中明确,但可以确定的是这些样本是在一个相对较短的时间窗口内收集的。
        总观察窗口:每个故障实例的总观察窗口为315毫秒(ms),这意味着从故障检测到收集完15个样本的总时间为315毫秒。
    
    三、数据集结构
    
    每个数据集中的示例都按照以下格式描述:
    
    class Fx1 Fy1 Fz1 Tx1 Ty1 Tz1 Fx2 Fy2 Fz2 Tx2 Ty2 Tz2 ... Fx15 Fy15 Fz15 Tx15 Ty15 Tz15
    
    其中,class表示故障类别,Fx1到Fx15表示力Fx在观测窗口中的演变(即15个时间点的测量值),同理,Fy、Fz表示另外两个方向的力,Tx、Ty、Tz表示扭矩的三个分量。
    四、数据集用途
    
    该数据集主要用于分类任务。通过分析机器人在执行任务过程中的力和扭矩测量值,可以训练机器学习模型来识别不同类型的故障。
    五、数据集获取
    
    可以通过相关网站(如http://www.52phm.cn/datasets/industrial-robot/Robot-execution-fault.html)获取该数据集。
    
    综上所述,“robot_execution_failures”机器人数据集中的“time”列数据单位并未在公开信息中明确为秒,但可以根据数据集的描述和使用场景来推断其为一个相对较短的时间间隔内的测量值。同时,该数据集是一个用于分类任务的重要资源,可以帮助研究人员和开发人员更好地理解和预测机器人在执行任务过程中的故障情况。

    

 

    http://www.52phm.cn/datasets/industrial-robot/Robot-execution-fault.html

 
    from tsfresh.examples import robot_execution_failures
    robot_execution_failures.download_robot_execution_failures()
    

 
    df, y = robot_execution_failures.load_robot_execution_failures()
    

 

    

 


 

  

 


参考