V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
KIDJourney
V2EX  ›  Python

怎么向 sklearn 导入数据呢?

  •  
  •   KIDJourney ·
    KIDJourney · 2016-01-10 09:17:00 +08:00 · 4053 次点击
    这是一个创建于 3239 天前的主题,其中的信息可能已经有所发展或是发生改变。

    tutorial 里面用的都是内置的数据,我不是太明白怎么把自己的数据给他。

    我的数据集是这样的

    39,State-gov,Bachelors,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,0
    50,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,0

    对应

    • 年龄
    • 工作类型
    • 教育程度
    • 婚姻状态
    • 职业
    • 家庭角色
    • 种族
    • 性别
    • 资本收益
    • 资本损失
    • 每周工作时长
    • 原国籍
    • 隶属群组

    请问我该怎样用 sklearn 来导入这组数据呢?

    12 条回复    2016-01-13 23:07:27 +08:00
    billgreen1
        1
    billgreen1  
       2016-01-10 09:37:25 +08:00
    推荐用 pandas , 可以读取 csv ,数据库,...,各种数据源。

    读取后,是一个 dataframe , 有一个.values 属性,返回的是一个数组。
    KIDJourney
        2
    KIDJourney  
    OP
       2016-01-10 09:48:46 +08:00
    @billgreen1 多谢,我去看看文档。
    话说数据集里面像”婚姻情况“这种特征是不是应该建一个字典然后把 index 放到训练集里面?
    这个 pandas 会自动做吗
    staticor
        3
    staticor  
       2016-01-10 13:33:00 +08:00   ❤️ 2
    提供一段代码供参考, 如果分组型字符变量的话要用 0, 1, ... 来离散表示:



    https://gist.github.com/staticor/ee9730d8ef0b01222428
    sleeperqp
        4
    sleeperqp  
       2016-01-10 14:06:18 +08:00   ❤️ 1
    @KIDJourney 可以的 你去看下 pandas 例子就知道
    KIDJourney
        5
    KIDJourney  
    OP
       2016-01-10 14:41:03 +08:00
    @sleeperqp
    @staticor

    十分感谢
    sleeperqp
        6
    sleeperqp  
       2016-01-10 19:44:55 +08:00
    用 pandas 读完 csv 然后放入 numpy 就可以了~ 具体的你可以看看例子
    yech1990
        7
    yech1990  
       2016-01-10 22:01:43 +08:00   ❤️ 1
    @billgreen1 sklearn 本身就是依赖 pandas 的

    @KIDJourney tutorial 写得很清楚, 建议再仔细看看. 还有就是你想 train 什么模型, 得先搞清楚
    KIDJourney
        8
    KIDJourney  
    OP
       2016-01-11 08:25:49 +08:00
    @yech1990 好的。多谢
    billgreen1
        9
    billgreen1  
       2016-01-11 13:13:52 +08:00
    @yech1990 sklearn 不依赖 pandas ,是依赖 scipy 的。
    Michael728
        10
    Michael728  
       2016-01-13 14:02:17 +08:00
    @sleeperqp 发现这里真是什么大牛都有呀。最近在学 python ,但是数据分析入门感觉挺慢。/(ㄒoㄒ)/~~
    sleeperqp
        11
    sleeperqp  
       2016-01-13 15:02:10 +08:00
    @Michael728 我也是新手弱弱 0 0 多写就好了 最好找点东西做 比如去 kaggle 上找个比赛做做 这样做得快 我觉得主要还是对数据的跟算法的两个理解结合起来才能做好这件事
    KIDJourney
        12
    KIDJourney  
    OP
       2016-01-13 23:07:27 +08:00
    @Michael728 我现在也只是套模型而已,建议先用这些东些做出点东西,有了成就感,再去深入了解底层的知识,这样比较好。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2457 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 15:40 · PVG 23:40 · LAX 07:40 · JFK 10:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.