Python通过load data导入MySQL数据

如何使用python连接MySQL数据库,并进行增删改查操作呢?如何将大批量数据导入数据库的情况,又该如何使用Python进行大数据的高效导入呢?

一、环境介绍

Python版本:Python3.6

MySQL版本:5.6.44

二、基本操作

1、安装PyMySQL库

通过pip命令安装:

pip install pymysql

2、SQL基本语法

下面要用SQL的表创建、查询、数据插入等SQL语言的基本语句。

  • 查看数据库:SHOW DATABASES;
  • 创建数据库:CREATE DATEBASE 数据库名称;
  • 使用数据库:USE 数据库名称;
  • 查看数据表:SHOW TABLES;
  • 创建数据表:CREATE TABLE 表名称(列名1 (数据类型1),列名2 (数据类型2));
  • 插入数据:INSERT INTO 表名称(列名1,列名2) VALUES(数据1,数据2);
  • 查看数据:SELECT * FROM 表名称;
  • 更新数据:UPDATE 表名称 SET 列名1=新数据1,列名2=新数据2 WHERE 某列=某数据;

3、连接数据库

# 首先导入PyMySQL库
import pymysql

# 连接数据库,创建连接对象connection
# 连接对象作用是:连接数据库、发送数据库信息、处理回滚操作(查询中断时,数据库回到最初状态)、创建新的光标对象
connection = pymysql.connect(host = 'localhost' #host属性
                             user = 'root' #用户名 
                             password = '******'  #此处填登录数据库的密码
                             db = 'mysql' #数据库名
                             )

4、增删改查操作

查看数据库中有哪些scheme:

#创建光标对象,一个连接可以有很多光标,一个光标跟踪一种数据状态。
#光标对象作用是:、创建、删除、写入、查询等等
cur = connection.cursor()

#查看有哪些数据库,通过cur.fetchall()获取查询所有结果
print(cur.fetchall())

打印出所有数据库:

(('information_schema',),
('weijing',),
('mysql',),
('performance_schema',),
('test',))

在weijing数据库里创建表:

# 使用数据库weijing
cur.execute('use weijing')

# 在weijing数据库里创建表student,有name列和age列
cur.execute('CREATE TABLE student(name VARCHAR(20),age TINYINT(3))')

向数据表student中插入一条数据:

sql = 'INSERT INTO student (name,age) VALUES (%s,%s)'
cur.execute(sql,('XiaoMing',23))

查看数据表student内容:

cur.execute('SELECT * FROM student')
print(cur.fetchone())

打印输出为:(‘XiaoMing’, 23)

最后,要记得关闭光标和连接:

#关闭连接对象,否则会导致连接泄漏,消耗数据库资源
connection.close()

#关闭光标
cur.close()

整个流程大致如此。

三、导入大数据文件

以csv文件为例,csv文件导入数据库一般有两种方法:

1、通过SQL的insert方法一条一条导入,适合数据量小的CSV文件,这里不做赘述。

2、通过load data方法导入,速度快,适合大数据文件,也是本文的重点。

总体工作分为3步:

1、用python连接mysql数据库;

2、基于CSV文件表格字段创建表;

3、使用load data方法导入CSV文件内容。

MySQL中load data语法:

LOAD DATA LOCAL INFILE 'csv_file_path' INTO TABLE table_name FIELDS TERMINATED BY ',' LINES TERMINATED BY '\\r\\n' IGNORE 1 LINES


csv_file_path 
# 指文件绝对路径

table_name 
# 指表名称

FIELDS TERMINATED BY ',' 
# 指以逗号分隔

LINES TERMINATED BY '\\r\\n'  
# 指换行

IGNORE 1 LINES  
# 指跳过第一行,因为第一行是表的字段名

Python通过load data 导入数据的全部代码:

#导入pymysql方法
import pymysql


#连接数据库
config = {'host':'',
          'port':3306,
          'user':'username',
          'passwd':'password',
          'charset':'utf8mb4',
          'local_infile':1
          }
conn = pymysql.connect(**config)
cur = conn.cursor()


# load_csv函数,参数分别为csv文件路径,表名称,数据库名称
def load_csv(csv_file_path,table_name,database='weijingdb'):
    # 打开csv文件
    file = open(csv_file_path, 'r',encoding='utf-8')
    # 读取csv文件第一行字段名,创建表
    reader = file.readline()
    b = reader.split(',')
    colum = ''
    for a in b:
        colum = colum + a + ' varchar(255),'
    colum = colum[:-1]
    # 编写sql,create_sql负责创建表,data_sql负责导入数据
    create_sql = 'create table if not exists ' + table_name + ' ' + '(' + colum + ')' + ' DEFAULT CHARSET=utf8'
    data_sql = "LOAD DATA LOCAL INFILE '%s' INTO TABLE %s FIELDS TERMINATED BY ',' LINES TERMINATED BY '\\r\\n' IGNORE 1 LINES" % (csv_filename,table_name)
 
    #使用数据库
    cur.execute('use %s' % database)
    #设置编码格式
    cur.execute('SET NAMES utf8;')
    cur.execute('SET character_set_connection=utf8;')
    #执行create_sql,创建表
    cur.execute(create_sql)
    #执行data_sql,导入数据
    cur.execute(data_sql)
    conn.commit()
    #关闭连接
    conn.close()
    cur.close()

发表评论