职责范围:
1.研究不同的数据资产,了解它们的价值,分布和质量(结构,半结构化和非结构化)。
2.开发数据充实内容
3.自己的数据质量-从检测问题到修复可以使用脚本和其他工具自动修复的问题
4.开发内部逻辑数据模型,并编写从原始数据填充数据模型的代码。
5.开发从原始数据到最终可用数据模型的ETL步骤
要求:
1.工业工程/统计/数学/生物信息学学士/文学士;
2.3年以上研究,查询,清理和可视化包含非结构化数据的大型复杂数据集的经验
3.生物信息学,生物工程,生物学或医学领域的背景-非常强大的优势
具有Python或其他脚本语言的经验
4.掌握统计领域
5.精通SQL
6.熟练掌握至少一种可视化/ BI工具-qlikview,sisense等
7.具有No-SQL数据库的经验(mongoDB,Elasticsearch,Hadoop,spark)
8.扎实地掌握机器学习的工作原理;
9.跟踪记录,追求卓越
10.有条理,注重细节
11.非常好奇和快速的学习者,动手方法
12.独立,沟通能力强-能够以口头和书面形式清晰地表达发现和见解
对数据和人员的深切热情
技能专长:
1.跟踪记录,追求卓越
2.有条理,注重细节
3.非常好奇和快速的学习者,动手方法
4.独立,沟通能力强-能够以口头和书面形式清晰地表达发现和见解
对数据和人员的深切热情