Rajeev Gupta, Developer in Delhi, India
Rajeev is available for hire
Hire Rajeev

Rajeev Gupta

Verified Expert  in Engineering

Machine Learning Developer

Location
Delhi, India
Toptal Member Since
July 22, 2019

Rajeev对数据和机器学习充满热情,在众多行业和应用程序的数据科学项目中拥有超过五年的经验. 他目前专注于TensorFlow等尖端技术, Keras, deep learning, and most of the Python data science stack. Rajeev使用这些技能解决了NLP中的许多实际业务问题, image processing, and time series domains.

Availability

Full-time

Preferred Environment

Google Cloud, Jupyter Notebook, Spyder, Git

The most amazing...

...我实现的项目是一个NLP注意力增强顺序推理模型,用于自动化其中一个业务流程.

Work Experience

Data Developer

2021 - PRESENT
Availyst LLC
  • 与美国一家食品聚合初创公司合作,研究数据工程和数据抓取, using the Python data science stack, Jupyter Notebook, and AWS services.
  • 处理了推荐引擎为用户推荐的一种食物和餐厅.
  • 使用Python开发抓取应用程序,并使用AWS服务进行部署.
Technologies: 数据工程、数据抓取、亚马逊网络服务(AWS)、抓取, JavaScript, CSS, Python, MySQL, Tango

Independent Consultant — Data Scientist

2017 - PRESENT
JSS Information Technology Business Incubator
  • 在JSS信息技术企业孵化器担任数据科学导师.
  • 帮助小公司和初创公司利用他们的数据.
  • 使用机器学习创建预测模型.
  • 用神经网络进行自然语言处理.
  • 开发分类和回归算法.
  • Implemented time-series forecasting.
  • Developed image detection with deep learning.
Technologies: Google Cloud Platform (GCP), Git, Jupyter Notebook, Keras, TensorFlow, Scikit-learn, Python

Data Scientist – Fintech Project

2021 - 2022
Forbes Media - Q.ai
  • 管理商业智能团队,作为客户的高级数据科学家.
  • Worked as a quant researcher, 使用先进形式的定量技术和人工智能来生成跨多个资产类别的投资建议, including stocks, ETFs, options, and cryptocurrencies.
  • 使用Dash为增长、营销和领导团队创建了一个仪表板, Plotly, and Tableau.
技术:Python,数据科学,数据分析

Senior Data Scientist and Data Analyst

2021 - 2021
Premier Global Management Consultancy
  • 担任客户及其团队的数据科学家和高级分析师.
  • 曾为美国一家大型时装零售商进行需求空间细分.
  • 将600万客户数据映射到需求空间段.
技术:Python 3, Amazon Elastic MapReduce (EMR), PySpark

Data Scientist

2019 - 2019
美国一家电信和媒体公司
  • 与美国一家电信和媒体公司合作,识别假新闻.
  • 建立了两个模型来识别文章中的讽刺和量化谬误.
Technologies: PyTorch, TensorFlow, Python

Independent Consultant – Data Scientist

2019 - 2019
IBM
  • 曾为IBM美国公司优化其美国设施租赁以运行其运营.
  • 开发Python模型以提高设施利用率, 降低设施运营成本和租赁成本,减少业务限制.
Technologies: Linear Programming, Plotly, Python

Independent Consultant – Data Scientist

2018 - 2018
AbbVie, Inc.
  • 与c级高管和产品管理团队密切合作,分析调查并生成数据/报告.
  • 帮助产品团队和执行团队做出更明智的决策——通过发现新的机会来增加市场份额, 瞄准细分市场,设计巧妙的解决约束的新方法.
技术:关联规则学习,聚类,回归,Matplotlib, Plotly, R, Python

Independent Consultant – Data Scientist

2017 - 2018
Newristics
  • 开发了一个Python应用程序,该应用程序使用自然语言处理与深度神经网络序列来序列学习以实现业务流程自动化.
  • Reduced the cost of business operations.
Technologies: Google Cloud Platform (GCP), Git, Jupyter Notebook, Keras, TensorFlow, Scikit-learn, Natural Language Toolkit (NLTK), SpaCy, GloVe, Gensim, LSTM, Python

Data Scientist

2016 - 2017
Sopra Steria Singapore
  • Worked with the Land Transport Authority, 新加坡将实现将城市转变为数字化和智能化城市的愿景,以提高为市民提供服务的效率, using machine learning, predictive modeling, and data mining.
技术:Git, Jupyter Notebook, Keras, TensorFlow, Scikit-learn, Tableau, Python

Data Scientist

2014 - 2015
Steria India
  • Built a recommendation system for an eCommerce site; it recommended the best possible items to buy based on customer history and collaborative filtering.
  • 通过为一家零售银行开发一种分类算法,帮助客户流失预测,识别下一季度可能流失余额的客户,比当前季度至少减少50%.
  • 为一家零售银行创建了一个分类算法,通过交叉销售其产品来提高现有客户的销售额, the personal loan (customer cross-sales).
技术:分类,聚类,回归,Matplotlib, Plotly, R, Python

Technical Program Manager

1997 - 2014
Steria India — Barclays Bank
  • 在五年内建立约4300万英镑的客户留存业务效益, cost savings, 以及新的商业机会,预计成本约为1200万英镑.
  • 作为指导委员会的重要成员,确定用户需求并为大约250个用户开发定制解决方案,000 Barclaycard acquiring merchants.
  • 领导一个包括解决方案架构师在内的147人的项目团队, designers, developers, 测试人员在整个项目开发生命周期中分布在多个地理位置.
  • 始终保持在每月资源和预算预测的5%左右.
  • 在一个由22个项目经理组成的团队中,被认为是解决问题的人,年支出超过7000万英镑.
Technologies: Oracle, Content Management, Ab Initio, WebSphere, XML, Java, COBOL, JCL, Virtual Storage Access Method (VSAM), IBM Db2, CICS

IBM

IBM美国公司在美国各地租赁了几处设施来运营其业务. 该项目的目标是提高设施利用率,降低设施运营和租赁成本, along with many business constraints.
我开发了Python整数编程算法来解决这个问题. 考虑业务约束使这个问题变得有趣和独特. 我在算法中参数化了优化周期(面向未来的周期),提供了多个解. The client especially appreciated this feature.
技术:Python, plot,线性编程,包装纸浆

Newristics

neistics是一家总部位于美国的全球领导者,致力于将决策启发式科学应用于营销. 使用启发式心理学(500多种不同的启发式),它重写了每个营销信息.

我自动化了消息评分过程,在这个过程中,团队将新消息与旧消息进行比较,并对其进行分析,以评估它对启发式的描述有多接近.

然后使用文本清理对文本数据进行预处理, text normalization, and generated unigram bigram of normalized data. 我建立了两个主要模型来解决这个问题:XGBoost和深度神经网络序列到序列学习.

对于XGBoost,我创建了大约900个特性(分为三个部分).
•NLP基本特征:信息的字数/比例/字符数, TF-IDF of unigram/bigram, gensim TF-IDF similarity, and so on
•词嵌入-自/预训练Word2vec/手套加权平均嵌入向量的相似度(TF-IDF为权重), etc.
•图节点度,邻居的交集,k-core/k-clique,分离度等.

我使用深度学习的序列到序列模型来增强序列推理神经网络架构.

Technologies: Python, LSTM, gensim, GloVe, SpaCy, NLTK, Scikit-learn, TensorFlow, Keras, Jupyter Notebook, Git, Google Cloud Platform

AbbVie, Inc.

AbbVie, Inc. 一家领先的制药公司是否推出了一种市场份额从65%下滑到49%的药物. 他们就三个主题进行了一项医生调查,以帮助制定战略计划.

我们采访了119名医生,了解影响市场驱动因素的HCV组属性, 55 physicians concerning patient treatment, 60位医生关于销售代表的互动以及他们对信息和互动的印象.
我与c级高管和产品管理团队密切合作,分析调查并生成数据/报告. 这有助于产品团队和执行团队做出更明智的决策——通过识别新的机会来增加市场份额, target segments, 并设计出巧妙的解决约束的新方法.
技术:Python, R, Plotly, Matplotlib, Regression, Cluster, Association Rule

Classify H&E Stained Histological Breast Cancer Images

I participated in a hackathon to classify H&E stained histological breast cancer images. 我们得到了一个最小的训练数据集(几百张图像). To increase the robustness of the classifier, 我在ImageNet上对预训练的cnn使用了不同尺度的强数据增强和深度卷积特征提取器. 在这个特征集上,我应用了一个高度精确的梯度增强算法. 我也避免在这种数据量上训练神经网络,以防止次优泛化.

技术:Python 3, Keras, NumPy, Pandas, SciPy, Scikit-learn

啤酒公司sku级的需求预测

问题:他们有大量的产品通过批发商(代理)分销给零售商。. 有数千种独特的批发商- sku /产品组合.

以便计划其生产和分销,并帮助批发商进行计划, 对他们来说,准确估计每个批发商(60)的SKU水平(34)的需求是很重要的。.

数据:使用60家机构、34家sku四年的数据进行预测.
•价格促销(美元/升):价格, sales, 以单位单位月为单位,按每百升的美元价值进行促销
•历史销量(百升):以代理商-库存-月为单位的销售数据
•天气(摄氏度):一个机构月份的平均最高温度
•行业苏打水销售额(百升):行业苏打水销售额
•事件日历:事件细节(体育、嘉年华等)
•行业量(百升):行业实际啤酒量
• Demographics: Demographic details (yearly income in dollars); used deep neural networks sequence to sequence learning for demand prediction

基于深度学习的卫星图像特征检测

我开发了一个使用深度学习的卫星图像特征检测模型. 1KM × 1KM卫星图像有3波段和16波段两种格式. 这张多波段图像取自多光谱(400-1040NM)和短波红外(1195-2365NM)范围.

Languages

Python, Python 3, SQL, R, CICS, COBOL, Java, XML, JavaScript, CSS

Frameworks

LightGBM, Apache Spark

Libraries/APIs

TensorFlow, TensorFlow Deep Learning Library (TFLearn), Matplotlib, Scikit-learn, Pandas, NumPy, XGBoost, CatBoost, Keras, PyTorch, SciPy, Dask, LSTM, SpaCy, Natural Language Toolkit (NLTK), PySpark

Tools

Jupyter, GitHub, Seaborn, Plotly, Git, Spyder, Gensim, Cluster, Tableau, JCL, Ab Initio, Amazon Elastic MapReduce (EMR)

Paradigms

数据科学,敏捷软件开发,线性编程

Platforms

Docker, Amazon Web Services (AWS), Jupyter Notebook, Google Cloud Platform (GCP), WebSphere, Oracle, Tango

Storage

数据管道、Google Cloud、IBM Db2、VSAM (Virtual Storage Access Method)、MySQL

Other

Data Analysis, Data Analytics, Data Scraping, Data Engineering, Quantitative Modeling, Quantitative Analysis, Mixed-integer Linear Programming, Deep Learning, Deep Neural Networks, Convolutional Neural Networks, Recurrent Neural Networks (RNNs), Long Short-term Memory (LSTM), Natural Language Processing (NLP), Image Processing, Time Series Analysis, Artificial Intelligence (AI), Machine Learning, Modeling, Statistical Modeling, Statistical Methods, Statistical Learning, Analytics, GPT, Generative Pre-trained Transformers (GPT), Statistics, Numba, Optimization, Reinforcement Learning, Deep Reinforcement Learning, Dash, GloVe, Regression, Association Rule Learning, Classification, Content Management, Scraping

1991 - 1994

Master's Degree in Computer Science

Jawaharlal Nehru University - New Delhi, India

1987 - 1990

Bachelor's Degree in Mathematics

Delhi University - Delhi, India

Collaboration That Works

How to Work with Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

Choose your talent

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

Start your risk-free talent trial

与你选择的人才一起工作,试用最多两周. Pay only if you decide to hire them.

Top talent is in high demand.

Start hiring