Kennis delen en ontspanning

Evenementen

Kennis delen

We delen onze kennis en ervaring graag en zijn nooit te oud om zelf te leren. Daarom volgen we seminars en congressen over de hele wereld en organiseren we zelf kennis- en intervisiesessies over uiteenlopende onderwerpen. Leerzaam, verbindend en leuk. Bij ons krijg je de vrijheid jezelf te ontwikkelen en grenzen te verleggen. 

Ontspanning

We werken hard én genieten ook hard. Om onze stoom af te blazen en de verbinding te blijven zoeken met collega’s, opdrachtgevers, toekomstige collega’s en andere connecties, organiseren we iedere donderdagmiddag een borrel in onze eigen skybar op de 22ste verdieping van ons hoofdkantoor in Utrecht. Kom je ook een keer langs? Neem contact op met een van onze recruiters.

Cloud 22

Conclusion Gilde Machine Learning – Inleiding Data Wrangling (met Python & Jupyter Notebooks)

Datum: donderdag 21 februari 2019 – 17.00 tot 21.00 uur
Locatie: Conclusion Nieuwegein, Edisonbaan 15
Voor wie: een ieder die geinteresseerd is in data science

Aan de basis van iedere Data Science activiteit ligt data. Of je nu dashboards en rapporten gaat maken, een business probleem gaat uitzoeken of een machine learning model probeert te construeren. In deze sessie van het Conclusion Gilde voor Machine Learning gaan we aan de slag met Data Wrangling (“data kneden”). Dit is de stap waarin de ruwe data wordt bewerkt tot een vorm die bruikbaar is voor business intelligence en machine learning.

Data Wrangling omvat een combinatie van activiteiten zoals valideren en schonen van data, combineren van data sets, analyseren van attributen, corrigeren van waarden, dedupliceren, verrijken van data vanuit externe bronnen en algoritmes, uniformeren van formaten en eenheden, afleiden van attributen die geschikt zijn voor verdere stappen in de data science workflow, anonimiseren van identificeerbare attributen en meer. De uitkomst van Data Wrangling is een ‘mise en place’ – een data set waar de data scientist mee los kan.

Data Wrangling kan worden gedaan met allerlei technologieën – van SQL, klassieke ETL tools tot Excel en Perl. Een favoriet tool voor veel data scientists voor data wrangling is Jupyter Notebook, vaak in combinatie met Python als data bewerkingstaal. Deze combinatie wordt overigens ook gebruikt voor visualisatie van data en voor het ontwikkelen van Machine Learning modellen.(een korte introductie van Jupyter Notebooks staat hier op YouTube).

In deze sessie maken we kennis met Python (een van de meest gebruikte talen voor data science) en Jupyter Notebooks. Na een korte demo gaan we aan de slag met eerst een simpel notebook en vervolgens een uitgebreidere casus waarin veel aspecten van data wrangling aan bod komen (en we ook wat data visualisatie en machine learning doen – ook met Jupyter Notebook).

 

De agenda voor deze sessie:

 

  • Introductie van de Data Flow - Met speciale aandacht voor data wrangling
  • Introductie van Python, Jupyter Notebook en Pandas
  • Aan de slag met Jupyter Notebook
  • Diner
  •  Introductie van de casus en de beschikbare data gevolgd door bespreking van de aanpak – de data flow toegepast op deze casus
  • Hands-on workshop:
    • Verzamel de raw data (JSON) in een data lake (het file systeem)
    • Wrangle de data (fase I) – reshape, discard, deduplicate, derive
    •  Wrangle de data (fase II) – join/merge, verrijk (uit externe bronnen en met NLP data extractie), aggregeer
    • Business Intelligence (visualisatie) 
  • Machine Learning – train en test model vanuit Notebook  (Decision tree, Classification)

Voor deze sessie is niet speciale voorkennis vereist. Enige ervaring met programmeren of scripten en het werken met data is nuttig (bijvoorbeeld met SQL of Excel). Je hebt een laptop nodig om aan de handson te kunnen meedoen, en je laptop moet een Virtual Machine (VirtualBox) of Docker Containers kunnen runnen.

Als je wilt aansluiten voor deze sessie, stuur graag een email naar bu.om@amis.nl .

  • Deel via