Data Validation and Data Verification – from Dictionary to Machine Learning

írta: Aditya Aggarwal, az Advanced Analytics Practice vezetője és Arnab Bose, az Abzooba tudományos vezetője

az Adatminőségről való beszélgetés során gyakran használjuk az adatellenőrzést és az adatérvényesítést felcserélhető módon. Ez a két kifejezés azonban különbözik egymástól. Ebben a cikkben meg fogjuk érteni a különbséget 4 különböző kontextusban:

  1. szótár jelentése ellenőrzés és érvényesítés
  2. különbség az adatok ellenőrzése és az adatok érvényesítése általában
  3. különbség a hitelesítés és érvényesítés szoftverfejlesztés szempontjából
  4. különbség az adatok ellenőrzése és az adatok érvényesítése a gépi tanulás szempontjából

szótár jelentése hitelesítés és érvényesítés

az 1.táblázat néhány példával ismerteti a verification and validation szavak szótári jelentését.

1. táblázat: Szótár jelentése ellenőrzés és érvényesítés
 táblázat

összefoglalva, az ellenőrzés az igazságról és a pontosságról szól, míg az érvényesítés a Nézőpont erősségének vagy az állítás helyességének alátámasztásáról szól. Az érvényesítés a módszertan helyességét, míg az ellenőrzés az eredmények pontosságát ellenőrzi.

az adatellenőrzés és az adatellenőrzés közötti különbség általában

most, hogy megértjük a két szó szó szerinti jelentését, vizsgáljuk meg az “adatellenőrzés” és az “adatellenőrzés”közötti különbséget.

  • Adatellenőrzés: az adatok pontosságának ellenőrzése.
  • Adatellenőrzés: az adatok helyességének ellenőrzése.

dolgozzuk ki a példákat a 2.táblázatban.

2. táblázat: “Adatellenőrzés “és” adatellenőrzés ” példák
 kép

a hitelesítés és az érvényesítés közötti különbség szoftverfejlesztési szempontból

szoftverfejlesztési szempontból,

  • ellenőrzés történik annak biztosítása érdekében, hogy a szoftver kiváló minőségű, jól megtervezett, robusztus és hibamentes anélkül, hogy a használhatóság.
  • az ellenőrzés a szoftver használhatóságának és kapacitásának biztosítása érdekében történik, hogy megfeleljen az ügyfelek igényeinek.

Ábra
1. Ábra: A hitelesítés és az érvényesítés közötti különbségek a szoftverfejlesztésben (forrás)

amint az 1. ábrán látható, a helyesség igazolása, a robusztusság elemzése, az egységtesztek, az integrációs teszt és mások mind olyan ellenőrzési lépések, ahol a feladatok a sajátosságok ellenőrzésére irányulnak. A szoftver kimenetét a kívánt kimenethez igazítják. Másrészt a modellellenőrzés, a fekete doboz tesztelése, a használhatóság tesztelése mind olyan érvényesítési lépések, ahol a feladatok arra irányulnak, hogy megértsék, hogy a szoftver megfelel-e a követelményeknek és elvárásoknak.

az adatellenőrzés és az adatérvényesítés közötti különbség a gépi tanulás szempontjából

az adatellenőrzés szerepe a gépi tanulási folyamatban a kapuőr. Ez biztosítja a pontos és frissített adatok idővel. Az adatok ellenőrzése elsősorban az új adatgyűjtési szakaszban, azaz az ML csővezeték 8. lépésénél történik, amint azt az ábra mutatja. 2. Példák erre a lépésre a duplikált rekordok azonosítása és a deduplikáció végrehajtása, valamint az ügyféladatok eltéréseinek tisztítása a mezőben, például a cím vagy a telefonszám.

másrészt az adatok validálása (az ML-folyamat 3.lépésénél) biztosítja, hogy a 8. lépésből származó növekményes adatok, amelyeket hozzáadnak a tanulási adatokhoz, jó minőségűek és hasonlóak (statisztikai tulajdonságok szempontjából) a meglévő képzési adatokhoz. Ez magában foglalja például az adat anomáliák megállapítását vagy a meglévő képzési adatok és az új, a képzési adatokhoz hozzáadandó adatok közötti különbségek észlelését. Ellenkező esetben az adatminőségi problémák/statisztikai különbségek a növekményes adatokban hiányozhatnak, és a képzési hibák idővel felhalmozódhatnak, és ronthatják a modell pontosságát. Így az adatok validálása jelentős változásokat észlel (ha van ilyen) a növekményes képzési adatokban egy korai szakaszban, amely segít a kiváltó okok elemzésében.

ábra
2. ábra: a gépi tanulási folyamat összetevői

Aditya Aggarwal az Abzooba Inc. adattudományi – gyakorlati vezetőjeként szolgál. Az Aditya több mint 12 éves tapasztalattal rendelkezik az üzleti célok adatközpontú megoldásokon keresztül történő megvalósításában, a prediktív elemzésre, a gépi tanulásra, az üzleti intelligencia & üzleti stratégiára specializálódott számos iparágban.

Dr. Arnab Bose az Abzooba, egy adatelemző vállalat és a Chicagói Egyetem adjunktusa tudományos vezetője, ahol gépi tanulást és prediktív elemzést, gépi tanulási műveleteket, idősor-elemzést és előrejelzést, valamint egészségügyi elemzést tanít a Master of Science in Analytics programban. 20 éves prediktív elemzési iparági veterán, aki élvezi a strukturálatlan és strukturált adatok használatát az egészségügyi, kiskereskedelmi, pénzügyi és szállítási viselkedési eredmények előrejelzésére és befolyásolására. Jelenlegi fókuszterületei közé tartozik az egészségügyi kockázatok rétegződése és a krónikus betegségek kezelése gépi tanulással, valamint a gépi tanulási modellek gyártási telepítése és nyomon követése.

kapcsolódó:

  • MLOps – ” miért van szükség?”és “mi ez”?
  • a gépi tanulási modellem nem tanul. Mit csináljak?
  • Adatmegfigyelhetőség, II. rész: Hogyan készítsünk saját adatminőség-monitorokat az SQL használatával

Leave a Reply