Data Validation and Data Verification – from Dictionary to Machine Learning
írta: Aditya Aggarwal, az Advanced Analytics Practice vezetője és Arnab Bose, az Abzooba tudományos vezetője
az Adatminőségről való beszélgetés során gyakran használjuk az adatellenőrzést és az adatérvényesítést felcserélhető módon. Ez a két kifejezés azonban különbözik egymástól. Ebben a cikkben meg fogjuk érteni a különbséget 4 különböző kontextusban:
- szótár jelentése ellenőrzés és érvényesítés
- különbség az adatok ellenőrzése és az adatok érvényesítése általában
- különbség a hitelesítés és érvényesítés szoftverfejlesztés szempontjából
- különbség az adatok ellenőrzése és az adatok érvényesítése a gépi tanulás szempontjából
szótár jelentése hitelesítés és érvényesítés
az 1.táblázat néhány példával ismerteti a verification and validation szavak szótári jelentését.
összefoglalva, az ellenőrzés az igazságról és a pontosságról szól, míg az érvényesítés a Nézőpont erősségének vagy az állítás helyességének alátámasztásáról szól. Az érvényesítés a módszertan helyességét, míg az ellenőrzés az eredmények pontosságát ellenőrzi.
az adatellenőrzés és az adatellenőrzés közötti különbség általában
most, hogy megértjük a két szó szó szerinti jelentését, vizsgáljuk meg az “adatellenőrzés” és az “adatellenőrzés”közötti különbséget.
- Adatellenőrzés: az adatok pontosságának ellenőrzése.
- Adatellenőrzés: az adatok helyességének ellenőrzése.
dolgozzuk ki a példákat a 2.táblázatban.
a hitelesítés és az érvényesítés közötti különbség szoftverfejlesztési szempontból
szoftverfejlesztési szempontból,
- ellenőrzés történik annak biztosítása érdekében, hogy a szoftver kiváló minőségű, jól megtervezett, robusztus és hibamentes anélkül, hogy a használhatóság.
- az ellenőrzés a szoftver használhatóságának és kapacitásának biztosítása érdekében történik, hogy megfeleljen az ügyfelek igényeinek.
1. Ábra: A hitelesítés és az érvényesítés közötti különbségek a szoftverfejlesztésben (forrás)
amint az 1. ábrán látható, a helyesség igazolása, a robusztusság elemzése, az egységtesztek, az integrációs teszt és mások mind olyan ellenőrzési lépések, ahol a feladatok a sajátosságok ellenőrzésére irányulnak. A szoftver kimenetét a kívánt kimenethez igazítják. Másrészt a modellellenőrzés, a fekete doboz tesztelése, a használhatóság tesztelése mind olyan érvényesítési lépések, ahol a feladatok arra irányulnak, hogy megértsék, hogy a szoftver megfelel-e a követelményeknek és elvárásoknak.
az adatellenőrzés és az adatérvényesítés közötti különbség a gépi tanulás szempontjából
az adatellenőrzés szerepe a gépi tanulási folyamatban a kapuőr. Ez biztosítja a pontos és frissített adatok idővel. Az adatok ellenőrzése elsősorban az új adatgyűjtési szakaszban, azaz az ML csővezeték 8. lépésénél történik, amint azt az ábra mutatja. 2. Példák erre a lépésre a duplikált rekordok azonosítása és a deduplikáció végrehajtása, valamint az ügyféladatok eltéréseinek tisztítása a mezőben, például a cím vagy a telefonszám.
másrészt az adatok validálása (az ML-folyamat 3.lépésénél) biztosítja, hogy a 8. lépésből származó növekményes adatok, amelyeket hozzáadnak a tanulási adatokhoz, jó minőségűek és hasonlóak (statisztikai tulajdonságok szempontjából) a meglévő képzési adatokhoz. Ez magában foglalja például az adat anomáliák megállapítását vagy a meglévő képzési adatok és az új, a képzési adatokhoz hozzáadandó adatok közötti különbségek észlelését. Ellenkező esetben az adatminőségi problémák/statisztikai különbségek a növekményes adatokban hiányozhatnak, és a képzési hibák idővel felhalmozódhatnak, és ronthatják a modell pontosságát. Így az adatok validálása jelentős változásokat észlel (ha van ilyen) a növekményes képzési adatokban egy korai szakaszban, amely segít a kiváltó okok elemzésében.
2. ábra: a gépi tanulási folyamat összetevői
Aditya Aggarwal az Abzooba Inc. adattudományi – gyakorlati vezetőjeként szolgál. Az Aditya több mint 12 éves tapasztalattal rendelkezik az üzleti célok adatközpontú megoldásokon keresztül történő megvalósításában, a prediktív elemzésre, a gépi tanulásra, az üzleti intelligencia & üzleti stratégiára specializálódott számos iparágban.
Dr. Arnab Bose az Abzooba, egy adatelemző vállalat és a Chicagói Egyetem adjunktusa tudományos vezetője, ahol gépi tanulást és prediktív elemzést, gépi tanulási műveleteket, idősor-elemzést és előrejelzést, valamint egészségügyi elemzést tanít a Master of Science in Analytics programban. 20 éves prediktív elemzési iparági veterán, aki élvezi a strukturálatlan és strukturált adatok használatát az egészségügyi, kiskereskedelmi, pénzügyi és szállítási viselkedési eredmények előrejelzésére és befolyásolására. Jelenlegi fókuszterületei közé tartozik az egészségügyi kockázatok rétegződése és a krónikus betegségek kezelése gépi tanulással, valamint a gépi tanulási modellek gyártási telepítése és nyomon követése.
kapcsolódó:
- MLOps – ” miért van szükség?”és “mi ez”?
- a gépi tanulási modellem nem tanul. Mit csináljak?
- Adatmegfigyelhetőség, II. rész: Hogyan készítsünk saját adatminőség-monitorokat az SQL használatával
Leave a Reply